Se connecter

3FS 和smallpond:DeepSeek开源周第五天

Auteur:néo yang Temps:2025/02/28 Lire: 4894
3FS https://github.com/deepseek-ai/3FS 3FS(Fire-Flyer F […]

3FS

https://github.com/deepseek-ai/3FS

3FS(Fire-Flyer File System)是一个专为AI时代设计的“超级数据管家”。简单来说,它解决了AI训练和推理中大规模数据处理的三大痛点:

数据存取太慢?

当数千块SSD硬盘和数百台存储节点组成集群时,3FS能让AI训练程序像访问本地硬盘一样快速读取数据,最高可达6.6TB/s的恐怖速度(相当于1秒下载完300部4K电影)

支持数千个计算节点同时读写,不会出现数据混乱。

数据管理太麻烦?

传统AI训练需要提前把数据加载到内存,而3FS允许直接随机访问存储系统里的数据,省去预加载步骤。

支持自动整理数据集的中间产物(比如清洗后的图片、标注文件等),像管理普通文件夹一样管理海量数据。

资源浪费严重?

大模型推理时需要的KV缓存,用3FS替代昂贵的DRAM内存,成本降低但性能不减(实测峰值吞吐40GB/s)。

训练中途保存进度时,支持数千个GPU同时写入检查点,避免因保存进度耽误训练时间

举个实际例子:假设要训练一个10万亿参数的大模型,传统系统可能需要数小时来保存训练进度,而用3FS就像同时用几万支笔一起记录笔记,30分钟就能完成110TB数据的排序存储,整个过程稳定可靠不丢数据。

这相当于给AI开发团队配备了一个能同时服务数万台服务器、既快又稳的“数据高速公路系统”。

smallpond

https://github.com/deepseek-ai/smallpond

简单来说:​​

smallpond 是一个帮你快速处理“超大数据”的工具。

它能干啥?

比如你有一个超级大的表格(比如全国所有人的网购记录),你想快速统计“每个商品卖了多少件”、“最贵最便宜多少钱”… 这种问题,smallpond 能帮你轻松搞定,而且速度贼快。

它牛在哪?

​快!​ 底层用了高性能数据库 DuckDB,比传统工具(比如Python自己处理)快很多。

​能扛“巨无霸”数据!​ 就算数据大到你的电脑根本存不下(比如PB级,相当于几百万部电影),它也能用分布式存储(3FS)轻松扩展。

​简单!​ 写几行Python就能用,不需要搭建复杂系统。

适合谁用?

程序员、数据分析师,需要快速分析海量数据,又不想折腾复杂技术栈的人。

关注我的微信公众号



copyright © www.lyustu.com tous droits réservés.
Thème : TheMoon V3.0. Auteur : neo yang