DeepSeek的五天开源结束,一个接一个核弹把大模型界炸的体无完肤。
先接着上次的文章说一说DeepSeek后面三天开源的内容。
第三天,开源了DeepGEMM。
是一个300行代码的计算引擎,也是DeepSeek-V3/R1大模型背后的核心计算引擎之一。
简单的说,相当于一个超强的计算器,让AI可以在计算时候,更快、更省电,同时保持高精度。
第四天,开源了DualPipe。
是一种创新的双向流水线并行算法。
简单的说,就是让AI可以同时做两件事,边计算边传输数据,提高效率。
第五天,开源了3FS & Smallpond。
3FS是一个高性能并行文件系统。Smallpond是基于3FS的高效数据处理框架。
简单的说,3FS可以更快的访问数据,而Smallpond可以高效的整理使用这些数据。
从DeepSeek整体的五天开源来看,DeepSeek基本只做了一件事,就是极致的提高效率,减少成本,避免浪费资源。
但这并不是结束,DeepSeek在第六天放出了一个彩蛋。
第六天,DeepSeek官方给出了 DeepSeek-V3 / R1 推理系统的技术解读。
其实大家只用知道一句话:【通过优化吞吐和延迟,DeepSeek理论日收入$562,027,成本利润率 545%。】
这里要先提一下OpenAI了。
GPT4.5上线了一天,已经被喷成了筛子,很多人认为这个模型已经彻底失败了。
因为DeepSeek放出的彩蛋,通过计算,GPT-4.5比DeepSeek V3贵了500倍,表现却更差。
GPT4.5在测试中,并没有表现的很好,唯一得出的一些优点是:情商高、写作好、知识渊博,幻觉少了,还能防诈骗。
诚如 Ilya 所说:我们只有一个互联网,所有的数据都用光了,模型再增大就很难变强了。
也再次证明了一件事,预训练的时代结束了。
GPT-4.5 是上一个时代的终结,而DeepSeek R1是下一个时代的起点。
暂无评论内容