就在昨天,没有一点点防备,DeepSeek 官方还是一如既往的低调,不过还是让整个 AI 圈子都沸腾了~


本来大家都在期待着 R2 的发布,想看看有没有什么突破性的能力,结果 R2 迟迟没来,倒是挤牙膏似的把 V3 模型一点点补充了起来。
只不过,经过众多大佬的测试发现,这一次的更新似乎没有那么给力,整体性能提升不是很明显,甚至一些推理场景还不如之前的版本,这看起来是更新了一个寂寞啊。
所以在各个群里,大家都在想着怎么回退,怎么拿回原来的 V3 版本。

萝卜哥也紧急找到了回退方案,放在文末了,有需要使用老版本的伙伴可以到文末查看哈。
下面咱们还是来简单测试一下新版本,也就是 DeepSeek V3.1 的能力
逻辑推理
所有猫都会飞。小花是一只猫。请问小花会飞吗?
V3.1结果:

R1-0528结果:

两个版本差别不大,都是在基于假设前提下得出了小花会飞的结论。
数学计算
如果一个圆的半径是5,圆心在原点,求圆上一点 (3, y) 的 y 值,并计算该点到直线 y = x + 1 的距离。
V3.1结果:

R1-0528结果:

两个版本也全部正确,不过 V3.1 的思考时间比 R1 要短很多,这一波 V3.1 胜。
代码生成
写一个Python函数,输入一个整数列表,返回其中所有偶数的平方和。然后指出下面这段代码的错误并修正:
def sum_even_squares(nums):
return sum(x^2 for x in nums if x % 2 == 0)
V3.1结果:

R1-0528结果:

对于这种代码 debug 问题,也都能很好的完成。
常识与事实核查
为什么不能在月球上点燃蜡烛?
V3.1结果:
然后 DeepSeek 官网就频繁了,这个问题到底啥时候能解决呀。。。

R1-0528结果:

上下文长度测试
新版本不是号称 128K 的长度了,那么就来上一上难度。
我投喂给 V3.1 一部红楼梦电子版,让它帮我查看某一段的细节
附件中第七十九回的回目是什么

虽然 DeepSeek 说自己只阅读了前 13%,但是很明显,它还是可以通过关键字检索来确定整个文本的内容的。

创意写作
请以“一个AI获得了自我意识”为主题,写一段不超过100字的科幻微小说。
V3.1结果:

R1-0528结果:

我觉得 R1 的版本更好,大家觉得呢?
回退到老版本
目前官网已经都是 V3.1 版本了,不过我们可以使用其他第三方网站,这些网站很多都是自己用开源模型提供服务的,所以还都是老 V3 版本,比如我一直推荐的 askmanyai 网站,就是国内非常优秀的 AI 聚合网站,接入了海量的大模型,可以满足我们绝大多数的应用场景。

最关键的是,很多海外模型也都是免费使用,不用翻墙不用特殊网络,简单方便啊。
大家直接访问下面的地址就能访问:https://dazi.co/login?i=cd304877
比如萝卜哥自己创建了一个分组,专门用于调用 DeepSeek 模型

我们可以一次性选择多个模型进行调用,从而快速比较不同模型之间的差异,是不是很方便~
暂无评论内容