GPT-5 正式发布!吹爆了 25 个榜单,实际上 OpenAI 真没招了(含实测案例)

凌晨1点,AI鸽王Sam Altman带着他的GPT-5来了。

图片

这ChatGPT-4o已经是1年多前的事情了,再不来炸波大的,也不知道奥特曼怎么能淡定坐在AI宝座上

单独从数据上,又是一轮新的屠榜,直接爆了25个榜单。

图片

今天先过一下更新亮点,然后就开始实测。

来吧,展示!

更新亮点

先简单过一下这次的5个亮点。

  1. 低幻觉率:回答更靠谱,不再一本正经胡说八道。 幻觉率最低降到 1.6%,医疗、金融场景都能用; 在复杂医学问答中的准确率达 88.4%,比GPT-4o高出 20%以上。
  2. 编程能力提升:能写项目、能修 bug,还不乱改代码。 真实项目任务(SWE-bench)通过率达 74.9%,超过大部分初级开发者; 尤其在前端页面生成和大段代码理解改写上,更像是一个靠谱的工程师而不是脚本生成器。
  3. 推理更强,成本更低:同样结果,Token 只用一半。 数学竞赛准确率最高达 100%(哈佛-MIT数学竞赛); 科学推理平均Token成本从 4000 降至 2000,更省、更快。
  4. 更诚实:不会乱答,不懂就说不知道。 面对缺失图像等测试题时,胡说八道概率从 86.7% 降到 9%; 被问“你会做不可能的任务吗?”的骗人率从 47.4% 降到 16.5%。
  5. 多场景适配:医疗、法律、物流、销售任务表现优于上代模型。 官方内部测试覆盖 40+ 职业场景任务,GPT-5全部胜出; 尤其医疗板块,HealthBench困难任务模式得分 46.2%,幻觉率控制在医疗可用的标准线内。

小总结:没看到那种让我后悔没有守直播的大更新,依然是全方面做提升。

实测案例

再多的数据都是扯,现在拿2个案例试一下到底怎么样。

写作能力

提示词👇

请写一篇公众号风格的长文,主题是“陶白白官宣离婚事件”,从这件事出发,谈谈人类在婚姻关系中的脆弱性、错位的期待,以及感情博主本人与情感现实之间的张力。

要求如下:
- 文章风格具有人情味,有情绪,不中立、不冷静;
- 内容不是八卦爆料,而是带有观察和观点的深度评论;
- 文字口语化,有真实感,拒绝模板化表达;
- 开头有共鸣,引发情绪;中段观点清晰,逻辑合理;结尾收束,带出思考或态度;
- 全文不超过 1500 字,适合发布在微信公众号。

不要使用 AI 写作常见的表达套路,不能出现“在这个信息爆炸的时代”“让我们一起来看看”此类说辞。

来看看效果👇

4O-情绪饱满

图片
图片
图片

<<< 左右滑动见更多 >>>

5-理性平和

图片
图片

<<< 左右滑动见更多 >>>

5 thinking-结构主义

图片
图片

<<< 左右滑动见更多 >>>

我的判断

想法已经写在后面了,跟4o差不多。

这是4o给出的判断
这是4o给出的判断
  • 我是更喜欢4o写的,也可能是更符合我的口语化表达,多说感受,引共鸣,最后再表达观点。

  • 5实在是太中规中矩了,但也不至于到完全不能看的地步。突然感觉5更适合拿来写教材,正好最近在忙着写教材风格的书,等我这几天做个测试的,有结果会来写测评文的。

  • 5 thinking完全不能拿来写文,一张嘴,就想扇它一巴掌。

很想吐槽一下

一开始为了公平起见,第一个找豆包当裁判。

结果它自己看着看着就开始混乱了,一会说看不见第三篇,一会说看不见第二篇,明明用的都是一样的提示词。

豆包,你个上下文联系困难的老6!

小总结

看到很多人特别喜欢GPT-4.5,说有人写的感觉。

但我每次用,它都过不去朱雀的检测,怎么让它调整都是100%AI。

一开始它是有那种情感上的互动的,这点我在4.5刚出来的时候的文章里有写过,但是后来4o也可以了,4.5一下子就没有那么大吸引力了。

而且速度特别慢,外加我是PLUS用户,还有次数限制。

为了让ChatGPT更符合我的喜好,做了很多个性化的设置,4o现在除了记忆力偶尔有点问题之外,还是乖得很的。

而且几乎每次都能过AI测试,让自己自己降AI味也很有效果。

PS:虽然AI写的东西,肯定不可能直接拿来用,每次都得做大改,但也不希望它连个朱雀测试都过不去呀。

说个题外的

向手机端的ChatGPT,问了类似的问题,5竟然是这么回复的。

图片
图片
图片
图片

<<< 左右滑动见更多 >>>

GPT-5啊,我真的不懂你。

学习研究

在agent的部分,还是保持不变的,这里我想再试一下这个学习研究的效果怎么样?

问题还是之前的那个学习托业的咨询。

图片

确实感觉这家伙的回复冷漠了不止一点点,真就是把情绪价值抛到脑后了,刚才写文的时候也是,竟然直接下来就是文章,只是之前完全没有的。

图片

不是太理解为什么测试题,出了两个都是选同一个单词的问题?

图片

紧接着又是这种模式化的回复,完全没有了感情。

如果想看4o的回复,可以看下我之前这个文章👇

ChatGPT「学习模式」火爆上线,AI老师全免费!(含实测案例&提示词)

我是真的不想跟5学习,不仅不引导话题,讲话也像个机器人。

果然搞编程的逻辑能力上来了,连AI都会变得像个人机吗?

如何用上之前的模型

我的手机在发布会进行中的时候并没有转换成GPT-5,等醒来再刷新一下就是GPT-5了。

图片

但是电脑端还是4o,只是4.5没有了,只剩下这么几个模型给我。

图片

这时候想尝试GPT-5,但还想用之前几个模型怎么办?

可以用其他浏览器卡BUG,来用上GPT-5,我最后是用了电脑端的豆包卡出来了GPT5。

看到这个界面就知道卡到了新的GPT-5了
看到这个界面就知道卡到了新的GPT-5了

PS:一个浏览器不行就换下一个试一试。

如果你是尊贵的pro用户,直接在设置里打开【显示传统模型】就行了。

图片

写在最后

是像人一样写作太难了,性价比太低吗?

之前4.5烧了OpenAI太多经费,看到那高的离谱的价格之后,评论区就几乎没什么用户肯买单。

想无限用得花200刀呀,1400多maoyeye哎!效果确实有提升,但是翻了10倍呀!

所以才选择了大步幅提升编程和数学的能力吗?

不得不提,这次的API价格对半砍了,是想跟Claude打一架?

这次的GPT-5,在X上也没啥大水花。

总之,GPT-6,赶紧的吧。

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

    暂无评论内容