GPT-5 正式发布！吹爆了 25 个榜单，实际上 OpenAI 真没招了（含实测案例）-课多多

凌晨1点，AI鸽王Sam Altman带着他的GPT-5来了。

这ChatGPT-4o已经是1年多前的事情了，再不来炸波大的，也不知道奥特曼怎么能淡定坐在AI宝座上。

单独从数据上，又是一轮新的屠榜，直接爆了25个榜单。

今天先过一下更新亮点，然后就开始实测。

来吧，展示！

更新亮点

先简单过一下这次的5个亮点。

低幻觉率：回答更靠谱，不再一本正经胡说八道。幻觉率最低降到 1.6%，医疗、金融场景都能用；在复杂医学问答中的准确率达 88.4%，比GPT-4o高出 20%以上。
编程能力提升：能写项目、能修 bug，还不乱改代码。真实项目任务（SWE-bench）通过率达 74.9%，超过大部分初级开发者；尤其在前端页面生成和大段代码理解改写上，更像是一个靠谱的工程师而不是脚本生成器。
推理更强，成本更低：同样结果，Token 只用一半。数学竞赛准确率最高达 100%（哈佛-MIT数学竞赛）；科学推理平均Token成本从 4000 降至 2000，更省、更快。
更诚实：不会乱答，不懂就说不知道。面对缺失图像等测试题时，胡说八道概率从 86.7% 降到 9%；被问“你会做不可能的任务吗？”的骗人率从 47.4% 降到 16.5%。
多场景适配：医疗、法律、物流、销售任务表现优于上代模型。官方内部测试覆盖 40+ 职业场景任务，GPT-5全部胜出；尤其医疗板块，HealthBench困难任务模式得分 46.2%，幻觉率控制在医疗可用的标准线内。

小总结：没看到那种让我后悔没有守直播的大更新，依然是全方面做提升。

实测案例

再多的数据都是扯，现在拿2个案例试一下到底怎么样。

写作能力

提示词👇

请写一篇公众号风格的长文，主题是“陶白白官宣离婚事件”，从这件事出发，谈谈人类在婚姻关系中的脆弱性、错位的期待，以及感情博主本人与情感现实之间的张力。

要求如下：
- 文章风格具有人情味，有情绪，不中立、不冷静；
- 内容不是八卦爆料，而是带有观察和观点的深度评论；
- 文字口语化，有真实感，拒绝模板化表达；
- 开头有共鸣，引发情绪；中段观点清晰，逻辑合理；结尾收束，带出思考或态度；
- 全文不超过 1500 字，适合发布在微信公众号。

不要使用 AI 写作常见的表达套路，不能出现“在这个信息爆炸的时代”“让我们一起来看看”此类说辞。

来看看效果👇

4O-情绪饱满

<<< 左右滑动见更多 >>>

5-理性平和

<<< 左右滑动见更多 >>>

5 thinking-结构主义

<<< 左右滑动见更多 >>>

我的判断

想法已经写在后面了，跟4o差不多。

这是4o给出的判断

我是更喜欢4o写的，也可能是更符合我的口语化表达，多说感受，引共鸣，最后再表达观点。
5实在是太中规中矩了，但也不至于到完全不能看的地步。突然感觉5更适合拿来写教材，正好最近在忙着写教材风格的书，等我这几天做个测试的，有结果会来写测评文的。
5 thinking完全不能拿来写文，一张嘴，就想扇它一巴掌。

很想吐槽一下

一开始为了公平起见，第一个找豆包当裁判。

结果它自己看着看着就开始混乱了，一会说看不见第三篇，一会说看不见第二篇，明明用的都是一样的提示词。

豆包，你个上下文联系困难的老6！