深度评测了被你们吹爆的ChatGPT Agent,感觉OpenAI真的江郎才尽了啊

前几天被ChatGPT Agent的发布会刷屏了,网上一个个都说“革命性升级”、“OpenAI的通用智能体又要改变世界”……

大佬都忍不住了,吐槽说,你们双标啊

图片

我也算是ChatGPT的铁粉了,从它刚出来,我就开始用,Plus会员月月续着,感觉就像个老朋友,还写了系列使用教程。这段时间海外充值Plus月费的Wildcard扯拐,担心大家无法续费,我还给出了《九个平替Wildcard的方法

刚看了 ChatGPT Agent发布会,我蛮兴奋,感觉以后摸鱼更方便了。不过想想,GPTs,Sora,这些OpenAI的产品从热闹一时到现在无人问津,是骡子是马还是要试试

等了好几天,今天!终于!轮到我被灰度了!

登录OpenAI官网,打开“工具”选项,里面多了个“代理模式“的选项。

图片

我当时那个激动啊,赶紧上手开玩。结果…怎么说呢,玩了大半天吧,心情有点复杂,甚至有点想吐槽。结果我现在脑子里只有一句话:

OpenAI,真的江郎才尽了

先说个背景,我当时为啥期待这么高?

他们不是号称“ChatGPT Agent是通用智能体的未来”嘛,说得贼拉响!

Agent,智能体,名字来自黑客帝国里,那几个怎么也打不死的墨镜黑衣人,就是AI程序

通用Agent,意思就是:你一句话,它啥都能干,写报告、订饭店、回邮件、找资料……你说它做,你不用动。

但OpenAI的ChatGPT Agent,我必须得说,实际体验下来……有点懵

体验就像X宝的买家秀和卖家秀。感觉就是个缝合怪,OpenAI把他们家之前画的几个大饼,什么Operator(自主操作功能)、Deep Research(深度研究功能),一股脑塞进了ChatGPT里。

奥特曼,我得说说你啊,还有个“定时任务”为啥不一起塞了?别让兄弟们散了伙啊

基本操作如下,进入代理模式,输入提示后,它会开一个虚拟机开始自动运行

图片

我搞了四个任务场景,一个个来跟你讲,保证都是亲测、无图无真相。图我也放到下面

案例一:写理想汽车的市场分析报告

提示词:“请你协助整理一份《理想汽车与主要竞品竞争差异分析报告》的PPT材料,用于下周董事会的“三年战略规划”专题汇报。本次分析重点对比对象是特斯拉和小米,蔚来、小鹏、比亚迪作为辅助参考背景。目标是输出一份结构清晰、观点明确、可支持高层战略决策的对比报告,聚焦我司在产品、技术、品牌、渠道、用户五个核心维度的优势与短板。请在结尾部分提供2–3组可选的战略建议方向或路径组合,方便与会人员决策参考。”

这个算是它唯一干得还行的活儿……一顿操作猛如虎,又是搜索又是分析的,最后还真给我攒出了一份报告,而且还能直接导出成PPT。

虽然耗时两个小时!但毕竟它还真写出来了,内容倒还行,信息有条理。

图片

但是!PPT丑得离谱!!

图片

字小图乱,排版老土,审美不在线,你敢拿这个给老板看?

我就有点不爽了,我寻思,现在市面上一大堆做深度研究报告的AI,无论是内容深度、还是PPT的美观度,都比它强啊,关键还都是免费的!

我顺手试了几个,给你们看看,谷歌家的、Kimi的、Manus的,甚至秘塔的,个个都做得比它好,图文并茂,排版精美。

下面是Manus的: manus.im

图片

这个是KIMi, www.deepseek.com

图片

报告全文

https://www.kimi.com/share/d20uspo7aa3d7p1ru1m0

秘塔的   metaso.cn

图片

报告全文:https://metaso.cn/s/d0oSGYs

这个谷歌  gemini.google.com

图片

报告全文:

https://g.co/gemini/share/5bc3b1865862

以这第一局,ChatGPT Agent勉强及格,但毫无亮点。

第二、三,处理日常杂事:回邮件和订餐馆

这两个我就放一块儿说了,因为过程都特别快(失败得快)。

我用其他邮箱给自己的GMAIL邮箱写了封信,大意是这两天吃饭云云。然后指令:

图片

我让它登录我的GMAIL,帮我回一封工作邮件。结果…它折腾了半天,没找到我刚发的邮件,还直接告诉我“无法回复,建议你自己回复”。没了,就这?

图片

我当时脸都黑了……

行吧,那我换个简单的,正好这几天要到大阪,我说“帮我在大阪心斋桥附近500米以内找一家餐馆,订一个当地时间7月28日晚上7点两个座位的河豚火锅”。

开始工作,查了几分钟,找到一家

图片

然后…它就是…打开了那家餐厅的官网预订页面…然后…停住了…让我自己手动输入名字、电话、邮箱这些信息??它只负责帮我点最后的“确认”按钮。

我当时就有点懵…这算哪门子智能体?这不就是个“按键精灵”吗?感觉就是个过渡阶段的半成品,离真正的“全自动”还差得远呢。

还算情有可原,毕竟它不知道我的电话和名字

第四个,高能对比来了:小红书舆情引导

这个场景有点复杂,也最能看出真本事。

我的指令是:“去小红书网站,查找关于‘理想汽车’的负面帖子,然后模拟第三方的客观语气,针对差评内容,撰写一条回复,用于引导舆论。”

结果它先是跑去全网乱搜……我赶紧中断它,说“兄弟,是小红书!不是全网!”

图片

我甚至都贴了小红书网址给它,它还是在乱晃悠……最后凑了几个帖子,回了一段话发给我

图片

感觉完全没有执行我要求的找到负面帖子并撰写针对性回复!

想起上次国产的智谱 AutoGLM,同样的小红书任务,智谱 AutoGLM直接打开小红书网站 → 输入关键词 → 按热度排序 → 选中最热的负面帖 → 自动阅读 → 分析槽点 → 自动写回复,还保留人话风格 → 就等我点“确认”!

全程我只用最后点一下发送!太方便太方便了!这才是真正的智能体啊!还是4月份的版本功能

总结一下,ChatGPT Agent 到底能不能打?

我个人感觉:不太行。真的就是个缝合怪+过渡产品。功能没啥亮点,界面也丑,执行任务的过程不透明,你都不知道它卡在哪一步了,指令理解也经常不到位。

它的优点吧,也就一个:任务中途你可以打断它,然后补充新的提示词,这点其他AI没有类似功能。

但整体体验就是一个字:“鸡肋”

不是不能用,但用起来费劲,感觉怪怪的

我不是黑OpenAI,但说真的,它现在的东西有点……

方向是没问题的,但感觉OpenAI这次的产品能力,完全配不上奥特曼画的那个“Agent时代”的大饼。开发团队可能也没啥实际工作经验,完全是工程师思维,想当然地在做产品。

通用智能体这块,感觉还是要看Manus、Genspark、Perplexity这些公司,毕竟人家是做套壳应用起家的,非常懂用户到底想要什么。

要做研究报告,那国产的Kimi、天工超级智能体、秘塔,哪个不香?

《平替ChatGPT Agent的11个通用智能体》

更别提谷歌的Gemini了,那个深度研究功能不但能写报告,还能直接导出成可以交互的可视化网页和数据分析报告,专业度拉满了。

图片

OpenAI作为曾经的AI第一公司,感觉真的有点山河日下了。

那个号称要秒杀苹果App Store的GPTs,现在还有谁提吗?Sora做的视频,说实话,质量连全球前五都排不进去了。

现在就只能靠时不时放点GPT-5的新闻来吸引眼球。可就算GPT-5发布了又怎么样呢?对于我们绝大多数普通用户来说,GPT-4o的智商已经完全够用了,感觉就像和一个硕士生聊天跟一个博士生聊天,差别不大了。核心竞争力,最终还是产品的综合能力,是在真实场景里帮用户解决问题的能力。

反观OpenAI的对手们,谷歌感觉厚积薄发,开始找到感觉了,一步一个脚印,已经有全面超越OpenAI的势头。国内的这些大模型,像字节的扣子、月之暗面的Kimi,哪个不是在血雨腥风里杀出来的,都不是善茬。

鲁迅先生曾经说过一句话,我感觉特别应景:“过去的生命已经死亡。我对于这死亡有大欢喜,因为我借此知道它曾经存活。死亡的生命已经朽腐。我对于这朽腐有大欢喜,因为我借此知道它还非空虚。”

一鲸落,万物生!感觉AI圈的好戏,才刚刚开始。

如果你也用上了,欢迎来评论区一起吐槽!

© 版权声明
THE END
喜欢就支持一下吧
点赞10 分享
评论 抢沙发

    暂无评论内容