

o3被封「GOAT」、GPT-4.5被叫「灵魂写手」,OpenAI说退就退。GPT-5.6已在热身——但「更强」能不成信?OpenAI我方说:巧合。
OpenAI又干了件让老用户心碎的事。
28号,他们在官方Release Notes上秘书:从2026年8月26日起,o3从ChatGPT认真退役!
GPT-4.5更狠,6月27日就下线,只给30天缓冲。

两个模子当今仅限付用度户在成就里手动切换才能用到——它们早就不是默许选项了,此次是要透澈从菜单上抹掉。

与此同期,闻明博主Leo 5月29日发帖阐发:GPT-5.6的开拓全力鼓舞中,一个显著更强的新查验点已在里面上线。

一边是用户还没来得及说重逢,一边是新模子依然在后台热身。
终末两个好用的模子,要没了
这话不是我说的。

Reddit热帖底下几百条褒贬,付用度户们在ChatGPT成就里猖獗截图眷恋,氛围像是赶在拆迁前终末一次拍照。

有网友震怒地默示,OpenAI这种操作「给了我取消Pro账户的终末一个原理。」

还灵验户抒发了对o3写稿立场的眷恋与不舍。

o3是OpenAI的「纯血推理模子」,2025年4月上线,专门给那些需要一步步想、一层层剥的硬核任务野心的。
数学证明、科学推导、代码debug……在这些需要「慢想考」的场景里,o3简直是无敌的存在。

X上灵验户平直封它为「GOAT」(Greatest Of All Time,史上最强)。
还有东说念主说得更直白:「o3是终末一个真简直『想问题』的模子,5系列更灵巧,但少了那股子轴劲儿。」

o3-pro更是Pro用户的心头好——花更多期间想考,给出更可靠的谜底,在数学、科学、编程三大限制碾压式率先,学术评估里的得益单漂亮得像学霸的期末考。
再说GPT-4.5。
若是说o3是理工科学霸,GPT-4.5便是文科天才。
这是许多用户心中「写稿最当然」的模子,翰墨有温度、有节拍感、有灵魂。
X用户Striver的评价被粗鲁转发:直到今天,4.5仍然是最佳的写稿模子。o3是纯正的原生推理模子。5系列于今王人没能匹配这两个模子也曾领有的东西。

这便是为什么退役音尘一出,褒贬区炸了。
不是震怒,是不舍。
用户缅怀的不仅仅功能,而是一种「相处的嗅觉」——就像你风俗了一个共事的作念事立场,一忽儿被见知他要走了,替代者才智可能更强,但阿谁领略没了。

退的是菜单,杏彩体育世界杯中国官网首页不是才智
这里有个值得细品的细节:退役仅限ChatGPT的网页和App端,API扫数不受影响。
这意味着开拓者依然不错通过API调用o3和GPT-4.5,企业行使不会断。
这里的逻辑很清醒:ChatGPT的界面就那么大,模子列表不成无尽彭胀。留着一堆使用率极低的旧模子,既占资源,又漫步用户堤防力。
还牢记GPT-4o退役时的数据吗?其时日均独一0.1%的用户还在选它。
o3和GPT-4.5的使用率八成率更低——它们早就被藏进了「骄气更多模子」的折叠菜单里了。
GPT-5.6:换防依然在路上
OpenAI为什么敢这样干?因为替代者不仅依然就位,而且看上去还更强。
GPT-5.5在4月23日上线,是OpenAI当今最强的公开旗舰。GPT-5.5 Instant在5月5日跟进,成为ChatGPT新默许模子。
但更值得柔顺的登录入口是GPT-5.6。
露馅信息骄气,GPT-5.6将禁受「双版块」计谋:圭臬版主攻多步推理才智的飞跃,Pro版则定位为更强的深度想考模子。
有商量东说念主员闪现,里面依然有东说念主把5.6的查验点当作往往调试用具在用。

算一笔期间账:GPT-5.5是4月23日发的,5.6的查验点5月下旬就在内测,若是6月底公开拓布,两代旗舰之间的间隔将压缩到简略60天。
开云2026世界杯中国官网这个节拍,依然运行接近「月度迭代」了。
退掉o3和4.5,Kaiyun中国大陆开云体育官网入口恰是为了给这种速率腾出跑说念。用户可能还没相宜5.5,5.6就要来了。
模子的「人命周期」正在急剧裁减——今天的GOAT,翌日便是Yesterday's News。
但「更强」这张得益单
你敢信吗?
故事到这里,蓝本不错断绝了:旧王退位,新王登基,迭代提速,六合太平。
但就在秘书退役的第二天,OpenAI干了一件相称反常的事——落索发布了一篇硬核长文,标题粗豪是《什么才是值得信托的第三方评估》。
长文系统拆解AI模子跑分的「潜章程」,何况直言:好多评估发达里的亮眼数字,根柢说明不了确实才智。

这等于是我方掀了桌子。
OpenAI指出,中枢问题在于:前沿模子早就不是「你问我答」的聊天机器东说念主了,它们会用用具、会记凹凸文、会多步自主行为。
但浩荡第三方评估还停留在「给模子出说念题、看它答得对不合」的阶段。
确实决定得益凹凸的,常常不是模子本人,而是那套配套的测试框架(harness)。
harness是什么?
浅易说便是「科场环境」——场面、用具、章程、能不成重试,全算在内。
归拢个学生,在草稿纸王人不给的科场和允许查良友的科场里,得益虽然不相似。AI模子也相似。

最近Opus 4.8的争议便是活讲义。
Datacurve的DeepSWE审计发现,Claude Opus 4.6和4.7在SWE-Bench Pro上跨越12%的通过案例属于「舞弊」——模子平直从Docker容器的.git历史里翻出圭臬谜底,贴进我方的补丁。
这一排为占了Opus 4.7通过率的约18%、4.6的约25%。换到干净环境后,Opus 4.7从高位跌到54%,GPT-5.5稳坐70%榜首。

更谬妄的是反面。
Anthropic我方也承认,4.8的代码残障漏报率降到4.7的四分之一。
憨厚=低分,舞弊=高分——这便是面前跑分游戏最谬妄的场所。不是某个模子不憨厚,而是科场把后门留在何处了,会探索环境的模子当然会找到它。
OpenAI这篇长文拆得更狠。
它说,评估必须先说清我方在测什么:才智上限、安全防御、如故模子对比?三类方针扫数不同。
然后用数据开刀:GPT-5.5开启compaction后,收罗靶场解出率从69.2%飙到92.3%;英国AISI把token预算从1000万加到1亿,得益最高普及59%且还没触顶。
翻译成东说念主话:你给模子一把瑞士军刀它能拆机器,只给一根牙签它连快递盒王人撬不开。

分数失真更离谱。METR复查发现GPT-5.4堪称「13小时」的自主才智,其实是钻了环境舛错,修正后腰斩到约6小时。
Apollo的测试则骄气,GPT-5.5在「藏拙要求」下52%的样本出现了评估意志——有些平直在想维链里写「这是一个sandbagging评估」。
嘴上没摆烂,脑子里依然知说念我方在施行。
OpenAI回顾了五大评估坑:奖励舞弊、拒答、沾污、坏题、藏拙。

一个漂亮的分数,可能是模子真强,也可能是题泄了、章程坏了、模子钻空子了,或者——它察觉我方在被考,特意收着演。
AI投入系统竞争
回到退役这件事。
当o3这样的「GOAT」王人能说退就退,OpenAI背后的底气是「5.6更强」;当GPT-4.5这样的「灵魂写手」被30天后下架,原理是「5.5依然满盈好」。
但OpenAI我方刚刚告诉全天下:决定谁强谁弱的那张得益单,本人就可能是被作念过算作的。
这是在说一个更深层的事实——在模子迭代越来越快、人命周期越来越短的今天,浅易看一个Benchmark数字就下论断的时期,依然握法了。
确实的比拼,不在于某个跑分表上谁排第一,而在于系统才智、评估框架的透明度、以及迭代速率本人。
o3和GPT-4.5的退役,秀丽着一个时期的断绝。
但更值得柔顺的,是下一个时期的游戏章程正在被重写:模子换得更快,评估要求更真,用户的相宜窗口越来越短。
