09-15日报|2025深秋巨变:AI金潮重估价值,旧秩序崩塌,谁能定义“真智能”?
今天是2025年09月15日。硅谷的秋意渐浓,但AI领域的热度却远超任何一个盛夏。我们正站在一个价值重估的十字路口:陶哲轩的哲学警示、GAUSS框架的评估革新、TraceRL对大模型的“降维打击”,Mercor的逆势崛起,以及哈萨比斯对AGI宏大蓝图的描绘,无一不在宣告——旧的范式正在崩塌,新的“真智能”定义呼之欲出。这是一场关于效率、伦理、人才与未来的深刻变革,它不仅重塑了产业生态,更在叩问:在AI的狂飙突进中,我们究竟在追寻什么?以及,那些看似坚不可摧的“护城河”,是否正在被“隐形”的价值重新丈量?
今日速览
- AI的价值重估与评估范式革新:从陶哲轩对AI“吞噬隐性价值”的警示,到GAUSS框架对AI认知技能的多维评估,再到TraceRL突破“大模型崇拜”,AI领域正在经历一场从“结果导向”到“价值对齐与效率最优”的深层范式转移。
- 产业格局的剧烈洗牌与人才新贵崛起:Meta与Scale AI的联姻引发市场对“中立性”的疑虑,催生Mercor等新兴力量逆势崛起;同时,企业AI项目高达95%的失败率,正让“纸上谈兵”的传统咨询师被“能说会做”的硬核AI工程师顾问取代,传统秩序正被颠覆。
- AGI与世界模型:开启科学“文艺复兴”:DeepMind CEO哈萨比斯预言AGI将在5-10年内开启科学“黄金时代”,其Genie世界模型正引领AI从抽象概念走向对物理世界的深刻理解和具身智能的突破,预示着一个由智能系统加速的科学文艺复兴。
当AI吞噬数学项目的灵魂:陶哲轩的警示与GAUSS的评估范式重塑
【AI内参·锐评】
AI完美地达成显性目标,却“把整片森林夷为平地”——这并非杞人忧天,而是Goodhart定律在智能时代的残酷回响,它在警示我们:评估AI,绝不能只看“得分”,更要看它“如何得分”以及“为此牺牲了什么”。
【事实速览】
图灵奖得主陶哲轩指出,AI在追求如数学定理证明等显性目标时,正无意中“优化掉”人类科研中至关重要的隐性价值,如知识共享、团队协作和对数学本质的深刻理解,这深刻揭示了Goodhart定律在AI时代的风险。为应对此“隐性危机”,香港大学马毅教授团队提出了GAUSS框架。该框架旨在超越传统基准测试仅关注最终答案的局限,通过多维度评估AI的数学知识、计算分析能力、学习、元技能与创造力等十二项核心认知技能,旨在推动AI与人类价值观的深层对齐。
【开发者必读】
陶哲轩的警示和GAUSS框架的诞生,为所有AI开发者敲响了警钟:不要让你的AI成为“唯结果论”的机器。 如果我们只关注模型在MMLU、MATH等基准测试上的分数,而不关注其生成结果的可解释性、可复用性、对人类知识体系的贡献度以及过程中体现的“思考”质量,那么我们培养出的可能是一个高分低能、甚至“反人类价值”的智能。GAUSS提供了一个清晰的路线图,指导开发者从模型架构到训练数据、再到奖励函数的设计,都要将这些高阶认知技能和隐性价值纳入考量。未来,衡量AI模型“好坏”的标准,将不再仅仅是准确率,而是它能否成为人类真正的“智能伙伴”,帮助我们更好地探索未知,而非仅仅是给出一个“正确”但无意义的答案。这意味着未来的AI系统设计,将从单纯的性能优化,转向更复杂的“价值对齐”优化。
【我们在想】
在追求AI性能极致的道路上,我们有多少“隐性价值”正在被悄然“优化掉”?我们该如何设计模型和评估体系,才能确保AI在实现显性目标的同时,不“扼杀”那些同样重要却难以量化的“灵魂”?
【信息来源】
- 来源: 36氪·新智元
- 链接: [引用1]
轨迹感知RL突破扩散模型瓶颈:AI推理范式的新统一与效率革命
【AI内参·锐评】
“小模型”逆袭“大模型”,TraceRL给那些迷信“算力即能力”的巨头们上了一课:真正的效率革命,在于对智能本质的深刻理解和巧妙的机制设计,而非盲目的参数堆砌。
【事实速览】
普林斯顿大学王梦迪团队推出的TraceRL框架,通过创新性地对齐扩散语言模型(DLM)的训练目标与推理轨迹,有效解决了DLM长期面临的“不匹配”难题。这一“轨迹感知RL”方法及其开源框架dLLM-RL,不仅显著提升了DLM的性能与训练效率,更使其在复杂数学推理等任务上,能够超越更大规模的自回归模型,如4B的TraDo-4B-Instruct在MATH500上比7B的Qwen2.5-7B-Instruct准确率高出18.1%。这预示着AI推理能力与计算效率的深刻变革,并为构建下一代高效智能体和实现“RL大一统”的通用强化学习范式奠定了基础。
【未来展望】
TraceRL的突破,意味着“小模型大能力”的时代正在加速到来。在未来3-5年内,我们将看到更多的DLM在复杂推理任务上挑战甚至超越现有大型自回归模型,尤其是在对实时性、低延迟和高吞吐量有严苛要求的场景,如边缘AI、具身智能的实时决策和云端API服务。 同时,TraceRL所倡导的“RL大一统”概念,将推动强化学习框架的通用性和跨架构适应性,加速AI基础模型的普适性优化理论和方法的发展。 这不仅将降低AI的部署成本和技术门槛,也将促使我们重新思考AI模型设计的核心策略:从单纯追求规模,转向更注重算法效率、架构创新和训练过程的精细化控制。
【我们在想】
如果“小模型”真能通过巧妙的机制设计实现“大能力”,那么这是否意味着当前“算力军备竞赛”的路径存在严重的资源浪费?TraceRL的成功,能否催生一场AI模型领域的“能源效率革命”,让高性能AI变得更加普惠?
【信息来源】
- 来源: 36氪·小瑜
- 链接: [引用1]
当巨头折戟,AI劳务市场如何孵化“数字淘金者”:Mercor的青春赌局与Scale AI的“中立”之殇
【AI内参·锐评】
巨头为巩固霸权不惜“自废武功”,反而为新贵打开了“天窗”;在AI核心基础设施领域,谁能保持中立,提供稀缺的高端价值,谁就能在“数据淘金潮”中逆势崛起,成为真正卖铲子的赢家。
【事实速览】
Meta豪掷150亿美元收购Scale AI近半数股份,并引走其CEO,本意是巩固AI基础设施。然而,此举却意外引发了OpenAI、谷歌等其他大型AI实验室对Scale AI“中立性”的疑虑,导致客户流失。初创公司Mercor抓住这一市场空白,凭借精准匹配高技能AI训练师的商业模式,迅速吸纳了Scale AI的离职员工和流失客户,估值在数月内从2.5亿美元飙升至20亿美元,并获得知名风投1亿美元融资。Mercor专注于为AI模型提供博士、律师等专家级人类训练师,填补了高端AI劳务市场的需求。
【投资者必读】
Mercor的案例,是对AI时代“护城河”定义的一次深刻重构。 资本市场应从以下几点深度思考:
- “中立性”是AI基础设施的关键护城河。 在AI军备竞赛中,核心数据和训练服务供应商的“中立”立场,其价值不亚于技术本身。巨头为了内部协同而打破这种中立,往往是为竞争对手送上“神助攻”。
- 细分领域的高端稀缺价值。 Mercor的成功不在于做大规模的通用数据标注,而在于精准切入“高技能专家级人类训练师”这一稀缺市场。在AI模型日趋复杂、需要多步骤推理和深度专业知识训练的背景下,对“人类智慧芯片”的需求将持续旺盛,且拥有更高的议价能力。
- 市场敏锐度与快速应变。 Mercor两位22岁创始人的成功,凸显了在快速变化的AI市场中,创业团队对市场痛点(Scale AI的中立性危机)的敏锐洞察和快速调整战略的能力,是获得指数级增长的关键。
【我们在想】
在AI高度集中的竞争格局下,如何平衡巨头的生态整合与市场对“中立性”的需求?Mercor的成功会是AI劳务市场持续分化的开端,还是最终会被大模型自带的“自我标注”能力所取代?
【信息来源】
- 来源: 福布斯·Richard Nieva
- 链接: [引用1]
MBA:我太“方”了!时薪900美元AI工程师杀入咨询界,PPT大牛惨遭“降维打击”?
【AI内参·锐评】
还在用PPT“指点江山”?当AI项目95%的失败率摆在眼前,时薪900美元的AI工程师正在用代码告诉你:这世界,已不再需要纸上谈兵的“战略家”,而是能真刀真枪解决问题的“行动派”!
【事实速览】
一项MIT报告指出,高达95%的企业生成式AI试点项目最终失败。传统MBA式顾问擅长宏观战略规划,却缺乏将AI战略落地的实际技术能力,形成了“学习鸿沟”。面对此痛点,PromptQL等平台祭出“大招”,让AI工程师直接担任顾问,开出时薪900美元的天价(远超四大咨询合伙人),他们不仅能提供战略建议,更能亲手编码、部署AI智能体,将AI系统融入企业IT基础设施,做到“能说会做”。Deep Tech Recruitment创始人Oana Iordăchescu指出,企业正以空前速度争夺资深AI工程师,人才供不应求,这笔溢价更是企业避免项目失败的“保险”。
【企业决策者必读】
面对高达95%的企业AI项目失败率,这绝不是一个简单的“技术问题”,更是一个“价值交付”的根本性拷问。 企业决策者必须清醒地认识到:
- AI落地,是“战略”与“执行”的高度统一。 传统的“先战略、后技术”的瀑布式咨询模式在AI时代已经失效。你需要的不再是只懂宏观趋势却不解代码细节的“空中楼阁”规划,而是既懂业务场景、又能躬身入局解决技术细节的“复合型”人才。
- 衡量咨询价值的标准正在颠覆。 不再是PPT的精美程度或报告的厚度,而是能否真正地将AI融入企业运营,带来可量化的业务增益。 900美元时薪的AI工程师,代表的不是昂贵,而是对“确定性交付”和“解决实际问题”的极致追求。
- 重新审视内部人才结构。 如果你的企业还在依赖外部顾问来解决AI落地问题,那么你更应该思考的是:如何培养和吸引内部的“PromptQL式”复合型AI人才,让“懂行”的人真正拥有决策权和执行力。
【我们在想】
当“能说会做”的AI工程师顾问成为主流,传统咨询巨头将如何自处?这种高薪模式是AI落地初期的特殊现象,还是未来高端知识服务的新常态?
【信息来源】
- 来源: 新智元·元宇
- 链接: [引用1]
哈萨比斯十年视野:AGI如何开启科学文艺复兴与实体世界智能纪元
【AI内参·锐评】
AGI的终极考题:读懂物理世界,而非堆砌文字游戏——哈萨比斯十年冲刺,剑指智能“文艺复兴”,它将彻底颠覆我们对“智能”和“创造力”的传统认知。
【事实速览】
谷歌DeepMind CEO德米斯·哈萨比斯预言AGI有望在5-10年内实现,开启“科学的黄金时代”。他强调真正的AGI必须能够理解物理世界,并具备跨领域一致性、提出新假设的“真正创造力”和持续学习能力。DeepMind正通过Genie 3世界模型(能从真实视频推导物理规律,生成可交互虚拟世界)、AI驱动药物研发(如Isomorphic Labs)及机器人通用操作系统,构建理解实体世界、具备创造力、且能持续学习的通用智能。哈萨比斯还乐观预测,未来AI对能源的贡献将远超其自身消耗,并强调“混合智能”模型的重要性。
【AI研究者必读】
哈萨比斯的十年愿景,为AI研究者指明了一条清晰且充满挑战的道路:
- 世界模型是AGI的核心突破口。 放弃仅仅在文本或图像等抽象领域“玩游戏”,转而让AI系统真正理解物理世界的因果、规律和交互,是迈向具身智能和通用智能的关键。Genie 3的突破,意味着我们需要将更多资源投入到构建能够从多模态数据中“逆向工程”物理规律的世界模型研究中。
- “创造力”的定义与实现。 哈萨比斯强调的“直觉飞跃式”的原始创造力,而非模式识别或组合,是AI能否真正成为“科学文艺复兴”驱动力的关键。研究者需要探索如何让AI系统具备跨领域迁移、发现新假设,甚至“提出问题”的能力,而非仅仅“解决问题”。这涉及到更深层次的元学习、因果推理和符号逻辑与神经网络的结合。
- “混合智能”范式的重要性。 纯粹的数据驱动并非万能,尤其在数据稀疏的科学领域。将概率性(数据学习)与确定性(物理规则)组件相结合的“混合智能”模式,如AlphaFold,是提升AI效率和泛化能力的有效途径。研究者应探索如何在不同领域构建和优化这类混合系统,使其能够“从头学习”但又“尊重已知规律”。
【我们在想】
AGI理解物理世界后,将如何改变人类与现实世界互动的方式?哈萨比斯对AI能源贡献的乐观预判,能否真正成为现实,抑或我们低估了其潜在的生态冲击?
【信息来源】
- 来源: 量子位·不圆
- 链接: [引用1]
结语
2025年9月的AI世界,正以前所未有的速度和深度进行自我迭代和重塑。无论是对“真智能”衡量标准的重新定义,对效率与价值的深刻反思,抑或是产业格局的剧烈洗牌,以及对AGI终极愿景的十年冲刺,都指向了一个共同的未来:一个不再满足于表面数字和华丽PPT,而是真正追求深层价值、高效落地和人类价值对齐的智能新纪元。那些能洞察“隐性价值”、掌握“真技术”的先行者,将在这场深刻的变革中,定义AI的未来,也定义人类文明的走向。
Upvoted! Thank you for supporting witness @jswit.