炸锅了!
AI圈儿最近可真热闹,不是说谁家模型又破纪录了,而是——强化学习的“老祖宗”,图灵奖得主理查德·萨顿老爷子,直接给咱们现在捧上天的“大语言模型”(LLM)泼了盆冰水,还说那是“死胡同”!
这消息一出来,简直是平地一声雷,把多少人“AGI近在咫尺”的美梦给震碎了。
你想想,这几年大模型多风光啊,从写诗作画到代码编程,简直无所不能,活脱脱就是现代科技的“奇迹”!
多少人对着它顶礼膜拜,觉得人类文明的下一个篇章,就得靠这玩意儿来书写了。
结果呢?
萨顿老爷子,这可是个真有两把刷子的,不是那种天天在微博上晒猫晒狗的“网红科学家”,他手里捧着沉甸甸的图灵奖奖杯,脑子里装着半个世纪的智慧结晶。
他老人家一开口,那分量可就不一样了,更别说旁边还有个杨立昆,两位AI巨擘站一块儿,齐刷刷地给大模型判了“死刑”。
这背后到底藏着什么不为人知的“深坑”?
这老爷子,那可是强化学习领域的祖师爷级别人物。
想当年,咱们还在泥潭里摸爬滚打,琢磨怎么让机器“学点东西”的时候,是他,用“时序差分学习”和“蒙特卡洛方法”这些如今看来如同基石般的理论,给AI指明了方向。
他可不像现在某些“专家”,天天在社交媒体上刷存在感,他更像一位隐居深山的武林宗师,轻易不出手,一出手必是石破天惊。
所以,当他老人家皱着眉头说大模型“死路一条”的时候,你还真得停下来,仔细听听这位智者的声音,别光顾着傻乐呵。
他为啥这么说?
难道那些大模型在数学奥林匹克竞赛中披荆斩棘,在高考作文里妙笔生花,甚至能帮你写代码、做PPT的惊人表现,都是“虚假繁荣”吗?
萨顿老爷子的核心论断,那可是直指大模型的“命门”:无论你给它喂多少数据,让它“吃”得多胖,它的架构决定了它无法从真实的交互中持续学习。
说白了,它本质上就是一个超级模仿秀演员,把人类已经说过的、做过的事情,用一种令人惊艳的方式重新演绎出来。
它是在模仿“人类的数据”,而不是通过与真实世界直接互动来理解环境,更谈不上自主设定目标并实现。
这就好比你给一个足球运动员看了无数梅西的比赛录像,他能把梅西职业生涯的进球数据、盘带过人集锦分析得头头是道,甚至写出篇《梅西足球哲学》的论文。
但你真让他上场踢球?
嘿,估计他连球门在哪都得问AI。
他缺乏的是在绿茵场上,感受到草地的湿滑,体验被对手紧逼的压力,更别说在千钧一发之际,根据队友的眼神和对手的微表情,瞬间做出传球或射门的判断。
大模型,在萨顿看来,就是那个理论知识满分,但从未真正“摔过跤”的小孩,是个“数据帝”,不是个“实战家”。
萨顿老爷子还抛出了一个很关键的概念:“世界模型”。
他认为,强化学习的精髓,就是让AI建立起一个关于真实世界的模型,并在这个模型上进行预测和决策。
而大模型呢?
它擅长的是“下一个词元预测”,也就是在给定语境下,预测人类最可能说出什么词。
这听起来很酷,但萨顿一针见血地指出,这并非真正的世界模型。
一个真正的世界模型,应该能够预测:当我采取某个行动后,世界会发生什么真实的变化?
比如,我推倒这个积木,它会怎么倒?
而不是我说了“推倒积木”,接下来人类会说什么。
它只是个“复读机”,把人类说过的漂亮话再组合一遍,而不是真的“懂”这个世界怎么转。
更要命的是,大模型缺乏“惊讶”与学习机制。
咱们人类,或者说任何一个有智慧的生命,当现实反馈与我们的预期不符时,会感到“惊讶”,然后我们会根据这种“意外”来调整我们对世界的认知。
但大模型呢?
它跟用户聊得再嗨,用户给它再多的“惊喜”反馈,它的内在权重并不会因此而更新。
它的学习,发生在遥远而独立的“大规模训练阶段”,就像一个学生,只有在期末考试前才临时抱佛脚,而不是在日常生活中持续吸收新知。
它没有“活在当下”,更没有“活学活用”。
这就跟咱们看球一样,一个真正的好教练,场上形势不对劲,他能立马“嗅”到不对劲,然后变阵。
大模型呢?
它就是个死板的战术板,比赛前设定好了,管你对手怎么变,它就按部就班。
哪来的“惊讶”?
哪来的“临场应变”?
萨顿甚至搬出了约翰·麦卡锡(人工智能的另一位鼻祖)的定义:智能是实现目标能力的计算部分。
而大模型的目标是什么?
“下一个词元预测”?
这在萨顿看来,根本不是一个真正的目标,因为它不寻求改变世界,它只是被动地预测数据流。
这就像一个只会看天气预报,却从不打算出门感受风雨的人,他能算得上“智能”吗?
咱们一度以为,只要把全世界的字儿都喂给它,这大模型就能成精,甚至超越人类。
结果呢?
老萨顿一盆冷水泼下来,咱们才发现,原来它只是个学霸,不是个生活家。
那么,萨顿心中的AGI之路究竟是怎样的?
他构想了一个完全不同的范式,称之为“经验时代”。
这个时代,将彻底抛弃训练和部署的二元对立,让智能体在与世界的持续互动中学习、进化。
想象一下,一个AI,它不再是被动地“阅读”海量的静态数据,而是像一个初生的婴儿,通过永不间断的“体验流”来感知世界——感觉、行动、奖励,三位一体。
它的任务,就是不断调整自己的行动,以最大化累积的奖励。
这里的“知识”,不再是硬盘里冰冷的数据,而是关于“如果我这么做,接下来会发生什么”的预测性陈述。
这就像一个初学踢球的孩子,不是看录像带学,而是直接上场,每一次触球、每一次摔倒、每一次射门,都成为他学习的一部分。
他感受到球的重量,草地的摩擦,对手的逼抢,这些都是实实在在的“体验流”,是那些大模型永远无法从文本中学到的。
这种“体验驱动”的学习,巧妙地解决了传统强化学习中一个老大难问题——“稀疏奖励”。
过去,AI可能要经历无数次失败,才能得到一个最终的奖励信号,学习效率极低。
但萨顿的“经验时代”里,当AI采取某个行动,导致它对未来成功的预测概率增加时,这种“预测值的增加”本身,就成为了一个即时的内部奖励信号。
这意味着,AI可以从每一次微小的进步中获得“成就感”,即使最终结果还没出来,它也能沿着正确的方向不断学习。
这不就是咱们人类学习的常态吗?
你学做一道菜,哪怕第一次味道不尽如人意,但只要你感觉离成功更近了一步,那种“预测值增加”的成就感就会驱动你继续尝试。
萨顿还特别强调,学习不仅仅来自奖励,而是来自所有感官数据。
这些丰富的数据,主要用来构建和更新AI对世界的“转移模型”(即预测行动后果的模型)。
他描绘了一个包含四个核心组件的智能体:决定行动的“策略”,评估状态价值的“价值函数”,构建状态表征的“感知系统”,以及预测行动后果的“转移模型”。
这四个部分紧密协作,构成了一个在真实世界中持续学习、不断进化的有机整体。
值得一提的是,这个“经验时代”的理念,萨顿是和谷歌DeepMind的大卫·西尔弗(AlphaGo之父)共同提出的,这可不是他一个人的“臆想”,而是AI领域顶尖大脑的共鸣。
这帮大佬们,可不是拍拍脑袋就胡说的。
说到这里,我突然想起一个很“人间真实”的问题:泛化能力。
萨顿指出,无论是大语言模型还是现有的强化学习系统,都存在一个致命缺陷:无法很好地进行泛化。
我们现在看到的深度学习模型那些“惊艳”的泛化能力,很大程度上是研究人员通过巧妙设计网络结构、数据增强等方式“雕琢”出来的,而不是算法本身能够自动发现的。
这就跟一个学生,通过无数次的刷题,总结出了考试的“套路”,所以能在考场上游刃有余。
但如果突然换了一种题型,或者跳出他刷题的范围,他可能就束手无策了。
梯度下降算法,只会找到一个能解决训练数据中问题的解,但如果存在多个解,它可没法保证找到泛化能力最好的那个。
更别提那个让人头疼的“灾难性遗忘”问题了——学了新知识,旧知识就忘了,这不就是泛化能力差的典型表现吗?
就像一位足球运动员,他可能在某个联赛里叱咤风云,对那里的对手和场地了如指掌。
但一旦换了个国家,换了个完全不同的比赛风格,他可能就水土不服,表现大打折扣。
因为他的“泛化能力”不足以适应全新的环境,就像C罗去了沙特,踢得再好,那也是在另一个生态位了,不能完全说明他在欧洲顶级联赛的泛化能力。
所以,当大模型在数学奥林匹克等任务上展现出“惊人”表现时,萨顿保持着一种老派科学家的怀疑。
他认为,这可能不是真正的泛化,因为大模型接触的数据量极其庞大且来源不受控,我们很难判断它究竟是在“泛化”还是仅仅找到了能拟合所有复杂模式的“唯一解”。
就像一个超级学霸,他可能把所有题型都刷了个遍,所以考试能拿高分,但你让他去解决一个书本上从未出现过,需要创造性思维才能解决的实际问题,他可能就抓瞎了。
这事儿想想就挺有意思的。
我们人类,从婴儿时期开始,就是通过不断地“摔跤”、不断地“惊讶”,然后调整认知,才慢慢理解这个世界的。
一个孩子,他会因为第一次摸到热炉子而感到“惊讶”,然后他会知道“热”意味着“危险”,这种经验是任何书本知识都无法替代的。
大模型呢?
它可能知道“炉子很热”,因为它在无数文本里读到过。
但它真的“知道”热是什么感觉吗?
它真的会因为“摸到”热炉子而感到“惊讶”吗?
所以啊,这AI的未来,到底是“星辰大海”还是“死