您现在的位置是：网站首页>NBANBA

电玩城捕鱼微信上下分

姚冰露 2025-05-14 【 NBA】 6163 人已围观

新智元报道⑦、【新智元导读】80年代❶，当强化学习被冷落❶，这对师徒没有放弃⑲；如今❷，重看来时路⑦，他们给出的建议仍然是②，「坚持」住自己的科研思想⑲。

3月5日⑰，计算机学会宣布Andrew Barto和Richard Sutton获得图灵奖⑲，以表彰其在强化学习领域做出的奠基性贡献⑪。

自从9年前AlphaGo围棋大胜⑦，引爆全民RL狂欢⑩，再到如今Deepseek-R1等推理模型的火热⑭，足以证明强化学习在人工智能领域的长久影响力❶。

最近⑳，Communications of the ACM发布了一段对师徒二人的采访⑪，从强化学习的研究经历②，聊到对人工智能的未来预测⑨。

Barto侧重于多智能体协作学习⑦，Sutton则认为AGI还需要至少几十年①，但最终一定能实现⑨，二人对AI的未来以及强化学习的应用前景都充满希望⑰！

关于两人共同获得的100万美元图灵奖奖金⑱，目前尚未确定具体用途⑭。

Sutton表示可能将其份额捐赠给共同创立的Openmind研究所⑭，给青年科学家提供「奢侈」的科研自由▓，让他们像自己当年那样专注探索基础性问题②。

Barto则计划用奖金在马萨诸塞大学设立研究生奖学金⑩。

强化学习萌芽③、1975年的斯坦福校园里⑮，当时还是心理学专业的本科生Richard Sutton⑭，翻遍了图书馆里所有关于机器智能的文献②，认知受到了巨大冲击⑰。

他对主流的「模式识别」和「示例学习」观点感到失望⑭，认为动物并不是这么学习的⑲，而是通过某种奖励反馈机制⑩。

当时①，唯一将奖励与学习联系起来的研究人员是美国空军实验室的A. Harry Klopf❸，认为脑细胞会主动寻求奖励⑳。

Sutton立即决定给Klopf写信①，并在1978年心理学毕业后⑱，在马萨诸塞大学阿默斯特分校从事研究⑩，主要工作就是测试Klopf的观点⑪。

团队当时有一位博士后Andrew Barto⑯，在接受空军和国家科学基金会长达五年的资助后⑱，除了一份报告④，并没有交付出任何成果①。

Barto于1970年获得密歇根大学数学学士学位⑤，1975年获得计算机科学博士学位⑮，最终成为UMass自适应网络实验室的联合主任⑭，2012年退休▓。

Sutton加入实验室后⑨，成为了Barto的第一位博士生⑱，二人最终发展出了现代强化学习技术⑧，奖励也是其中的核心⑤，通过设计奖励信号来训练神经网络①，让神经元顺着预期方向发展⑥。

1984年⑫，Sutton在马萨诸塞大学安姆斯特分校获得了博士学位⑪，直到1994年⑥，Sutton都是GTE Laboratories的计算机和智能系统实验室的技术组的主要成员⑯，随后又以资深研究科学家的身份回到了马萨诸塞大学安姆斯特分校⑤。

任职期间⑧，Barto和Sutton共同出版了《强化学习导论》⑥，获得了超8万次引用④，2018年又发行了第二版⑮，至今仍是全球AI学子的圣经⑩。

同时①，Sutton加入AT&T Shannon Laboratory担任人工智能部门的主要技术组成员❸，研究方向围绕着决策者与其环境交互时所面临的学习问题⑨，持续改进自己对世界的表征和模型的系统⑥。

2003年之后⑤，Sutton成了阿尔伯塔大学计算机科学系的教授和 iCORE Chair⑳，领导着强化学习与人工智能实验室⑭。

不过③，说起强化学习的历史⑤，Barto也提到⑪，他们的思路并不新鲜②。

早在1954年❸，人工智能先驱马文明斯基的博士学位论文主题就是模拟神经的强化学习系统④，也是IBM计算机科学家Arthur Samuel用来训练计算机下棋的方法④。

然而⑧，到了20世纪70年代⑦，这个想法已经过时⑳，大多数AI研究员都在设计专家系统⑮，Barto也庆幸自己能够保持「不合时宜」❸。

Barto和Sutton提出的一个关键技术是「时间差分学习」▓。

比如⑫，想教一台计算机学习下棋⑭，奖励信号如果是赢得游戏❷，那中间哪些动作步骤是正确的⑤，仍然无法确定❸；即时奖励可以在计算机预测一步后⑳，反馈出离最终奖励仍然有多少距离⑮，比如胜率是否增加⑯。

预测随时间的变化提供强化信号⑯，那么在下次计算机下棋时⑲，就可以采取那些能增加胜率的动作⑫。

破圈⑰、2016年⑫，一场围棋人机大战⑪，让强化学习广为人知②，连学术圈之外的人都能聊两句「阿尔法狗」⑦。

Google DeepMind开发的AlphaGo⑯，最终以四胜一败击败李世乭②，赛后韩国棋院授予AlphaGo为荣誉九段❸。

2017年⑮，AlphaGo Master以3：0的战绩①，击败了世界排名第一的围棋棋手柯洁②，从此人类棋手再无一人是机器的对手▓。

可以说④，强化学习让「围棋」死了一半⑲。

之前的机器学习方法主要是有监督学习和无监督学习⑳，在有监督设置下⑦，人工标注样本给机器进行学习⑦，样本量有限④，无法适应「围棋」这种特征空间很大的情况⑮；而无监督学习则是自动提取出有效特征⑥，以在数据中找到结构⑥。

这两种方法在计算中都已被证明是有用的⑦，但都不是生物大脑的学习方式⑧。

强化学习的思路是⑦，当神经网络实现了一个指定目标时②，就会获得一定数值的奖励⑫；如果失败了⑲，会得到一个负值奖励②。

机器可以通过不断试错来学习▓，尝试不同的移动⑨，最终学到了在不同场景下应该使用哪种移动方式⑳。

此后⑭，强化学习一路高歌猛进❷，不仅攻克了各种电子竞技游戏⑦，还引发了大型语言模型的推理革命⑫，比如OpenAI o系列②、DeepSeek-R1等推理模型⑪，已成为新的研究主流⑧。

人工智能的未来⑮、Barto预测人工智能领域将向多智能体强化学习方向演进❶，由神经网络社群及其个体奖励系统将形成互动⑮，这种机制可能进一步催生出协作网络❶，多个模型为实现共同目标而互相奖励⑰，也可能引发持有不同目标的智能体之间的利益冲突⑯。

此类交互将对经济学与博弈论等复杂领域产生深远影响⑤。

Sutton则认为人工智能发展仍处于初级阶段▓，包括向通用人工智能的探索⑰，即机器能理解人类认知范围内的所有事物①，Sutton坚信强化学习将在这一进程中发挥关键作用⑨。

谈到给年轻计算机研究人员的建议⑪，Barton倡导效仿二人的科研路⑥，勇敢追随自己的研究兴趣⑭，不必在意领域内其他人的看法⑨。虽然这很困难①，但你必须找到内在驱动力⑫，并尽你最大的能力坚持下去⑱。

Sutton则给出更具体的建议❶，「坚持写作」⑰，通过文字记录来锤炼思想⑲。

一说起计算机科学的未来⑱，Sutton就充满信心：未来几十年内⑲，人类将彻底破解人工智能的奥秘⑮！这有可能是史上最伟大的智力飞跃⑲，能为其贡献绵薄之力是我们的荣幸①。

参考资料：

很赞哦❷！

上一篇：o3完爆人类医生⑮，OpenAI基准直击AGI❶！

下一篇：比赛日Vlog｜2025中甲联赛第八轮❷，广西平果国晶vs石家庄功夫

随机图文

点击排行

哈特：3-1领先不代表什么我们必须带着紧迫感和危机感打G5

本栏推荐

中美经贸联合声明之后⑩，印度又傻眼了

标签云