您现在的位置是：网站首页>财经财经

小爱小爱帮我下载电玩城

熊凡梅 2025-05-14 【财经】 5854 人已围观

新智元报道①、【新智元导读】80年代❸，当强化学习被冷落⑬，这对师徒没有放弃⑱；如今⑪，重看来时路⑩，他们给出的建议仍然是❶，「坚持」住自己的科研思想⑰。

3月5日⑬，计算机学会宣布Andrew Barto和Richard Sutton获得图灵奖⑯，以表彰其在强化学习领域做出的奠基性贡献⑯。

自从9年前AlphaGo围棋大胜⑱，引爆全民RL狂欢①，再到如今Deepseek-R1等推理模型的火热⑨，足以证明强化学习在人工智能领域的长久影响力⑪。

最近⑥，Communications of the ACM发布了一段对师徒二人的采访③，从强化学习的研究经历⑩，聊到对人工智能的未来预测❸。

Barto侧重于多智能体协作学习⑦，Sutton则认为AGI还需要至少几十年⑬，但最终一定能实现⑰，二人对AI的未来以及强化学习的应用前景都充满希望⑬！

关于两人共同获得的100万美元图灵奖奖金⑨，目前尚未确定具体用途⑪。

Sutton表示可能将其份额捐赠给共同创立的Openmind研究所▓，给青年科学家提供「奢侈」的科研自由⑳，让他们像自己当年那样专注探索基础性问题⑫。

Barto则计划用奖金在马萨诸塞大学设立研究生奖学金⑳。

强化学习萌芽②、1975年的斯坦福校园里⑳，当时还是心理学专业的本科生Richard Sutton⑭，翻遍了图书馆里所有关于机器智能的文献⑯，认知受到了巨大冲击⑰。

他对主流的「模式识别」和「示例学习」观点感到失望⑫，认为动物并不是这么学习的⑲，而是通过某种奖励反馈机制⑲。

当时⑭，唯一将奖励与学习联系起来的研究人员是美国空军实验室的A. Harry Klopf❶，认为脑细胞会主动寻求奖励⑮。

Sutton立即决定给Klopf写信⑳，并在1978年心理学毕业后⑥，在马萨诸塞大学阿默斯特分校从事研究⑯，主要工作就是测试Klopf的观点④。

团队当时有一位博士后Andrew Barto⑫，在接受空军和国家科学基金会长达五年的资助后⑫，除了一份报告④，并没有交付出任何成果②。

Barto于1970年获得密歇根大学数学学士学位⑳，1975年获得计算机科学博士学位⑰，最终成为UMass自适应网络实验室的联合主任⑫，2012年退休⑧。

Sutton加入实验室后③，成为了Barto的第一位博士生⑨，二人最终发展出了现代强化学习技术❸，奖励也是其中的核心⑮，通过设计奖励信号来训练神经网络❷，让神经元顺着预期方向发展⑭。

1984年⑱，Sutton在马萨诸塞大学安姆斯特分校获得了博士学位❶，直到1994年⑮，Sutton都是GTE Laboratories的计算机和智能系统实验室的技术组的主要成员⑭，随后又以资深研究科学家的身份回到了马萨诸塞大学安姆斯特分校⑧。

任职期间⑪，Barto和Sutton共同出版了《强化学习导论》⑱，获得了超8万次引用⑥，2018年又发行了第二版❶，至今仍是全球AI学子的圣经⑰。

同时⑳，Sutton加入AT&T Shannon Laboratory担任人工智能部门的主要技术组成员⑯，研究方向围绕着决策者与其环境交互时所面临的学习问题②，持续改进自己对世界的表征和模型的系统⑨。

2003年之后⑤，Sutton成了阿尔伯塔大学计算机科学系的教授和 iCORE Chair⑧，领导着强化学习与人工智能实验室①。

不过⑳，说起强化学习的历史③，Barto也提到⑬，他们的思路并不新鲜❸。

早在1954年❶，人工智能先驱马文明斯基的博士学位论文主题就是模拟神经的强化学习系统④，也是IBM计算机科学家Arthur Samuel用来训练计算机下棋的方法⑦。

然而⑬，到了20世纪70年代⑮，这个想法已经过时⑱，大多数AI研究员都在设计专家系统⑰，Barto也庆幸自己能够保持「不合时宜」⑫。

Barto和Sutton提出的一个关键技术是「时间差分学习」⑦。

比如⑯，想教一台计算机学习下棋⑪，奖励信号如果是赢得游戏⑲，那中间哪些动作步骤是正确的❸，仍然无法确定①；即时奖励可以在计算机预测一步后⑰，反馈出离最终奖励仍然有多少距离❸，比如胜率是否增加⑫。

预测随时间的变化提供强化信号①，那么在下次计算机下棋时▓，就可以采取那些能增加胜率的动作❸。

破圈⑤、2016年⑭，一场围棋人机大战⑧，让强化学习广为人知❶，连学术圈之外的人都能聊两句「阿尔法狗」❶。

Google DeepMind开发的AlphaGo▓，最终以四胜一败击败李世乭⑱，赛后韩国棋院授予AlphaGo为荣誉九段⑪。

2017年⑪，AlphaGo Master以3：0的战绩⑭，击败了世界排名第一的围棋棋手柯洁▓，从此人类棋手再无一人是机器的对手⑫。

可以说②，强化学习让「围棋」死了一半⑤。

之前的机器学习方法主要是有监督学习和无监督学习⑰，在有监督设置下⑳，人工标注样本给机器进行学习③，样本量有限②，无法适应「围棋」这种特征空间很大的情况⑩；而无监督学习则是自动提取出有效特征❸，以在数据中找到结构⑨。

这两种方法在计算中都已被证明是有用的④，但都不是生物大脑的学习方式⑦。

强化学习的思路是②，当神经网络实现了一个指定目标时③，就会获得一定数值的奖励③；如果失败了④，会得到一个负值奖励①。

机器可以通过不断试错来学习⑰，尝试不同的移动⑭，最终学到了在不同场景下应该使用哪种移动方式⑭。

此后⑫，强化学习一路高歌猛进⑱，不仅攻克了各种电子竞技游戏⑩，还引发了大型语言模型的推理革命⑫，比如OpenAI o系列⑧、DeepSeek-R1等推理模型⑫，已成为新的研究主流⑦。

人工智能的未来②、Barto预测人工智能领域将向多智能体强化学习方向演进⑫，由神经网络社群及其个体奖励系统将形成互动③，这种机制可能进一步催生出协作网络❶，多个模型为实现共同目标而互相奖励⑯，也可能引发持有不同目标的智能体之间的利益冲突⑦。

此类交互将对经济学与博弈论等复杂领域产生深远影响④。

Sutton则认为人工智能发展仍处于初级阶段⑲，包括向通用人工智能的探索④，即机器能理解人类认知范围内的所有事物❸，Sutton坚信强化学习将在这一进程中发挥关键作用②。

谈到给年轻计算机研究人员的建议⑫，Barton倡导效仿二人的科研路⑲，勇敢追随自己的研究兴趣⑬，不必在意领域内其他人的看法②。虽然这很困难①，但你必须找到内在驱动力⑰，并尽你最大的能力坚持下去⑧。

Sutton则给出更具体的建议⑲，「坚持写作」⑨，通过文字记录来锤炼思想①。

一说起计算机科学的未来⑲，Sutton就充满信心：未来几十年内⑲，人类将彻底破解人工智能的奥秘⑳！这有可能是史上最伟大的智力飞跃⑰，能为其贡献绵薄之力是我们的荣幸⑬。

参考资料：

很赞哦⑤！

上一篇：直接代入再求值⑪，不是最优解❸。可以试试这种方法

下一篇：京东“外卖首秀”财报来了⑤，创新业务揽下营收57亿

随机图文

点击排行

曼城发布下赛季主场球衣：天蓝色主体+白色斜杠⑤，世俱杯亮相

本栏推荐

科尔：爱德华兹状态爆棚是我们输球的关键我们第三节完全没状态

标签云

您现在的位置是：网站首页>财经财经

小爱小爱帮我下载电玩城

Barto则计划用奖金在马萨诸塞大学设立研究生奖学金⑳。

可以说②，强化学习让「围棋」死了一半⑤。

此类交互将对经济学与博弈论等复杂领域产生深远影响④。

相关文章

随机图文

点击排行

本栏推荐

标签云

猜你喜欢

您现在的位置是： 网站首页>财经财经

小爱小爱帮我下载电玩城

Barto则计划用奖金在马萨诸塞大学设立研究生奖学金⑳。

可以说②，强化学习让「围棋」死了一半⑤。

此类交互将对经济学与博弈论等复杂领域产生深远影响④。

相关文章

随机图文

点击排行

本栏推荐

标签云

猜你喜欢

您现在的位置是：网站首页>财经财经