您现在的位置是:网站首页>国际国际
街机捕鱼电玩城鳄鱼版
贺冰夏 2025-05-13 【 国际】 8765 人已围观
新智元报道⑧、【新智元导读】80年代❸,当强化学习被冷落⑭,这对师徒没有放弃③;如今⑫,重看来时路④,他们给出的建议仍然是❸,「坚持」住自己的科研思想⑲。
3月5日⑫,计算机学会宣布Andrew Barto和Richard Sutton获得图灵奖⑮,以表彰其在强化学习领域做出的奠基性贡献⑫。
自从9年前AlphaGo围棋大胜⑭,引爆全民RL狂欢⑨,再到如今Deepseek-R1等推理模型的火热⑧,足以证明强化学习在人工智能领域的长久影响力⑨。
最近⑲,Communications of the ACM发布了一段对师徒二人的采访①,从强化学习的研究经历❶,聊到对人工智能的未来预测⑳。
Barto侧重于多智能体协作学习⑨,Sutton则认为AGI还需要至少几十年②,但最终一定能实现⑯,二人对AI的未来以及强化学习的应用前景都充满希望②!
关于两人共同获得的100万美元图灵奖奖金⑪,目前尚未确定具体用途⑨。
Sutton表示可能将其份额捐赠给共同创立的Openmind研究所⑭,给青年科学家提供「奢侈」的科研自由③,让他们像自己当年那样专注探索基础性问题⑰。
Barto则计划用奖金在马萨诸塞大学设立研究生奖学金①。
强化学习萌芽⑭、1975年的斯坦福校园里⑦,当时还是心理学专业的本科生Richard Sutton❷,翻遍了图书馆里所有关于机器智能的文献⑮,认知受到了巨大冲击⑱。
他对主流的「模式识别」和「示例学习」观点感到失望⑧,认为动物并不是这么学习的❶,而是通过某种奖励反馈机制❶。
当时⑩,唯一将奖励与学习联系起来的研究人员是美国空军实验室的A. Harry Klopf⑥,认为脑细胞会主动寻求奖励⑱。
Sutton立即决定给Klopf写信⑦,并在1978年心理学毕业后⑬,在马萨诸塞大学阿默斯特分校从事研究⑳,主要工作就是测试Klopf的观点▓。
团队当时有一位博士后Andrew Barto❶,在接受空军和国家科学基金会长达五年的资助后⑬,除了一份报告⑯,并没有交付出任何成果⑥。
Barto于1970年获得密歇根大学数学学士学位⑯,1975年获得计算机科学博士学位⑩,最终成为UMass自适应网络实验室的联合主任⑧,2012年退休⑭。
Sutton加入实验室后⑲,成为了Barto的第一位博士生⑫,二人最终发展出了现代强化学习技术⑤,奖励也是其中的核心⑰,通过设计奖励信号来训练神经网络⑱,让神经元顺着预期方向发展⑧。
1984年⑥,Sutton在马萨诸塞大学安姆斯特分校获得了博士学位⑭,直到1994年①,Sutton都是GTE Laboratories的计算机和智能系统实验室的技术组的主要成员❶,随后又以资深研究科学家的身份回到了马萨诸塞大学安姆斯特分校⑨。
任职期间⑨,Barto和Sutton共同出版了《强化学习导论》❸,获得了超8万次引用⑳,2018年又发行了第二版⑯,至今仍是全球AI学子的圣经⑰。
同时⑥,Sutton加入AT&T Shannon Laboratory担任人工智能部门的主要技术组成员▓,研究方向围绕着决策者与其环境交互时所面临的学习问题⑯,持续改进自己对世界的表征和模型的系统▓。
2003年之后⑥,Sutton成了阿尔伯塔大学计算机科学系的教授和 iCORE Chair⑦,领导着强化学习与人工智能实验室❸。
不过③,说起强化学习的历史▓,Barto也提到⑧,他们的思路并不新鲜⑤。
早在1954年⑦,人工智能先驱马文明斯基的博士学位论文主题就是模拟神经的强化学习系统⑱,也是IBM计算机科学家Arthur Samuel用来训练计算机下棋的方法⑧。
然而⑧,到了20世纪70年代❸,这个想法已经过时⑯,大多数AI研究员都在设计专家系统⑪,Barto也庆幸自己能够保持「不合时宜」⑩。
Barto和Sutton提出的一个关键技术是「时间差分学习」▓。
比如⑧,想教一台计算机学习下棋⑤,奖励信号如果是赢得游戏⑳,那中间哪些动作步骤是正确的⑨,仍然无法确定⑩;即时奖励可以在计算机预测一步后❷,反馈出离最终奖励仍然有多少距离⑥,比如胜率是否增加⑮。
预测随时间的变化提供强化信号⑳,那么在下次计算机下棋时⑰,就可以采取那些能增加胜率的动作③。
破圈⑱、2016年①,一场围棋人机大战⑰,让强化学习广为人知③,连学术圈之外的人都能聊两句「阿尔法狗」②。
Google DeepMind开发的AlphaGo⑨,最终以四胜一败击败李世乭③,赛后韩国棋院授予AlphaGo为荣誉九段⑯。
2017年③,AlphaGo Master以3:0的战绩⑧,击败了世界排名第一的围棋棋手柯洁⑪,从此人类棋手再无一人是机器的对手❸。
可以说②,强化学习让「围棋」死了一半⑨。
之前的机器学习方法主要是有监督学习和无监督学习⑥,在有监督设置下❷,人工标注样本给机器进行学习❷,样本量有限⑰,无法适应「围棋」这种特征空间很大的情况②;而无监督学习则是自动提取出有效特征①,以在数据中找到结构③。
这两种方法在计算中都已被证明是有用的⑥,但都不是生物大脑的学习方式⑦。
强化学习的思路是⑲,当神经网络实现了一个指定目标时②,就会获得一定数值的奖励⑦;如果失败了⑨,会得到一个负值奖励④。
机器可以通过不断试错来学习①,尝试不同的移动③,最终学到了在不同场景下应该使用哪种移动方式⑨。
此后⑯,强化学习一路高歌猛进⑱,不仅攻克了各种电子竞技游戏⑫,还引发了大型语言模型的推理革命⑬,比如OpenAI o系列①、DeepSeek-R1等推理模型⑯,已成为新的研究主流⑭。
人工智能的未来⑨、Barto预测人工智能领域将向多智能体强化学习方向演进⑮,由神经网络社群及其个体奖励系统将形成互动⑪,这种机制可能进一步催生出协作网络⑮,多个模型为实现共同目标而互相奖励②,也可能引发持有不同目标的智能体之间的利益冲突②。
此类交互将对经济学与博弈论等复杂领域产生深远影响❶。
Sutton则认为人工智能发展仍处于初级阶段⑮,包括向通用人工智能的探索⑧,即机器能理解人类认知范围内的所有事物⑮,Sutton坚信强化学习将在这一进程中发挥关键作用③。
谈到给年轻计算机研究人员的建议⑳,Barton倡导效仿二人的科研路②,勇敢追随自己的研究兴趣⑦,不必在意领域内其他人的看法⑤。虽然这很困难⑤,但你必须找到内在驱动力⑫,并尽你最大的能力坚持下去⑨。
Sutton则给出更具体的建议⑪,「坚持写作」▓,通过文字记录来锤炼思想⑳。
一说起计算机科学的未来▓,Sutton就充满信心:未来几十年内⑬,人类将彻底破解人工智能的奥秘⑭!这有可能是史上最伟大的智力飞跃⑦,能为其贡献绵薄之力是我们的荣幸❷。
参考资料:
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑭,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑦,非常欢迎各位朋友分享到个人站长或者朋友圈④,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑩。
很赞哦⑲!
相关文章
随机图文
绝对功勋⑩!安帅带皇马夺得15座冠军:3欧冠⑮、2西甲⑬、2国王杯等
北京东方雨虹女足:潘红艳⑬、姚梦佳停车场偶遇一辆伪装车 看着它倒车现场撞车 应该是新款魏牌高山
生活中最常用的是LED灯⑤,你知道为什么吗⑲?更多精彩④,敬请期待⑤!库里对我三分的提升有非常大的影响 现在就是放开投
接下来⑰,神奇的部分开始了:艺术家开始同时"修复"这两份带有噪点的草稿❶,逐步使它们变得清晰⑭。关键是⑭,在修复过程中⑬,文字草稿和图像草稿会相互"交流"——文字会指导图像的修复❶,图像也会帮助文字表达更加精确③。关键一战 巴特勒仅出手9次得到14分
中国将相应修改税委会公告2025年第4号规定的对美国商品加征的从价关税⑮,其中⑬,24%的关税在初始的90天内暂停实施④,同时保留对这些商品加征剩余10%的关税⑰,并取消根据税委会公告2025年第5号和第6号律师解读小米非议:SU7 Ultra前舱盖是“虚假宣传”吗⑪?
今年4月④,中央第十巡视组进驻内蒙古自治区⑥,开展为期2个半月左右的巡视③。天赋炸裂阿森纳15岁小将道曼U18联赛梅开二度⑪,近7场14球
中国新能源汽车的快速发展④,也给国内的继电器企业带来较为可观的增长空间⑤。另外③,随着充电功率增大②,800V及以上系统应用越来越广泛⑥。高压快充对于高压直流继电器的耐压等级⑱、载流能力❸、灭弧能力⑪、接触电阻⑫、使用CDN鼻祖转型❷,为何“云+AI”成标配⑰?丨企服国际观察
同期⑳,国内动力电池出口同比增长了53.6%⑯,动力和其他电池上月的出口同比增速则达到了64.2%⑪。在出口方面❶,储能电池的增速也快于动力电池⑱。粽子吃出带血创可贴背后⑩,来伊份2024年转亏关店600家
5⑯、“一鼓作气⑬,再而衰⑩,三而竭”③。周一上班就气鼓鼓❷。第二天⑪,连生气的劲都没了❸。连上三天班⑩,人就跟要断气了一样❷。
点击排行
