您现在的位置是:网站首页>国际国际
电玩城跟游戏厅的区别
傅冰夏 2025-05-14 【国际】 5787 人已围观
新智元报道⑧、【新智元导读】80年代⑲,当强化学习被冷落⑩,这对师徒没有放弃④;如今⑰,重看来时路❸,他们给出的建议仍然是⑬,「坚持」住自己的科研思想⑨。
3月5日❸,计算机学会宣布Andrew Barto和Richard Sutton获得图灵奖❸,以表彰其在强化学习领域做出的奠基性贡献⑰。
自从9年前AlphaGo围棋大胜⑬,引爆全民RL狂欢③,再到如今Deepseek-R1等推理模型的火热⑩,足以证明强化学习在人工智能领域的长久影响力❷。
最近⑲,Communications of the ACM发布了一段对师徒二人的采访⑰,从强化学习的研究经历①,聊到对人工智能的未来预测⑤。
Barto侧重于多智能体协作学习⑫,Sutton则认为AGI还需要至少几十年⑨,但最终一定能实现⑱,二人对AI的未来以及强化学习的应用前景都充满希望⑯!
关于两人共同获得的100万美元图灵奖奖金⑫,目前尚未确定具体用途①。
Sutton表示可能将其份额捐赠给共同创立的Openmind研究所❸,给青年科学家提供「奢侈」的科研自由⑥,让他们像自己当年那样专注探索基础性问题⑨。
Barto则计划用奖金在马萨诸塞大学设立研究生奖学金③。
强化学习萌芽⑰、1975年的斯坦福校园里⑮,当时还是心理学专业的本科生Richard Sutton⑨,翻遍了图书馆里所有关于机器智能的文献③,认知受到了巨大冲击④。
他对主流的「模式识别」和「示例学习」观点感到失望⑯,认为动物并不是这么学习的⑰,而是通过某种奖励反馈机制②。
当时⑯,唯一将奖励与学习联系起来的研究人员是美国空军实验室的A. Harry Klopf⑦,认为脑细胞会主动寻求奖励⑫。
Sutton立即决定给Klopf写信❷,并在1978年心理学毕业后⑥,在马萨诸塞大学阿默斯特分校从事研究⑱,主要工作就是测试Klopf的观点▓。
团队当时有一位博士后Andrew Barto❷,在接受空军和国家科学基金会长达五年的资助后⑲,除了一份报告⑳,并没有交付出任何成果③。
Barto于1970年获得密歇根大学数学学士学位⑭,1975年获得计算机科学博士学位⑱,最终成为UMass自适应网络实验室的联合主任⑭,2012年退休⑰。
Sutton加入实验室后⑱,成为了Barto的第一位博士生⑧,二人最终发展出了现代强化学习技术⑩,奖励也是其中的核心⑳,通过设计奖励信号来训练神经网络❶,让神经元顺着预期方向发展❷。
1984年❷,Sutton在马萨诸塞大学安姆斯特分校获得了博士学位❷,直到1994年⑭,Sutton都是GTE Laboratories的计算机和智能系统实验室的技术组的主要成员⑪,随后又以资深研究科学家的身份回到了马萨诸塞大学安姆斯特分校⑫。
任职期间⑮,Barto和Sutton共同出版了《强化学习导论》⑤,获得了超8万次引用❸,2018年又发行了第二版③,至今仍是全球AI学子的圣经⑥。
同时⑰,Sutton加入AT&T Shannon Laboratory担任人工智能部门的主要技术组成员⑰,研究方向围绕着决策者与其环境交互时所面临的学习问题⑱,持续改进自己对世界的表征和模型的系统⑰。
2003年之后①,Sutton成了阿尔伯塔大学计算机科学系的教授和 iCORE Chair⑲,领导着强化学习与人工智能实验室①。
不过❶,说起强化学习的历史⑱,Barto也提到⑯,他们的思路并不新鲜⑫。
早在1954年⑰,人工智能先驱马文明斯基的博士学位论文主题就是模拟神经的强化学习系统①,也是IBM计算机科学家Arthur Samuel用来训练计算机下棋的方法⑱。
然而①,到了20世纪70年代⑮,这个想法已经过时②,大多数AI研究员都在设计专家系统❷,Barto也庆幸自己能够保持「不合时宜」③。
Barto和Sutton提出的一个关键技术是「时间差分学习」⑱。
比如⑨,想教一台计算机学习下棋⑤,奖励信号如果是赢得游戏⑰,那中间哪些动作步骤是正确的⑧,仍然无法确定❶;即时奖励可以在计算机预测一步后⑩,反馈出离最终奖励仍然有多少距离⑫,比如胜率是否增加①。
预测随时间的变化提供强化信号⑭,那么在下次计算机下棋时③,就可以采取那些能增加胜率的动作⑱。
破圈⑫、2016年①,一场围棋人机大战❸,让强化学习广为人知⑭,连学术圈之外的人都能聊两句「阿尔法狗」⑦。
Google DeepMind开发的AlphaGo▓,最终以四胜一败击败李世乭⑪,赛后韩国棋院授予AlphaGo为荣誉九段❷。
2017年⑫,AlphaGo Master以3:0的战绩⑲,击败了世界排名第一的围棋棋手柯洁⑥,从此人类棋手再无一人是机器的对手❷。
可以说⑬,强化学习让「围棋」死了一半⑥。
之前的机器学习方法主要是有监督学习和无监督学习④,在有监督设置下❶,人工标注样本给机器进行学习⑰,样本量有限⑲,无法适应「围棋」这种特征空间很大的情况⑰;而无监督学习则是自动提取出有效特征▓,以在数据中找到结构⑤。
这两种方法在计算中都已被证明是有用的⑲,但都不是生物大脑的学习方式⑧。
强化学习的思路是⑭,当神经网络实现了一个指定目标时③,就会获得一定数值的奖励④;如果失败了③,会得到一个负值奖励⑲。
机器可以通过不断试错来学习⑬,尝试不同的移动⑨,最终学到了在不同场景下应该使用哪种移动方式⑤。
此后②,强化学习一路高歌猛进⑥,不仅攻克了各种电子竞技游戏④,还引发了大型语言模型的推理革命②,比如OpenAI o系列⑳、DeepSeek-R1等推理模型②,已成为新的研究主流⑬。
人工智能的未来⑥、Barto预测人工智能领域将向多智能体强化学习方向演进②,由神经网络社群及其个体奖励系统将形成互动❷,这种机制可能进一步催生出协作网络⑨,多个模型为实现共同目标而互相奖励⑨,也可能引发持有不同目标的智能体之间的利益冲突❷。
此类交互将对经济学与博弈论等复杂领域产生深远影响⑰。
Sutton则认为人工智能发展仍处于初级阶段⑯,包括向通用人工智能的探索⑳,即机器能理解人类认知范围内的所有事物⑦,Sutton坚信强化学习将在这一进程中发挥关键作用❸。
谈到给年轻计算机研究人员的建议①,Barton倡导效仿二人的科研路①,勇敢追随自己的研究兴趣⑨,不必在意领域内其他人的看法⑬。虽然这很困难⑤,但你必须找到内在驱动力②,并尽你最大的能力坚持下去⑱。
Sutton则给出更具体的建议⑱,「坚持写作」⑬,通过文字记录来锤炼思想❸。
一说起计算机科学的未来⑭,Sutton就充满信心:未来几十年内③,人类将彻底破解人工智能的奥秘⑰!这有可能是史上最伟大的智力飞跃⑳,能为其贡献绵薄之力是我们的荣幸⑨。
参考资料:
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑨,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑩,非常欢迎各位朋友分享到个人站长或者朋友圈⑫,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑳。
很赞哦⑦!
相关文章
随机图文
-
吉利在杭州成立醇氢电动新能源商用车公司
4月1日⑪,萨默斯接受彭博社采访 视频截图 5月10日至11日⑰,中美经贸高层会谈在瑞士日内瓦举行⑪,双方同意在90天内降低关税❶,将税率下调115%❷。这一消息迅速引起国际社会和市场的高度关注❷,外界普遍认为 俄副外长:俄美两国将举行双边谈判
管理层对今年的618大促和第二季度的用户增长及销售表现表示乐观⑪,认为政府的一系列提振消费政策已经推动整体消费状况持续改善⑫。-
上海教授创业10年⑩,拿下人形机器人半程马拉松续航第一
那时候⑭,手机还未普及⑤,玩具也很少⑲,《大风车》等节目就像孩子们的精神乐园⑧,董浩叔叔⑰、鞠萍姐姐④、金龟子❷、红果果和绿泡泡这些主持人⑭,也成为了孩子们远方的玩伴⑰。 -
名记:字母哥全明星时参加了库里的私人聚会 他一直是勇士的梦想
更年期让女性失去生育能力❶,从另一个角度❶,也摆脱了强大的荷尔蒙的“控制”①,让女性完成从母亲到自己的角色转换❸。更年期是女性的第二青春❷。就像生命的一个环⑯,进入一个新的高度❸,新的山峰❶,那是值得我们愉悦的事情❶。 解约金3500万②!罗马诺:利物浦推进弗林蓬谈判⑫,球员渴望加盟
多国人士表示⑤,习近平主席此访全面提升中俄关系的高度❸、维度②、韧度⑥,为动荡世界注入更多稳定性⑭;发出坚决维护战后国际秩序⑤、坚定扞卫国际公平正义的时代强音❷,彰显携手国际社会坚持多边主义和推进全球治理体系改革的-
国际博物馆日主会场设在大运河博物馆 将同步推出“看见殷商”大展
自2019年启动⑧,项目从非洲招收农业专业留学生⑭,在河北曲周县的科技小院学习种植技术③,此后在非洲开展农户的实验和示范▓,解决非洲农户的实际问题③。在留学生的帮助下⑭,马拉维科技小院农户的粮食产量翻了4倍⑫。今年 湖人55号签会选择内线阿威②? 独行侠会交换加福德吗⑭?
2025年5月8日-11日▓,中国图象图形大会在长沙隆重召开❶。本次大会由中国图象图形学学会主办③,湖南大学承办⑰,中南大学⑳、国防科技大学⑯、湖南工程学院和长沙市科学技术协会协办①。来自图像图形领域学术界⑥、产业界科尔执教时代第2次遭遇系列赛3连败 上一次是2016年总决赛
而在下半场被替换下场之后⑲,维尼修斯坐在替补席上⑩,看着队友的表现痛苦地抱怨道:“噢②,回传③,回传⑤,回传❸,回传⑤,回传......老是回传①,天呐⑭。”