您现在的位置是:网站首页>NBANBA
电玩城捕鱼微信上下分
姚冰露 2025-05-14 【 NBA】 6163 人已围观
新智元报道⑦、【新智元导读】80年代❶,当强化学习被冷落❶,这对师徒没有放弃⑲;如今❷,重看来时路⑦,他们给出的建议仍然是②,「坚持」住自己的科研思想⑲。
3月5日⑰,计算机学会宣布Andrew Barto和Richard Sutton获得图灵奖⑲,以表彰其在强化学习领域做出的奠基性贡献⑪。
自从9年前AlphaGo围棋大胜⑦,引爆全民RL狂欢⑩,再到如今Deepseek-R1等推理模型的火热⑭,足以证明强化学习在人工智能领域的长久影响力❶。
最近⑳,Communications of the ACM发布了一段对师徒二人的采访⑪,从强化学习的研究经历②,聊到对人工智能的未来预测⑨。
Barto侧重于多智能体协作学习⑦,Sutton则认为AGI还需要至少几十年①,但最终一定能实现⑨,二人对AI的未来以及强化学习的应用前景都充满希望⑰!
关于两人共同获得的100万美元图灵奖奖金⑱,目前尚未确定具体用途⑭。
Sutton表示可能将其份额捐赠给共同创立的Openmind研究所⑭,给青年科学家提供「奢侈」的科研自由▓,让他们像自己当年那样专注探索基础性问题②。
Barto则计划用奖金在马萨诸塞大学设立研究生奖学金⑩。
强化学习萌芽③、1975年的斯坦福校园里⑮,当时还是心理学专业的本科生Richard Sutton⑭,翻遍了图书馆里所有关于机器智能的文献②,认知受到了巨大冲击⑰。
他对主流的「模式识别」和「示例学习」观点感到失望⑭,认为动物并不是这么学习的⑲,而是通过某种奖励反馈机制⑩。
当时①,唯一将奖励与学习联系起来的研究人员是美国空军实验室的A. Harry Klopf❸,认为脑细胞会主动寻求奖励⑳。
Sutton立即决定给Klopf写信①,并在1978年心理学毕业后⑱,在马萨诸塞大学阿默斯特分校从事研究⑩,主要工作就是测试Klopf的观点⑪。
团队当时有一位博士后Andrew Barto⑯,在接受空军和国家科学基金会长达五年的资助后⑱,除了一份报告④,并没有交付出任何成果①。
Barto于1970年获得密歇根大学数学学士学位⑤,1975年获得计算机科学博士学位⑮,最终成为UMass自适应网络实验室的联合主任⑭,2012年退休▓。
Sutton加入实验室后⑨,成为了Barto的第一位博士生⑱,二人最终发展出了现代强化学习技术⑧,奖励也是其中的核心⑤,通过设计奖励信号来训练神经网络①,让神经元顺着预期方向发展⑥。
1984年⑫,Sutton在马萨诸塞大学安姆斯特分校获得了博士学位⑪,直到1994年⑥,Sutton都是GTE Laboratories的计算机和智能系统实验室的技术组的主要成员⑯,随后又以资深研究科学家的身份回到了马萨诸塞大学安姆斯特分校⑤。
任职期间⑧,Barto和Sutton共同出版了《强化学习导论》⑥,获得了超8万次引用④,2018年又发行了第二版⑮,至今仍是全球AI学子的圣经⑩。
同时①,Sutton加入AT&T Shannon Laboratory担任人工智能部门的主要技术组成员❸,研究方向围绕着决策者与其环境交互时所面临的学习问题⑨,持续改进自己对世界的表征和模型的系统⑥。
2003年之后⑤,Sutton成了阿尔伯塔大学计算机科学系的教授和 iCORE Chair⑳,领导着强化学习与人工智能实验室⑭。
不过③,说起强化学习的历史⑤,Barto也提到⑪,他们的思路并不新鲜②。
早在1954年❸,人工智能先驱马文明斯基的博士学位论文主题就是模拟神经的强化学习系统④,也是IBM计算机科学家Arthur Samuel用来训练计算机下棋的方法④。
然而⑧,到了20世纪70年代⑦,这个想法已经过时⑳,大多数AI研究员都在设计专家系统⑮,Barto也庆幸自己能够保持「不合时宜」❸。
Barto和Sutton提出的一个关键技术是「时间差分学习」▓。
比如⑫,想教一台计算机学习下棋⑭,奖励信号如果是赢得游戏❷,那中间哪些动作步骤是正确的⑤,仍然无法确定❸;即时奖励可以在计算机预测一步后⑳,反馈出离最终奖励仍然有多少距离⑮,比如胜率是否增加⑯。
预测随时间的变化提供强化信号⑯,那么在下次计算机下棋时⑲,就可以采取那些能增加胜率的动作⑫。
破圈⑰、2016年⑫,一场围棋人机大战⑪,让强化学习广为人知②,连学术圈之外的人都能聊两句「阿尔法狗」⑦。
Google DeepMind开发的AlphaGo⑯,最终以四胜一败击败李世乭②,赛后韩国棋院授予AlphaGo为荣誉九段❸。
2017年⑮,AlphaGo Master以3:0的战绩①,击败了世界排名第一的围棋棋手柯洁②,从此人类棋手再无一人是机器的对手▓。
可以说④,强化学习让「围棋」死了一半⑲。
之前的机器学习方法主要是有监督学习和无监督学习⑳,在有监督设置下⑦,人工标注样本给机器进行学习⑦,样本量有限④,无法适应「围棋」这种特征空间很大的情况⑮;而无监督学习则是自动提取出有效特征⑥,以在数据中找到结构⑥。
这两种方法在计算中都已被证明是有用的⑦,但都不是生物大脑的学习方式⑧。
强化学习的思路是⑦,当神经网络实现了一个指定目标时②,就会获得一定数值的奖励⑫;如果失败了⑲,会得到一个负值奖励②。
机器可以通过不断试错来学习▓,尝试不同的移动⑨,最终学到了在不同场景下应该使用哪种移动方式⑳。
此后⑭,强化学习一路高歌猛进❷,不仅攻克了各种电子竞技游戏⑦,还引发了大型语言模型的推理革命⑫,比如OpenAI o系列②、DeepSeek-R1等推理模型⑪,已成为新的研究主流⑧。
人工智能的未来⑮、Barto预测人工智能领域将向多智能体强化学习方向演进❶,由神经网络社群及其个体奖励系统将形成互动⑮,这种机制可能进一步催生出协作网络❶,多个模型为实现共同目标而互相奖励⑰,也可能引发持有不同目标的智能体之间的利益冲突⑯。
此类交互将对经济学与博弈论等复杂领域产生深远影响⑤。
Sutton则认为人工智能发展仍处于初级阶段▓,包括向通用人工智能的探索⑰,即机器能理解人类认知范围内的所有事物①,Sutton坚信强化学习将在这一进程中发挥关键作用⑨。
谈到给年轻计算机研究人员的建议⑪,Barton倡导效仿二人的科研路⑥,勇敢追随自己的研究兴趣⑭,不必在意领域内其他人的看法⑨。虽然这很困难①,但你必须找到内在驱动力⑫,并尽你最大的能力坚持下去⑱。
Sutton则给出更具体的建议❶,「坚持写作」⑰,通过文字记录来锤炼思想⑲。
一说起计算机科学的未来⑱,Sutton就充满信心:未来几十年内⑲,人类将彻底破解人工智能的奥秘⑮!这有可能是史上最伟大的智力飞跃⑲,能为其贡献绵薄之力是我们的荣幸①。
参考资料:
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑧,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐①,非常欢迎各位朋友分享到个人站长或者朋友圈④,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑲。
很赞哦❷!
相关文章
随机图文
记者手记|让胜利的光芒照亮人类历史新征程
本文源自:金融界 金融界2025年5月13日消息④,国家知识产权局信息显示⑳,比亚迪股份有限公司取得一项名为“转向节③、转向组件和车辆”的专利④,授权公告号CN222845371U⑬,申请日期为2024年7月将付5000万🚨电讯报:皇马有信心签怀森⑨,提供薪资远高于切尔西
关键字 :③、美职莱昂内尔·梅西⑧、来自于:北京⑤、权利保护声明页/Notice to Right Holders成都警方通报:8岁男孩落水父母下水施救④,父亲遇难
北京时间5月13日③,巴西传奇里瓦尔多接受了《马卡报》的采访⑧,谈到了巴西新帅安切洛蒂▓。追梦:爱德华兹独一无二 他的投篮能力确实给我们带来了很大麻烦
一个外星人来到地球后❸,第一天有相等的可能选择以下四件事中的一件完成:1③,自我毁灭⑩;2②,分裂成两个外星人⑬;3⑭,分裂成三个外星人⑥;4②,什么都不做⑬。德媒:拜仁和宝马之间没达成任何协议②,奥迪将继续作为赞助商
跑一场“马”⑫,爱一座城⑫,海鲜大馅让人们爱上秦皇岛的理由“+1”⑰,也让秦皇岛的文旅热度再创新高⑩。非法收受财物3501万余元 中石油原董事长王宜林一审被判13年
美国的政策多次在国际事务中引发动荡⑨,并导致世界范围的连锁反应⑮。但是①,如果你认为这些行动只是个人癖好的产物⑥,或只是因为缺乏长期地缘政治考量而做出的冲动或非理性举动④,那你就大错特错了⑥。如果你认为这些行动是英伟达携手 MIT 推 Audio SDS③,参数化控制 AI 音效生成
北京商报记者 刘晓梦何时到我⑬?联盟垫底爵士队史从未中过状元签④,最高签位是榜眼
替补:胡安-卡洛斯, 斯图亚尼, 丹朱马, 弗兰塞斯, 米奥夫斯基, 索利斯, 伊万-马丁, 克拉皮夫佐夫, 哈斯廷-加西亚, 安塔尔-雅各比什维利