您现在的位置是:网站首页>体育体育
真快活电玩城官网
刘冰萍 2025-05-14 【体育】 7903 人已围观
新智元报道⑨、【新智元导读】80年代⑭,当强化学习被冷落▓,这对师徒没有放弃❷;如今③,重看来时路②,他们给出的建议仍然是❷,「坚持」住自己的科研思想③。
3月5日④,计算机学会宣布Andrew Barto和Richard Sutton获得图灵奖⑬,以表彰其在强化学习领域做出的奠基性贡献③。
自从9年前AlphaGo围棋大胜⑬,引爆全民RL狂欢⑭,再到如今Deepseek-R1等推理模型的火热⑨,足以证明强化学习在人工智能领域的长久影响力❶。
最近⑳,Communications of the ACM发布了一段对师徒二人的采访⑳,从强化学习的研究经历⑯,聊到对人工智能的未来预测⑬。
Barto侧重于多智能体协作学习⑧,Sutton则认为AGI还需要至少几十年④,但最终一定能实现②,二人对AI的未来以及强化学习的应用前景都充满希望❸!
关于两人共同获得的100万美元图灵奖奖金⑧,目前尚未确定具体用途⑰。
Sutton表示可能将其份额捐赠给共同创立的Openmind研究所❶,给青年科学家提供「奢侈」的科研自由▓,让他们像自己当年那样专注探索基础性问题⑩。
Barto则计划用奖金在马萨诸塞大学设立研究生奖学金⑧。
强化学习萌芽②、1975年的斯坦福校园里⑯,当时还是心理学专业的本科生Richard Sutton②,翻遍了图书馆里所有关于机器智能的文献⑤,认知受到了巨大冲击⑥。
他对主流的「模式识别」和「示例学习」观点感到失望⑳,认为动物并不是这么学习的⑭,而是通过某种奖励反馈机制⑭。
当时⑭,唯一将奖励与学习联系起来的研究人员是美国空军实验室的A. Harry Klopf⑥,认为脑细胞会主动寻求奖励②。
Sutton立即决定给Klopf写信⑮,并在1978年心理学毕业后❶,在马萨诸塞大学阿默斯特分校从事研究③,主要工作就是测试Klopf的观点③。
团队当时有一位博士后Andrew Barto⑤,在接受空军和国家科学基金会长达五年的资助后⑳,除了一份报告①,并没有交付出任何成果②。
Barto于1970年获得密歇根大学数学学士学位⑬,1975年获得计算机科学博士学位❷,最终成为UMass自适应网络实验室的联合主任⑳,2012年退休⑮。
Sutton加入实验室后④,成为了Barto的第一位博士生⑮,二人最终发展出了现代强化学习技术①,奖励也是其中的核心❶,通过设计奖励信号来训练神经网络②,让神经元顺着预期方向发展⑥。
1984年❶,Sutton在马萨诸塞大学安姆斯特分校获得了博士学位⑯,直到1994年⑥,Sutton都是GTE Laboratories的计算机和智能系统实验室的技术组的主要成员⑨,随后又以资深研究科学家的身份回到了马萨诸塞大学安姆斯特分校②。
任职期间⑩,Barto和Sutton共同出版了《强化学习导论》⑲,获得了超8万次引用⑨,2018年又发行了第二版③,至今仍是全球AI学子的圣经⑧。
同时▓,Sutton加入AT&T Shannon Laboratory担任人工智能部门的主要技术组成员❶,研究方向围绕着决策者与其环境交互时所面临的学习问题①,持续改进自己对世界的表征和模型的系统⑰。
2003年之后❸,Sutton成了阿尔伯塔大学计算机科学系的教授和 iCORE Chair⑪,领导着强化学习与人工智能实验室⑤。
不过⑯,说起强化学习的历史⑫,Barto也提到▓,他们的思路并不新鲜❷。
早在1954年⑰,人工智能先驱马文明斯基的博士学位论文主题就是模拟神经的强化学习系统⑲,也是IBM计算机科学家Arthur Samuel用来训练计算机下棋的方法⑰。
然而⑩,到了20世纪70年代▓,这个想法已经过时⑪,大多数AI研究员都在设计专家系统⑲,Barto也庆幸自己能够保持「不合时宜」⑭。
Barto和Sutton提出的一个关键技术是「时间差分学习」⑦。
比如②,想教一台计算机学习下棋⑪,奖励信号如果是赢得游戏①,那中间哪些动作步骤是正确的①,仍然无法确定⑭;即时奖励可以在计算机预测一步后⑥,反馈出离最终奖励仍然有多少距离⑧,比如胜率是否增加③。
预测随时间的变化提供强化信号⑪,那么在下次计算机下棋时⑬,就可以采取那些能增加胜率的动作⑲。
破圈⑲、2016年⑳,一场围棋人机大战⑭,让强化学习广为人知③,连学术圈之外的人都能聊两句「阿尔法狗」▓。
Google DeepMind开发的AlphaGo❸,最终以四胜一败击败李世乭⑪,赛后韩国棋院授予AlphaGo为荣誉九段⑭。
2017年⑫,AlphaGo Master以3:0的战绩⑲,击败了世界排名第一的围棋棋手柯洁⑯,从此人类棋手再无一人是机器的对手⑫。
可以说⑧,强化学习让「围棋」死了一半⑨。
之前的机器学习方法主要是有监督学习和无监督学习⑪,在有监督设置下❷,人工标注样本给机器进行学习⑮,样本量有限⑳,无法适应「围棋」这种特征空间很大的情况⑤;而无监督学习则是自动提取出有效特征⑭,以在数据中找到结构⑤。
这两种方法在计算中都已被证明是有用的❶,但都不是生物大脑的学习方式❷。
强化学习的思路是②,当神经网络实现了一个指定目标时⑳,就会获得一定数值的奖励❶;如果失败了⑬,会得到一个负值奖励⑩。
机器可以通过不断试错来学习⑳,尝试不同的移动❸,最终学到了在不同场景下应该使用哪种移动方式③。
此后❶,强化学习一路高歌猛进③,不仅攻克了各种电子竞技游戏⑯,还引发了大型语言模型的推理革命❸,比如OpenAI o系列⑲、DeepSeek-R1等推理模型⑱,已成为新的研究主流⑦。
人工智能的未来❶、Barto预测人工智能领域将向多智能体强化学习方向演进⑮,由神经网络社群及其个体奖励系统将形成互动⑲,这种机制可能进一步催生出协作网络⑱,多个模型为实现共同目标而互相奖励⑥,也可能引发持有不同目标的智能体之间的利益冲突⑪。
此类交互将对经济学与博弈论等复杂领域产生深远影响⑥。
Sutton则认为人工智能发展仍处于初级阶段⑫,包括向通用人工智能的探索④,即机器能理解人类认知范围内的所有事物⑲,Sutton坚信强化学习将在这一进程中发挥关键作用⑱。
谈到给年轻计算机研究人员的建议⑨,Barton倡导效仿二人的科研路❷,勇敢追随自己的研究兴趣⑭,不必在意领域内其他人的看法⑨。虽然这很困难⑮,但你必须找到内在驱动力▓,并尽你最大的能力坚持下去⑳。
Sutton则给出更具体的建议④,「坚持写作」⑬,通过文字记录来锤炼思想⑭。
一说起计算机科学的未来❸,Sutton就充满信心:未来几十年内❶,人类将彻底破解人工智能的奥秘⑤!这有可能是史上最伟大的智力飞跃①,能为其贡献绵薄之力是我们的荣幸⑬。
参考资料:
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可②,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑱,非常欢迎各位朋友分享到个人站长或者朋友圈⑪,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”①。
很赞哦⑱!
相关文章
随机图文
-
100万美元图灵奖奖金⑤,强化学习师徒想献给科研自由
2023年12月❸,深圳能源将数智服务确定为核心业务之一⑦,定位为集团转型发展新增长极⑱,打造一流科创型企业和综合解决方案服务商⑦。发展方向是聚焦核心竞争力④,围绕主业为行业赋能⑮,轻资产运营▓。 “眼界低⑯,比贫穷更可怕③!”一支22元钢笔⑨,把家长气到睡不着觉
关键字 :❸、元⑰、来自于:北京①、权利保护声明页/Notice to Right Holders发力拓展新兴市场 前四个月浙江进出口增长6.6%
该医疗机构当天说②,其救援小组在的黎波里南部阿布萨利姆区周边的冲突地带找到6具遗体❶。-
追梦:只要能赢一场一切都会改变 我们会尽一切努力找到获胜之法
赵银豪表示②,常规来说遇到这种险种的时候❶,我们应该尽快向保险公司告知情形⑯,以便在保险公司要求下⑭,固定相应的证据▓,比如拍照⑱、对损失车辆损失情况录视频⑩,这样在后续理赔的过程当中⑮,能有比较有利的条件⑱。 国足利好③?曝18岁王钰栋考虑全运会后留洋⑯!德国+法国多队欲签他
就算巴特勒这么做最终仍只得到14分⑮,人们至少能接受④。不过是手感不佳罢了⑲,这种事难免发生⑨。但全场仅出手9次⑲,放弃至少同等数量的机会⑩,被教练安排上半场最后四分钟休息就为第三节发力却单节4投4分❶,在比赛胶着-
9-0❷!进球网:无C罗的胜利队更强了吗▓?这本可帮助他冲千球
比亚迪与宁德时代之间的市占率差距缩小至13.09%⑰,为近18个月以来新低⑧。不过从1-4月累计装车量看⑧,两家企业之间的市占率差距仍保持在18.36%⑦。 超5300米 我国页岩气井垂深纪录刷新
中央八项规定出台十二年后⑬,中央决定在全党开展深入贯彻中央八项规定精神学习教育⑥。北京大学政府管理学院教授白智立认为⑲,这可以改进党风政风⑤,进一步提升政党公信力⑯,进一步赢得社会和群众的支持⑯,保障党的路线方针小米客服回应SU7Ultra车主要求退车:可申请取消订单④,定金不退
勇士媒体Hoop Herald写道:勇士队在没有库里的情况下连输三场❶,这恰恰能说明库里是NBA历史前五的超巨⑭,他一人等于改变了系列赛走势④。
点击排行
