您现在的位置是:网站首页>国际国际
超级电玩城正版可运行下载
曾幻灵 2025-05-14 【
新智元报道⑫、【新智元导读】80年代⑪,当强化学习被冷落④,这对师徒没有放弃❷;如今③,重看来时路▓,他们给出的建议仍然是③,「坚持」住自己的科研思想⑥。
3月5日②,计算机学会宣布Andrew Barto和Richard Sutton获得图灵奖❸,以表彰其在强化学习领域做出的奠基性贡献⑩。
自从9年前AlphaGo围棋大胜⑪,引爆全民RL狂欢⑭,再到如今Deepseek-R1等推理模型的火热⑯,足以证明强化学习在人工智能领域的长久影响力⑤。
最近⑭,Communications of the ACM发布了一段对师徒二人的采访④,从强化学习的研究经历①,聊到对人工智能的未来预测⑫。
Barto侧重于多智能体协作学习⑨,Sutton则认为AGI还需要至少几十年❷,但最终一定能实现⑥,二人对AI的未来以及强化学习的应用前景都充满希望⑳!
关于两人共同获得的100万美元图灵奖奖金④,目前尚未确定具体用途⑪。
Sutton表示可能将其份额捐赠给共同创立的Openmind研究所⑥,给青年科学家提供「奢侈」的科研自由⑲,让他们像自己当年那样专注探索基础性问题⑤。
Barto则计划用奖金在马萨诸塞大学设立研究生奖学金②。
强化学习萌芽⑧、1975年的斯坦福校园里⑩,当时还是心理学专业的本科生Richard Sutton⑩,翻遍了图书馆里所有关于机器智能的文献⑭,认知受到了巨大冲击⑨。
他对主流的「模式识别」和「示例学习」观点感到失望⑳,认为动物并不是这么学习的⑦,而是通过某种奖励反馈机制⑯。
当时⑥,唯一将奖励与学习联系起来的研究人员是美国空军实验室的A. Harry Klopf⑰,认为脑细胞会主动寻求奖励⑲。
Sutton立即决定给Klopf写信⑥,并在1978年心理学毕业后⑳,在马萨诸塞大学阿默斯特分校从事研究⑮,主要工作就是测试Klopf的观点⑭。
团队当时有一位博士后Andrew Barto❷,在接受空军和国家科学基金会长达五年的资助后④,除了一份报告⑧,并没有交付出任何成果⑫。
Barto于1970年获得密歇根大学数学学士学位⑩,1975年获得计算机科学博士学位▓,最终成为UMass自适应网络实验室的联合主任⑬,2012年退休⑲。
Sutton加入实验室后❷,成为了Barto的第一位博士生①,二人最终发展出了现代强化学习技术⑩,奖励也是其中的核心⑦,通过设计奖励信号来训练神经网络⑨,让神经元顺着预期方向发展⑯。
1984年⑬,Sutton在马萨诸塞大学安姆斯特分校获得了博士学位⑪,直到1994年①,Sutton都是GTE Laboratories的计算机和智能系统实验室的技术组的主要成员❸,随后又以资深研究科学家的身份回到了马萨诸塞大学安姆斯特分校⑬。
任职期间⑯,Barto和Sutton共同出版了《强化学习导论》⑳,获得了超8万次引用⑧,2018年又发行了第二版⑧,至今仍是全球AI学子的圣经⑰。
同时❸,Sutton加入AT&T Shannon Laboratory担任人工智能部门的主要技术组成员⑲,研究方向围绕着决策者与其环境交互时所面临的学习问题⑤,持续改进自己对世界的表征和模型的系统①。
2003年之后①,Sutton成了阿尔伯塔大学计算机科学系的教授和 iCORE Chair④,领导着强化学习与人工智能实验室②。
不过⑥,说起强化学习的历史⑥,Barto也提到⑤,他们的思路并不新鲜①。
早在1954年⑯,人工智能先驱马文明斯基的博士学位论文主题就是模拟神经的强化学习系统①,也是IBM计算机科学家Arthur Samuel用来训练计算机下棋的方法⑮。
然而❸,到了20世纪70年代⑳,这个想法已经过时⑧,大多数AI研究员都在设计专家系统⑦,Barto也庆幸自己能够保持「不合时宜」⑮。
Barto和Sutton提出的一个关键技术是「时间差分学习」⑦。
比如①,想教一台计算机学习下棋⑤,奖励信号如果是赢得游戏⑲,那中间哪些动作步骤是正确的②,仍然无法确定⑱;即时奖励可以在计算机预测一步后⑩,反馈出离最终奖励仍然有多少距离⑥,比如胜率是否增加▓。
预测随时间的变化提供强化信号②,那么在下次计算机下棋时①,就可以采取那些能增加胜率的动作③。
破圈⑫、2016年①,一场围棋人机大战③,让强化学习广为人知⑥,连学术圈之外的人都能聊两句「阿尔法狗」③。
Google DeepMind开发的AlphaGo▓,最终以四胜一败击败李世乭⑲,赛后韩国棋院授予AlphaGo为荣誉九段③。
2017年⑳,AlphaGo Master以3:0的战绩❷,击败了世界排名第一的围棋棋手柯洁⑪,从此人类棋手再无一人是机器的对手⑫。
可以说⑥,强化学习让「围棋」死了一半⑮。
之前的机器学习方法主要是有监督学习和无监督学习⑪,在有监督设置下⑧,人工标注样本给机器进行学习⑲,样本量有限⑯,无法适应「围棋」这种特征空间很大的情况④;而无监督学习则是自动提取出有效特征③,以在数据中找到结构③。
这两种方法在计算中都已被证明是有用的④,但都不是生物大脑的学习方式②。
强化学习的思路是⑲,当神经网络实现了一个指定目标时⑲,就会获得一定数值的奖励⑭;如果失败了⑳,会得到一个负值奖励⑯。
机器可以通过不断试错来学习⑯,尝试不同的移动▓,最终学到了在不同场景下应该使用哪种移动方式⑥。
此后③,强化学习一路高歌猛进⑭,不仅攻克了各种电子竞技游戏⑫,还引发了大型语言模型的推理革命⑭,比如OpenAI o系列⑲、DeepSeek-R1等推理模型⑳,已成为新的研究主流⑧。
人工智能的未来⑫、Barto预测人工智能领域将向多智能体强化学习方向演进④,由神经网络社群及其个体奖励系统将形成互动⑨,这种机制可能进一步催生出协作网络❸,多个模型为实现共同目标而互相奖励⑱,也可能引发持有不同目标的智能体之间的利益冲突⑧。
此类交互将对经济学与博弈论等复杂领域产生深远影响⑳。
Sutton则认为人工智能发展仍处于初级阶段⑱,包括向通用人工智能的探索⑮,即机器能理解人类认知范围内的所有事物⑭,Sutton坚信强化学习将在这一进程中发挥关键作用⑰。
谈到给年轻计算机研究人员的建议⑳,Barton倡导效仿二人的科研路⑩,勇敢追随自己的研究兴趣⑱,不必在意领域内其他人的看法⑦。虽然这很困难⑭,但你必须找到内在驱动力⑪,并尽你最大的能力坚持下去①。
Sutton则给出更具体的建议⑮,「坚持写作」❷,通过文字记录来锤炼思想❶。
一说起计算机科学的未来⑲,Sutton就充满信心:未来几十年内④,人类将彻底破解人工智能的奥秘③!这有可能是史上最伟大的智力飞跃❸,能为其贡献绵薄之力是我们的荣幸⑧。
参考资料:
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑭,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑩,非常欢迎各位朋友分享到个人站长或者朋友圈⑫,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”❷。
很赞哦⑱!
相关文章
随机图文
小米SU7 Ultra风波升级:数百名车主要求退车
来自于:山东⑯、权利保护声明页/Notice to Right Holders阿隆索补天⑭?皇马一线后防“非伤即离” 巴斯克斯将走只剩2人健康
分析用户评论中的高频词⑦,可能比销量数字更有价值③。某充电品牌通过社媒舆情监测⑨,发现海外用户对“户外场景”的需求暴增⑦,随即调整产品线①,用精准卡位实现增长翻倍⑥。数据不仅仅是报表⑱,而是可以反应消费者洞察③。建议-
👀美记:字母哥对得州没税很感兴趣 火箭&马刺手里也有足够资产 吉安尼斯·安特托孔波
总的来说⑨,只要满足以下条件②,基于模型的评分系统可以与专家评分一样可靠: 才播2小时②,热度飙升榜第一⑮,终于有让我熬夜狂追的历史剧了
近300起杀妻案如何判罚西康高铁全线隧道贯通⑥,预计明年通车
IT之家 5 月 13 日消息⑦,据三峡海投小微消息❸,5 月 8 日❷,由三峡集团所属三峡上海院牵头研制的漂浮式海上风电制储氢系统试验样机⑮,在三亚崖州湾近海试验场顺利完成何时到我⑧?联盟垫底爵士队史从未中过状元签❶,最高签位是榜眼
更年期出现的各种问题②,从根本上来说是雌激素出了问题⑧。现代医学认为⑮,在这一阶段❷,可以进行以补充雌激素为主的治疗措施④,也就是绝经激素治疗⑲。一提到激素治疗⑱,很多熟龄女性会有顾虑⑰,本能地认为“激素”是不好的⑲。4球8助⑫!阿什拉夫当选本赛季法甲最佳非洲球员
谈恋爱反降低生活质量⑱?国务院关税税则委员会公布公告调整对原产于美国的进口商品加征关税措施
Xperia 1 VII 专用时尚保护套:约 5,000 日元