您现在的位置是:网站首页>军事军事
线上捕鱼的电玩城平台
周晓绿 2025-05-14 【军事】 6997 人已围观
新智元报道⑭、【新智元导读】80年代⑤,当强化学习被冷落②,这对师徒没有放弃⑨;如今④,重看来时路①,他们给出的建议仍然是②,「坚持」住自己的科研思想④。
3月5日⑯,计算机学会宣布Andrew Barto和Richard Sutton获得图灵奖①,以表彰其在强化学习领域做出的奠基性贡献⑰。
自从9年前AlphaGo围棋大胜②,引爆全民RL狂欢❶,再到如今Deepseek-R1等推理模型的火热⑫,足以证明强化学习在人工智能领域的长久影响力⑨。
最近❷,Communications of the ACM发布了一段对师徒二人的采访⑩,从强化学习的研究经历④,聊到对人工智能的未来预测⑫。
Barto侧重于多智能体协作学习⑰,Sutton则认为AGI还需要至少几十年⑮,但最终一定能实现⑥,二人对AI的未来以及强化学习的应用前景都充满希望▓!
关于两人共同获得的100万美元图灵奖奖金⑨,目前尚未确定具体用途❷。
Sutton表示可能将其份额捐赠给共同创立的Openmind研究所❷,给青年科学家提供「奢侈」的科研自由⑦,让他们像自己当年那样专注探索基础性问题⑱。
Barto则计划用奖金在马萨诸塞大学设立研究生奖学金⑥。
强化学习萌芽⑮、1975年的斯坦福校园里⑫,当时还是心理学专业的本科生Richard Sutton⑦,翻遍了图书馆里所有关于机器智能的文献⑦,认知受到了巨大冲击⑪。
他对主流的「模式识别」和「示例学习」观点感到失望⑭,认为动物并不是这么学习的⑥,而是通过某种奖励反馈机制⑮。
当时⑰,唯一将奖励与学习联系起来的研究人员是美国空军实验室的A. Harry Klopf⑲,认为脑细胞会主动寻求奖励⑫。
Sutton立即决定给Klopf写信⑨,并在1978年心理学毕业后❸,在马萨诸塞大学阿默斯特分校从事研究⑦,主要工作就是测试Klopf的观点⑩。
团队当时有一位博士后Andrew Barto⑯,在接受空军和国家科学基金会长达五年的资助后⑫,除了一份报告⑳,并没有交付出任何成果⑪。
Barto于1970年获得密歇根大学数学学士学位②,1975年获得计算机科学博士学位⑬,最终成为UMass自适应网络实验室的联合主任⑨,2012年退休▓。
Sutton加入实验室后⑬,成为了Barto的第一位博士生②,二人最终发展出了现代强化学习技术⑱,奖励也是其中的核心②,通过设计奖励信号来训练神经网络①,让神经元顺着预期方向发展❶。
1984年①,Sutton在马萨诸塞大学安姆斯特分校获得了博士学位③,直到1994年⑯,Sutton都是GTE Laboratories的计算机和智能系统实验室的技术组的主要成员⑭,随后又以资深研究科学家的身份回到了马萨诸塞大学安姆斯特分校⑱。
任职期间⑭,Barto和Sutton共同出版了《强化学习导论》①,获得了超8万次引用⑳,2018年又发行了第二版①,至今仍是全球AI学子的圣经⑫。
同时⑩,Sutton加入AT&T Shannon Laboratory担任人工智能部门的主要技术组成员⑮,研究方向围绕着决策者与其环境交互时所面临的学习问题⑮,持续改进自己对世界的表征和模型的系统⑤。
2003年之后⑥,Sutton成了阿尔伯塔大学计算机科学系的教授和 iCORE Chair⑮,领导着强化学习与人工智能实验室⑦。
不过⑳,说起强化学习的历史⑮,Barto也提到❶,他们的思路并不新鲜⑥。
早在1954年⑥,人工智能先驱马文明斯基的博士学位论文主题就是模拟神经的强化学习系统⑨,也是IBM计算机科学家Arthur Samuel用来训练计算机下棋的方法⑨。
然而⑱,到了20世纪70年代④,这个想法已经过时▓,大多数AI研究员都在设计专家系统❷,Barto也庆幸自己能够保持「不合时宜」⑮。
Barto和Sutton提出的一个关键技术是「时间差分学习」❷。
比如⑯,想教一台计算机学习下棋⑱,奖励信号如果是赢得游戏⑰,那中间哪些动作步骤是正确的⑫,仍然无法确定⑫;即时奖励可以在计算机预测一步后❶,反馈出离最终奖励仍然有多少距离⑧,比如胜率是否增加⑭。
预测随时间的变化提供强化信号⑲,那么在下次计算机下棋时⑫,就可以采取那些能增加胜率的动作⑪。
破圈⑫、2016年⑥,一场围棋人机大战⑤,让强化学习广为人知⑥,连学术圈之外的人都能聊两句「阿尔法狗」⑥。
Google DeepMind开发的AlphaGo⑪,最终以四胜一败击败李世乭⑳,赛后韩国棋院授予AlphaGo为荣誉九段⑮。
2017年⑰,AlphaGo Master以3:0的战绩⑲,击败了世界排名第一的围棋棋手柯洁⑬,从此人类棋手再无一人是机器的对手⑱。
可以说⑳,强化学习让「围棋」死了一半⑬。
之前的机器学习方法主要是有监督学习和无监督学习⑤,在有监督设置下⑧,人工标注样本给机器进行学习⑧,样本量有限⑧,无法适应「围棋」这种特征空间很大的情况⑤;而无监督学习则是自动提取出有效特征❶,以在数据中找到结构⑭。
这两种方法在计算中都已被证明是有用的①,但都不是生物大脑的学习方式⑫。
强化学习的思路是⑭,当神经网络实现了一个指定目标时⑥,就会获得一定数值的奖励④;如果失败了⑨,会得到一个负值奖励⑤。
机器可以通过不断试错来学习③,尝试不同的移动⑨,最终学到了在不同场景下应该使用哪种移动方式⑫。
此后⑥,强化学习一路高歌猛进⑥,不仅攻克了各种电子竞技游戏⑥,还引发了大型语言模型的推理革命❷,比如OpenAI o系列⑩、DeepSeek-R1等推理模型❶,已成为新的研究主流⑲。
人工智能的未来⑤、Barto预测人工智能领域将向多智能体强化学习方向演进❷,由神经网络社群及其个体奖励系统将形成互动⑱,这种机制可能进一步催生出协作网络⑭,多个模型为实现共同目标而互相奖励①,也可能引发持有不同目标的智能体之间的利益冲突⑮。
此类交互将对经济学与博弈论等复杂领域产生深远影响③。
Sutton则认为人工智能发展仍处于初级阶段⑯,包括向通用人工智能的探索⑭,即机器能理解人类认知范围内的所有事物⑮,Sutton坚信强化学习将在这一进程中发挥关键作用⑮。
谈到给年轻计算机研究人员的建议⑬,Barton倡导效仿二人的科研路⑩,勇敢追随自己的研究兴趣⑬,不必在意领域内其他人的看法❷。虽然这很困难❷,但你必须找到内在驱动力⑫,并尽你最大的能力坚持下去⑬。
Sutton则给出更具体的建议⑦,「坚持写作」⑮,通过文字记录来锤炼思想⑬。
一说起计算机科学的未来⑨,Sutton就充满信心:未来几十年内⑥,人类将彻底破解人工智能的奥秘⑯!这有可能是史上最伟大的智力飞跃⑥,能为其贡献绵薄之力是我们的荣幸⑰。
参考资料:
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑥,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑫,非常欢迎各位朋友分享到个人站长或者朋友圈⑱,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”❸。
很赞哦❷!
相关文章
随机图文
朱艺:大连英博上座率全球第17⑫,超过英超豪门曼城
“我们不想迟到⑩,可也不想放走它❸!”岑溪市归义镇三小学生的拾金记电视台竟有更清晰视角琼阿梅尼手球 VAR表示没有更多高清镜头
不得不说这些网友们的脑洞也未免太离谱了一些❶,这看起来明明是儿子们和妈妈在一起更随意更自在⑲,和爸爸在一起更显拘束才对⑧。记者:王钰栋打完全运一天都不要拖❷,赶紧留洋别把中超待成舒适区
Alexander Wang 与 Lucy Guo 创立 Scale AI 时⑲,尽管年轻⑮,但他们此前也有着丰富积累③。淘宝新功能商家可屏蔽高退款率人群⑤,网友喊话:能不能屏蔽高退货率商家
红土场对于郑钦文来说更加友好⑳,不过❷,想要赢一次萨巴伦卡⑳,场地只能算附加分⑬,她急需提档的还是自己的武器库⑱,其中③,首要的就是发球⑮。从坚守底线到超越上限⑭,风云A9L定义中国汽车价值高度
布伦森此役全场比赛40分钟25中14⑳,三分8中5④,罚球9中7⑦,拿到39分12助攻5篮板1失误❸,命中率56%⑰,三分命中率50%⑨,真实命中率67.3%❸,正负值+12⑮,关键时刻拿到8分⑰。迪马:国米为恩里克报价2500万欧&马赛要3000万欧⑯,双方持续谈判
为了让用户出行无忧⑳,风云A9L搭载的鲲鹏超能混动CDM6.0动力系统⑳,历经超1.5万小时台架验证与200万公里整车测试③,相当于用户高强度驾驶10年后的状态仍能保持稳定输出⑩,且提供终身质保服务③。同时▓,风意媒:那不勒斯为丁丁开两年合同①,球员合同期内将获得1600万
海燕:2019 年你们提 HTAP⑳,后来提 Serverless⑬,包括 2017 年就说要做全球化❸。希望像东旭这样一直拥有独立思考的人❷,能不断地去引领这个行业❶。江西:5·12国际护士节 致敬白衣天使
新秀合同球员:诺阿-克劳尼⑦、达里克-怀特黑德 大合同球员:尼古拉斯-克拉克斯顿❶、卡梅伦-约翰逊 其他合同:马克斯韦尔-刘易斯⑰、威尔逊❸、马丁▓、蒂米 犹他爵士队 手握今夏两个首轮签与15份保障合同