您现在的位置是:网站首页> 军事军事
电玩城免费金币app官网下载
熊夏青 2025-05-14 【军事】 9477 人已围观
新智元报道④、【新智元导读】80年代⑮,当强化学习被冷落①,这对师徒没有放弃❶;如今⑯,重看来时路④,他们给出的建议仍然是❶,「坚持」住自己的科研思想②。
3月5日⑧,计算机学会宣布Andrew Barto和Richard Sutton获得图灵奖❶,以表彰其在强化学习领域做出的奠基性贡献⑩。
自从9年前AlphaGo围棋大胜⑭,引爆全民RL狂欢⑱,再到如今Deepseek-R1等推理模型的火热⑯,足以证明强化学习在人工智能领域的长久影响力③。
最近③,Communications of the ACM发布了一段对师徒二人的采访⑮,从强化学习的研究经历①,聊到对人工智能的未来预测⑧。
Barto侧重于多智能体协作学习❷,Sutton则认为AGI还需要至少几十年▓,但最终一定能实现⑲,二人对AI的未来以及强化学习的应用前景都充满希望❷!
关于两人共同获得的100万美元图灵奖奖金❸,目前尚未确定具体用途⑳。
Sutton表示可能将其份额捐赠给共同创立的Openmind研究所①,给青年科学家提供「奢侈」的科研自由❷,让他们像自己当年那样专注探索基础性问题⑭。
Barto则计划用奖金在马萨诸塞大学设立研究生奖学金②。
强化学习萌芽⑮、1975年的斯坦福校园里⑫,当时还是心理学专业的本科生Richard Sutton⑦,翻遍了图书馆里所有关于机器智能的文献⑬,认知受到了巨大冲击⑲。
他对主流的「模式识别」和「示例学习」观点感到失望⑦,认为动物并不是这么学习的①,而是通过某种奖励反馈机制⑧。
当时⑱,唯一将奖励与学习联系起来的研究人员是美国空军实验室的A. Harry Klopf⑧,认为脑细胞会主动寻求奖励⑳。
Sutton立即决定给Klopf写信⑰,并在1978年心理学毕业后⑰,在马萨诸塞大学阿默斯特分校从事研究⑧,主要工作就是测试Klopf的观点②。
团队当时有一位博士后Andrew Barto⑦,在接受空军和国家科学基金会长达五年的资助后⑩,除了一份报告⑦,并没有交付出任何成果▓。
Barto于1970年获得密歇根大学数学学士学位⑤,1975年获得计算机科学博士学位⑨,最终成为UMass自适应网络实验室的联合主任⑰,2012年退休⑱。
Sutton加入实验室后③,成为了Barto的第一位博士生⑤,二人最终发展出了现代强化学习技术⑳,奖励也是其中的核心▓,通过设计奖励信号来训练神经网络⑲,让神经元顺着预期方向发展❶。
1984年⑥,Sutton在马萨诸塞大学安姆斯特分校获得了博士学位⑯,直到1994年⑫,Sutton都是GTE Laboratories的计算机和智能系统实验室的技术组的主要成员❸,随后又以资深研究科学家的身份回到了马萨诸塞大学安姆斯特分校⑤。
任职期间❶,Barto和Sutton共同出版了《强化学习导论》⑦,获得了超8万次引用⑪,2018年又发行了第二版⑳,至今仍是全球AI学子的圣经⑫。
同时⑥,Sutton加入AT&T Shannon Laboratory担任人工智能部门的主要技术组成员⑰,研究方向围绕着决策者与其环境交互时所面临的学习问题❶,持续改进自己对世界的表征和模型的系统⑳。
2003年之后⑦,Sutton成了阿尔伯塔大学计算机科学系的教授和 iCORE Chair③,领导着强化学习与人工智能实验室⑬。
不过❸,说起强化学习的历史①,Barto也提到③,他们的思路并不新鲜②。
早在1954年⑨,人工智能先驱马文明斯基的博士学位论文主题就是模拟神经的强化学习系统⑰,也是IBM计算机科学家Arthur Samuel用来训练计算机下棋的方法⑪。
然而❶,到了20世纪70年代⑯,这个想法已经过时⑩,大多数AI研究员都在设计专家系统⑱,Barto也庆幸自己能够保持「不合时宜」⑩。
Barto和Sutton提出的一个关键技术是「时间差分学习」⑭。
比如⑪,想教一台计算机学习下棋▓,奖励信号如果是赢得游戏②,那中间哪些动作步骤是正确的⑰,仍然无法确定⑧;即时奖励可以在计算机预测一步后⑰,反馈出离最终奖励仍然有多少距离①,比如胜率是否增加❸。
预测随时间的变化提供强化信号③,那么在下次计算机下棋时⑫,就可以采取那些能增加胜率的动作⑦。
破圈⑱、2016年⑩,一场围棋人机大战⑯,让强化学习广为人知❷,连学术圈之外的人都能聊两句「阿尔法狗」⑬。
Google DeepMind开发的AlphaGo⑱,最终以四胜一败击败李世乭▓,赛后韩国棋院授予AlphaGo为荣誉九段⑮。
2017年❷,AlphaGo Master以3:0的战绩①,击败了世界排名第一的围棋棋手柯洁⑳,从此人类棋手再无一人是机器的对手⑤。
可以说⑬,强化学习让「围棋」死了一半②。
之前的机器学习方法主要是有监督学习和无监督学习⑭,在有监督设置下⑯,人工标注样本给机器进行学习⑳,样本量有限⑨,无法适应「围棋」这种特征空间很大的情况⑤;而无监督学习则是自动提取出有效特征①,以在数据中找到结构❷。
这两种方法在计算中都已被证明是有用的⑨,但都不是生物大脑的学习方式⑫。
强化学习的思路是②,当神经网络实现了一个指定目标时❶,就会获得一定数值的奖励❷;如果失败了▓,会得到一个负值奖励❷。
机器可以通过不断试错来学习⑨,尝试不同的移动⑦,最终学到了在不同场景下应该使用哪种移动方式⑬。
此后❷,强化学习一路高歌猛进⑮,不仅攻克了各种电子竞技游戏⑧,还引发了大型语言模型的推理革命⑯,比如OpenAI o系列❶、DeepSeek-R1等推理模型⑬,已成为新的研究主流⑭。
人工智能的未来④、Barto预测人工智能领域将向多智能体强化学习方向演进②,由神经网络社群及其个体奖励系统将形成互动▓,这种机制可能进一步催生出协作网络①,多个模型为实现共同目标而互相奖励③,也可能引发持有不同目标的智能体之间的利益冲突⑫。
此类交互将对经济学与博弈论等复杂领域产生深远影响④。
Sutton则认为人工智能发展仍处于初级阶段⑤,包括向通用人工智能的探索④,即机器能理解人类认知范围内的所有事物⑲,Sutton坚信强化学习将在这一进程中发挥关键作用❶。
谈到给年轻计算机研究人员的建议⑥,Barton倡导效仿二人的科研路❶,勇敢追随自己的研究兴趣⑭,不必在意领域内其他人的看法⑧。虽然这很困难⑨,但你必须找到内在驱动力⑫,并尽你最大的能力坚持下去⑩。
Sutton则给出更具体的建议⑬,「坚持写作」❷,通过文字记录来锤炼思想❸。
一说起计算机科学的未来⑫,Sutton就充满信心:未来几十年内❶,人类将彻底破解人工智能的奥秘⑳!这有可能是史上最伟大的智力飞跃❸,能为其贡献绵薄之力是我们的荣幸⑦。
参考资料:
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可❸,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐①,非常欢迎各位朋友分享到个人站长或者朋友圈⑤,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑮。
很赞哦⑮!
相关文章
随机图文
官方:巴黎圣日耳曼任命希塞尔格雷夫为俱乐部首席运营官
全国人大常委会委员长赵乐际13日下午在人民大会堂同津巴布韦众议长穆登达举行会谈⑤。双牌麻江镇:警钟长鸣防溺水 安全知识入民心
罗伊-基恩说到:“当初麦克托米奈和弗雷德作为中场搭档一起出场①,但是这根本不是一个好的组合⑮,我知道索尔斯克亚对于这2人都非常欣赏②,但这让我意外②,我一直觉得麦克托米奈比弗雷德更有潜力⑪,这2人的组合没有让曼小龙虾价格暴降近50% 国联水产去年净亏损约7.42亿
但牛响铃却经历了五段婚姻⑥,每一次都让母亲金雅琴心疼不已⑳。中式美学具象化⑭!晨光照在漓江江面 水波宛若展翅“金凤凰”
对贝昂智能而言⑧,章燕认为进入了一个关键时期⑯,“现在也是一个整理我们产品SKU的关键时刻④,明确哪些产品是客户即使加价也会购买的⑪,专注做好这一类产品③。如果产品都很容易被替代⑨,那么我们就得考虑转型⑳。”“需求习近平回到北京 中国共产党新闻网
阿森纳已被告知哲凯赖什的价格是6000万英镑⑭,枪手高层已将前锋列为夏季转会的首要目标❷,而他已跻身三人候选名单⑮,阿森纳可能需要支付每年超过700万英镑的净薪才能签下这位瑞典国脚▓。广东铭途2-0赣州瑞狮⑩,钟文泽破门+失点⑦,耿志庆染红
制定实施中央八项规定是我们党在新时代的徙木立信之举▓,中央八项规定是必须长期坚守的铁规矩⑤、硬杠杠❶。党中央响鼓重锤⑧、三令五申⑮,今年又在全党部署开展学习教育⑦。在这种形势下⑨,李献林⑲、叶金广等人一边参加学习教育因为“看得远”的上海 这家民企锻造了“全球唯一”
活动期间⑯,平台将通过短视频❶、直播⑲、商城⑩、搜索等多个购物场景呈现海量优质商品⑬,涵盖数码家电⑫、家具家装⑭、美妆个护⑧、运动户外⑧、生鲜酒水等品类⑮。超值天团直播间⑬、大牌巨惠❶、超值购万人团⑯、多人团和大牌奥莱等玩法将前国少球员:立志送儿子进国足③,孩子在西班牙青训8年&已卖5套房
这么一想②,近些年的国产超大杯①,多少都有点和望远镜对着干的意思④。