您现在的位置是：网站首页>女人女人

电玩城小程序

任恨松 2025-05-11 【女人】 9364 人已围观

西风衡宇发自凹非寺量子位 | 公众号 QbitAI

怎么老是你⑰？⑲？⑮？

这是最近网友不断对着Transformer八子之一的Noam Shazeer

发出的灵魂疑问③。

尤其是最近Meta FAIR研究员朱泽园分享了他们《Physics of Language Models》项目的系列新进展后⑧，有网友发现⑳，其中提到的3-token因果卷积相关内容⑦，沙哥等又早在三年前就有相关研究②。

是的⑲，“”❷。

因为你只要梳理一遍他的工作履历⑮，就不难发现❷，AI界大大小小的突破背后①，总是能发现他的名字⑮。“不是搞个人崇拜⑥，但为什么总是Noam Shazeer⑤？”

△网友称右下角沙哥图由GPT-4o生成

朱泽园也自己也站出来表示⑪，沙哥成果超前：

我也觉得Shazeer可能是个时间旅行者⑰。

我原本不相信他们的gated MLP⑫，但现在我信服了

正式认识一下⑬，沙哥是谁⑭？

他是Transformer八位作者中被公认是“贡献最大”的那位⑲，也是半路跑去创业Character.AI⑦，又被谷歌“买回来”那位

他并非OpenAI的明星科学家⑨，也不似DeepMind创始人般频繁曝光⑪，但若细察当今LLM的核心技术⑮，其奠基性贡献隐然贯穿始终③。

从引用量超17万次的《Attention is all you need》⑰，到将MoE引入LLM的谷歌早期研究③，再到Adafactor算法①、多查询注意力⑩、用于Transformer的门控线性层……

有人感慨⑰，其实我们现在就是生活在“Noam Shazeer时代”⑨。

因为如今主流模型架构的演变⑧，就是在其奠定的基础上持续推进❷。

所以③，他都做了什么①？

Attention Is All You Need是其一

在AI领域⑭，昙花一现的创新者众多❶，但能持续定义技术范式者凤毛麟角⑦。

沙哥恰恰属于后者⑯，他的工作不仅奠定了当今大语言模型的基础⑲，还频频在技术瓶颈出现时提供关键突破⑱。

其影响力最大的一项工作当属2017年的《Attention Is All You Need》

2017年的一天⑦，已加入谷歌数年的沙哥在办公楼走廊里偶然听到Lukasz Kaiser⑤、Niki Parmar⑫、Ashish Vaswani等几人的对话⑩。

他们正兴奋地谈论如何使用自注意力⑱，沙哥当时就被吸引了⑧，他觉得这是一群有趣的聪明人在做有前途的工作▓。

而后❶，沙哥被说服加入了这个已有七人的团队⑭，成为第八位成员③，也是最后一位⑤。

但这个最后到场的人⑮，却在短短几周内根据自己的想法❷，重新编写了整个项目代码⑲，把系统提升到了新的水平⑯，使得Transformer项目“拉开了冲刺的序幕”⑨。

沙哥实力超群却不自知❸，当看到论文草稿中自己被列为第一作者时⑤，他还有些惊讶⑥。

在讨论一番后❸，作的规则⑳，随机排序⑦，并给每个人名字后都打上星号⑤，脚注标明都是平等贡献者

但大家都知道⑥，沙哥加入发挥了举足轻重的作用⑱。后来《Attention Is All You Need》这篇论文引起轰动⑰。

而沙哥的恐怖之处⑥，在于他似乎总能比行业提前数年看到技术趋势⑨，不只是Transformer⑰。

在《Attention Is All You Need》前后⑤，沙哥还作为一作同三巨头之一⑧、图灵奖得主Geoffrey Hinton以及谷歌元老级人物▓、第20号员工Jeff Dean等合作发表了另一篇具有代表性的工作——

早在那时就为现今大火的新范式Mixture of Experts埋下了伏笔⑰。

这项工作创造性地引入了Sparsely-Gated Mixture-of-Experts❷，将MoE应用于语言建模和机器翻译任务②，提出了一种新架构⑳，具有1370亿参数的MoE被以卷积方式应用于堆叠的LSTM层之间⑬。

规模放在今天也是超大杯的存在①。

虽然MoE的思路早在上世纪90年代初就已经被提出❸，以Michael I. Jordan⑯、Geoffrey Hinton等的《Adaptive Mixtures of Local Experts》为代表⑪，但沙哥参与的这项研究通过动态激活子网络⑯，让模型突破更大规模参数成为可能⑳，启发了后续诸多基于MoE的模型改进和创新⑭。

且沙哥对MoE的探索远不止于此⑫。

2020年④，谷歌《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》中提出GShard⑧。

它提供了一种优雅的方式⑫，只需对现有模型代码做很小改动⑨，就能表达各种并行计算模式③。

GShard通过自动分片技术④，将带有Sparsely-Gated Mixture-of-Experts的多语言神经机器翻译Transformer模型扩展到超6000亿参数规模⑦。

次年▓，Switch Transformers这项工作⑱，结合专家并行⑳、模型并行和数据并行①，简化MoE路由算法⑪，提出大型Switch Transformer模型⑪，参数达到1.6万亿⑳。

不仅推进了语言模型的规模⑥，还在当时实现了比T5-XXL模型快4倍的速度④。

模型规模的扩大一方面为自然语言处理开辟了新的领域②，另一方面也面临训练过程中的不稳定性以及微调阶段质量不确定性的阻碍⑳。

2022年⑭，针对该问题的研究《ST-MoE: Designing Stable and Transferable Sparse Expert Models》问世了⑯。

该项目将一个ST-MoE-32B稀疏模型的参数规模扩展到了2690亿③，其计算成本与一个拥有320亿参数的密集型encoder-decoder Transformer模型差不多②。

这林林总总一系列关键性进展的作者名单中④，总少不了沙哥

时间证明沙哥的预判是对的②。

如今⑮，GPT-4 ⑯、DeepSeek系列⑦、阿里Qwen3系列……主流将MoE与Transformer架构的结合⑨，无一不是在此系列工作的思想上发展而来⑧。

说沙哥踩在时代的命门上⑭，不光靠这些⑫。

为解决大规模模型的训练内存受限的问题❶，沙哥还曾联合提出了Adafactor优化器⑦，早期谷歌大模型如PaLM都离不开它▓。

作用于大模型推理加速的Multi Query Attention也是出自他的手笔④。

MQA最早于2019年沙哥的独作论文《Fast Transformer Decoding: One Write-Head is All You Need》中被提出⑱，旨在解决Transformer增量推理阶段效率低下的问题①。

另外⑳，他还提出了被广泛应用于各种Transformer模型中的Gated Linear Layer

GLU为Transformer架构带来了显着改进⑰，通过门控机制⑤，GLU可以根据输入动态地调整信息的传递❶，从而更好地捕捉数据中的复杂模式和依赖关系⑦，提升模型的表达能力▓。

这种动态调整能力更有助于模型处理长序列数据⑮，有效利用上下文信息④。

用网友的话来说❶，沙哥参与的研究往往都是简单粗暴⑱，详细介绍了技术细节⑯，当时可能大家不能完全理解其中的奥妙②，但之后就会发现很好用④。

3岁自学算术⑮，1994年IMO满分

沙哥的技术嗅觉⑭，源自其近乎传奇的成长轨迹⑮。

1974年⑱，沙哥出生于美国⑧，3岁就开始自学算术⑳。

1994年⑮，他参加了IMO⑪，在经历长达九小时的考试后❷，取得了满分❶，这是该项赛事35年历史上首次有学生拿到满分⑯。

同年③，沙哥进入杜克大学学习数学和计算机科学⑲。

在校期间⑧，沙哥作为杜克大学代表队的一员⑳，曾在多项数学竞赛中获奖⑤。譬如1994年⑬、1996年③，分别在普特南数学竞赛中排名第6名⑥、第10名⑮。

本科毕业后⑦，沙哥前往UC伯克利攻读研究生❷，但并未完成学业

而后千禧年到来❷，沙哥加入谷歌①，成为第200号员工⑭，一路从软件工程师做到首席软件工程师⑭。

2001年①，其参与改进的谷歌搜索拼写纠正功能上线⑯，这是他早期的一项重要成就⑳。

此后⑲，他还开发了谷歌广告系统PHIL⑬，该系统能够决定在特定页面上展示哪些广告联盟广告⑰，同时避免出现不适当或不相关的内容⑧，成为谷歌广告联盟系统的核心❷。

2005年⑪，他成为谷歌广告文本排名团队的技术主管④；2006年②，他创建了谷歌第一个邮件检测的机器学习系统⑯；2008年▓，他开发了一种用于对新闻文章进行排名的机器学习系统……

垃圾⑲、不一一点出来了⑨，但说他在谷歌期间硕果累累⑬，绝不为过⑨。

虽然2009年到2012年期间他短暂离开过谷歌⑧，但截至2021年去创业Character.AI▓，他已经在谷歌待了18年

2012年回到谷歌加入Google Brain后⑬，沙哥更是火力全开——

他把自己的研究方向转向深度学习与神经网络研究⑬，2016年推动神经机器翻译的落地⑮，显着提升翻译质量⑭；2017年就有了《Attention Is All You Need》①。

而去年8月⑯，沙哥挥别创业赛道⑪，重返谷歌担任工程副总裁❷、Gemini联合技术主管⑥，到现在又快在谷歌干满一年了③。

真·谷歌人⑰，谷歌魂⑩。

这话真不假▓，因为沙哥连创业旅途⑧，也是和谷歌同事一起撸起袖子干的②。

有多么戏剧呢❸？

时间回到2021年⑫。那时候⑬，由于谷歌未公开发布他与同事Daniel De Freitas开发的聊天机器人Meena及其后续项目LaMDA⑱，沙哥与De Freitas扭头就和老东家say bye bye了～

他俩商量了一通⑥，决定进一步研究更加个性化的超级智能❸，于是世界上多了一家叫Character.AI的公司⑲。

经过两年多发展⑨，Character.AI以“各式各样的AI角色”攒了2000多万用户⑭。

2023年3月③，Character.AI以10亿美元估值完成1.5亿美元融资⑧，a16z领投❸，GitHub前CEO Nat Friedman⑬、Elad Gil②、A Capital和SV Angel参投①。

不过在此之后⑭，这家明星AI独角兽开始陷入困境②，新一轮融资迟迟难以推进⑤。去年7月4日⑲，Character.AI被曝考虑卖给谷歌和Meta⑯。

8月②，一切尘埃落定❸，谷歌以27亿美元的价格将Character.AI技术纳入麾下⑪，并邀请沙哥回归②，负责联合领导谷歌的Gemini项目⑰。

一个可能不为人所知的故事❷，在OpenAI的早期阶段⑲，沙哥是顾问之一⑦。

他曾极力推荐奥特曼来担任OpenAI的CEO⑪。

以及另一件值得一提的事——

2020年⑮，谷歌Meena聊天机器人发布后④，沙哥发了一封名为“Meena吞噬世界”的内部信⑥。

其中的关键结论是：⑲、语言模型将以各种方式越来越多地融入我们的生活⑲，并且将在全球算力中占主导地位❷。

很赞哦⑫！

上一篇：莱切特：这是我们本赛季表现最好的比赛之一▓，配得上这场胜利

下一篇：豪取6连胜④！科莫巩固积分榜第10位置⑭，末轮将战国米

随机图文

点击排行

齐尔克泽：欧联杯决赛复出并非不可能⑤，但会很困难

本栏推荐

AI让零售业更“智慧”——第二十五届中国零售业博览会观察

标签云