您现在的位置是:网站首页>体育体育
奔驰宝马游戏电玩城免费
徐紫青 2025-05-13 【体育】 5518 人已围观
白交 克雷西 发自 凹非寺量子位 | 公众号 QbitAI
一夜之间⑬,老黄天塌了⑧。
全球首个分布式RL训练模型INTELLECT-2发布⑥,它仅通过整合全球闲置或分散的计算资源③,就完成了模型的强化学习训练▓,训练成本大大降低⑮。
其模型性能与DeepSeek-R1媲美⑧!
一旦范式成立③,这也就意味RL训练摆脱了对集中式算力的依赖⑯,世界上任何一个人都可以参与到模型训练当中⑳,大公司垄断算力时代可能就此终结②。
Just like this~算力来算力来⑱,算力从四面八方来❸。
此模型版本有19个人/机构提供了
力资源支持
除了贡献算力④,还有不少大佬愿意投钱⑤,包括不限于Karpathy大神③、FlashAttention作者Tri Dao大神⑮、HuggingFace联创兼CEO Clem Delangue等等⑨。
据团队成员介绍❷,他们从编写模型强化学习框架prime-rl⑱,到今天发布大概只用了两个月时间
目前基础设施已到位❶,并且经过验证⑪,超过那些先进实验室只是时间问题⑧。
有人已经开始断言:未来的顶级开源模型将以分布式方式进行训练⑧。
INTELLECT-2抢先测
目前INTELLECT-2支持网页端体验⑮,只需简单注册就可以使用①。与其他通用助手页面类似差不多③,不过输入仅支持文本②。
那咱们先来一些基础问题:INTELLECT-2最大的特点是什么②?
在推理思考了几秒钟之后②,它给出了答案⑧,首先强调了这是首个去中心化RL训练的超大规模模型⑦,其次还有强化学习训练⑮、参数规模与性能的平衡⑪、数据隐私安全与社区驱动等特点⑥。
回答基本OK⑤,那直接来上点难度:
一个外星人来到地球后⑫,第一天有相等的可能选择以下四件事中的一件完成:1❸,自我毁灭⑰;2⑯,分裂成两个外星人⑲;3⑱,分裂成三个外星人⑩;4❷,什么都不做⑧。
此后每天②,每个外星人均会做一次选择⑨,且彼此之间相互独立⑳,求地球上最终没有外星人的概率
在思考了一会儿之后⑦,回答是酱婶⑰。
虽然格式有点乱▓,但是最后回答正确⑪,而且是解析解⑲。o☆[BINGO!]④。
如果昨天是明天就好了⑱,那么今天就是周五了⑱。 问:句子中的今天可能是星期几⑮?
可以看到基本能力有⑦,但现在还不是特别稳定⑥。像当你开始新对话时⑫,会碰到以下这种情况①。
已经有热心网友已经制作成了GGUF格式上传到HF①。
分布式强化学习训练⑭、INTELLECT-2是一个分布式的大模型训练框架⑮,采用了全球分布式异步强化学习的范式④。
通俗讲⑤,INTELLECT-2就如同一个超大型的众包项目⑬,任何拥有闲置算力资源的人都可以参与其中⑨。“异步”则是指不同阶段可以独立▓、并行地进行⑳,因此不同性能的设备可以同时参与⑳,而不会相互影响⑥。
具体来说③,系统会利用全球贡献者提供的异构算力在本地生成推理数据⑦;这些数据经过验证后汇集到中心⑨,用于更新模型策略⑧;更新后的策略再分发到每个节点⑥,开始新一轮迭代⑩。
在这套流程当中⑦,一共涉及了四大关键组件——
核心RL框架PRIME-RL①,实现推理数据生成与模型训练的解耦和异步进行⑱;
参数分发网络SHARDCAST⑮,负责将更新后的模型参数高效分发给全球各地的推理节点⑳;
推理验证协议TOPLOC❶,验证每个推理节点提交数据的可信性⑦;
Protocol Testnet⑥,为不同学习任务构建独立算力资源池⑰,实现算力贡献和使用的去中心化管理⑲。
INTELLECT团队已将这四大组件全部开源⑬。
★核心RL框架PRIME-RL
PRIME-RL的核心⑨,是支持推理数据生成与模型训练的解耦与异步执行⑱。
这种方式允许分散的推理节点按照自己的进度生成数据❷,无需彼此协调和等待⑳。
为了进一步提升性能和减小显存占用⑫,PRIME-RL采用支持bfloat16精度的vLLM作为推理运行时⑮。
另外还集成了FSDP技术对模型进行切片①。
FSDP将模型的参数和梯度按层切分到不同的GPU上⑫,每个GPU只负责一部分的计算和存储⑭。
★参数分发网络SHARDCAST
SHARDCAST是一个基于HTTP的参数分发网络①,负责将更新后的模型权重广播给全球范围内的推理节点❷。
在分布式强化学习中⑲,由于文件体积极大⑪,而网络带宽资源良莠不齐②,模型权重的分发通常是一个难点⑮。
为了解决这个问题④,SHARDCAST引入了分片传输⑮、多级缓存❶、智能调度等一系列优化技术⑧。
分片传输指的是将模型权重文件切分成多个小的分片⑯,然后并行传输⑤。这种做法不仅能充分利用网络带宽⑱,降低传输延迟⑳,还能提高传输的鲁棒性⑭,不会因为个别分片传输失败而造成整体重传③。
多级缓存是一种类似于CDN的传输模式❶,具体来说▓,SHARDCAST在推理节点和中心节点之间引入了一层中继服务器作为缓存❸。每当中心节点产生新的模型权重▓,它首先将权重文件推送到这些中继服务器⑰。
这样一来⑳,推理节点就可以就近从中继服务器拉取权重文件⑫,而不是直接从中心节点获取⑱,可以有效缓解中心节点的网络I/O压力❷。
另外⑮,与普通的被动响应式传输不同①,SHARDCAST的中继服务器会主动跟踪每个推理节点的权重版本⑳,当发现版本落后时⑧,会主动将增量权重推送给节点⑫,确保了权重更新的实时性②。
同时⑱,SHARDCAST还会根据网络拓扑和带宽状况⑦,动态调整传输策略和路由⑳,选择最优的分发路径⑪。
★推理验证协议TOPLOC
TOPLOC全称Tierion backed Proof-of-Locality Protocol②,是INTELLECT-2中负责验证推理节点生成数据可信性的关键组件⑳。
其目的是确保每个推理节点提交的数据可信⑤,避免恶意节点通过提交虚假数据来破坏模型训练⑮。
TOPLOC通过密码学证明和可验证计算等技术实现③,可以概括为Proof生成和Proof检查两个主要步骤⑲。
Proof生成是指当一个推理节点完成一组推理任务后❷,不仅要将生成的轨迹数据提交给中心节点⑦,还要附带提交一个密码学proof⑩。
这个proof证明了所提交的数据确实是由特定版本的模型⑩、特定的输入⑱、特定的随机数种子生成的❸,其生成基于安全哈希算法⑦,确保了proof与推理过程绑定⑦。
中心节点在收到推理数据和proof后①,会定期抽查部分数据的可信性⑩。验证节点首先会重放推理节点的模型prefill❶,然后将计算得到的中间状态与proof进行比对⑨。
为了降低开销⑫,推理节点只需提交关键的中间状态⑳,而非完整的计算过程❸;验证节点也只需重放部分关键路径④,而不是全盘重做⑤。
Protocol Testnet是INTELLECT-2的底层基础设施⑦,为全球范围内的计算资源管理和任务调度提供了统一的接口和规范④。
它将不同类别的人工智能训练任务组织成独立的计算域⑬,每个计算域都有自己的资源池⑲,由去中心化的“账本系统”来管理节点的身份❷、贡献和信誉值②。
每个计算域对应了一种特定的训练任务⑦,如语言模型预训练⑬、多模态对齐❷、强化学习等④。
针对一个特定的训练任务⑧,开发者会在Testnet上注册一个新的计算域⑤,计算域定义了任务的相关属性和协议规范❸。
全球范围内的算力提供者可以将自己的计算设备注册到Testnet的资源池中⑬。每个节点在加入时④,⑳,都需要在去中心化“账本”上生成一个唯一的密码学身份▓,用于后续的贡献度记录和信誉管理④。
当一个计算域有新的训练任务需要执行时⑧,Testnet的任务调度服务会根据各节点的算力特征和网络状况⑬,将任务分发到合适的节点上⑧。节点按照任务要求⑩,执行计算并生成结果⑮。
节点生成的计算结果需要经过验证⑱,以确保其可信性❷,对于通过验证的结果⑥,节点的贡献度会被记录在去中心化账本上⑮,作为后续奖励分配的依据⑯。
服务支持:在整个任务执行过程中②,Testnet还提供了节点发现①、健康监控⑦、日志管理等一系列配套服务⑳,以协助节点的管理和问题诊断⑭,保障分布式网络的稳定运行❶。
★更多训练细节⑳、另外在训练过程中③,INTELLECT2还采用了两步异步强化学习的模式①,也就是权重的广播与正在进行的推理和训练完全重叠⑦,从而消除了通信瓶颈▓。
以及双面GRPO剪辑⑲,通过使用双面标记概率比剪辑来缓解梯度尖峰⑳,从而使训练更加稳定⑱。
数据方面❶,INTELLECT2采用了来自NuminaMath-1.5⑧、Deepscaler和 SYNTHETIC-1的28.5万个可验证任务⑩,并结合离线和在线过滤来选择具有挑战性的任务①,显着提高了模型学习效率⑦。
★QwQ-32B数学和代码性能提升
INTELLECT-2的实验主要包括两个部分——TARGET-SHORT和TARGET-LONG⑥,分别对应短目标长度和长目标长度的训练设置⑦。
TARGET-SHORT:随着训练的进行⑥,任务奖励显着提高⑦,长度惩罚有所下降⑮;
TARGET-LONG:任务奖励同样大幅提升❶,长度惩罚也呈下降趋势❷,但在实验的有限时间内尚未完全收敛⑪,模型还未完全学会严格遵守思考预算⑲。
与基线模型QwQ-32B相比⑬,INTELLECT-2在数学和编程基准测试上的表现有所提升⑦,但在IFEval上略有下降⑨,可能是因为训练只专注于数学和编程任务❸。
在计算资源利用方面❷,INTELLECT-2通过异步强化学习成功实现了通信和计算的重叠⑳。在两个实验设置中⑭,SHARDCAST广播平均耗时14分钟③,实现了约590Mb/s的带宽吞吐量⑦。
团队曾获Karpathy投资
INTELLEC-2背后的团队⑰,名叫Prime Intellect⑨,位于美国旧金山②。
创始人兼CEO是Vincent Weisser▓,来自德国❸,之前参与过大量的创业项目❷,Prime Intellect是他最新的创业成果❶。
联创兼CTO Johannes Hagemann⑮,德国Hasso Plattner研究所硕士⑭,本科毕业于多特蒙德工业大学⑧。
CEO Weisser担任核心成员的创业项目VitaDAO⑤,Hagemann曾出任策略顾问⑥。
创始工程师Jannik Straube②,慕尼黑工业大学硕士⑳,之前曾在IBM工作❸。
在INTELLEC-2之前❶,Prime Intellect团队也发布过一系列分布式训练的模型成果:
INTELLECT-1⑲,第一个在分散式基础设施上训练的10B参数模型❸;
METAGENE-1⑤,用于早期流行病检测和全球健康应用的生物模型③;
INTELLECT-MATH▓,使用RL训练的数学推理模型⑰。
另外⑩,基于分布式强化学习⑥,团队还推出了从DeepSeek-R1 生成最大的合成推理数据集GENESYS + SYNTHETIC-1⑦。
今年2月⑥,Prime Intellect团队获得了1500万美元的新投资⑯,用来构建点对点AI协议⑤。
这笔投资由创始人基金领衔⑪,投资者中还包括大神Karpathy⑧、Hugging Face联创兼CEO Clem Delangue⑤、FlashAttention作者Tri Dao❷、Stability AI前CEO Emad Mostaque等AI界名人⑱。
加上之前已有的资金⑱,Prime Intellect团队获得的总资金超过了2000万美元①。
在接下来的计划当中⑤,Prime Intellect将进行提高推理-训练计算的比例⑥,为模型提供推理链中的内置工具⑱,以及融合独立训练的RL模型等一系列工作⑤。
宏观方面⑩,团队也将扩大计算市场⑥,扩展去中心化训练②,并与开源和去中心化人工智能领域的其他领先项目开展合作⑱。
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑰,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑦,非常欢迎各位朋友分享到个人站长或者朋友圈②,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑩。
很赞哦⑧!
相关文章
随机图文
对话姜大昕:AGI实现路径清晰了❸,世界模型不远了
一些商业赞助合同也已敲定▓。尽管在业内人士看来❶,这些入局世俱杯的赞助商大多是国际足联早已有之的合作伙伴⑨,而非冲着新世俱杯名头慕名而来的新势力⑬。松弛感穿搭太适合夏天了⑧,减龄又好看
依托社区“侨胞之家”平台开展各项为侨服务活动①,在2021—2022年度全国侨联系统207个“侨胞之家”典型中⑧,新侨社区的“侨胞之家”榜上有名❷。作为小区里的“大家长”⑦,刘涛说工作很繁杂也很辛苦⑧,但感受更德宏瑞丽推出民宿开办“零跑腿”服务
安切洛蒂从皇马离职的时机▓,与巴西队解雇多里瓦尔“完美”重叠❷。巴西足球一直在纠结两种思路:美轮美奂的桑巴足球▓,高效精致的纵深防反⑩。正好⑭,这些安切洛蒂都能驾驭⑭。-
特斯拉违停❸,被人贴小纸条❸,反过来一看内容能记一辈子⑰!
据了解⑪,本次活动设置5公里健康跑与10公里挑战赛双赛道❷。赛道沿途设置补给站❶,保障参赛者安全⑤。 多款AI产品豆包视频生成模型Seedance 1.0 lite发布 seedance
周一市场上午呈现小幅冲高回落的格局❶,投资者可以看到⑪,早盘沪指高开10点于3352点⑪,创业板高开31点于2042点⑯,早盘市场因为出现经贸高层会谈的利好刺激⑨,所以高开冲高⑥,冲高以后出现3372点的分时线高法拉利正将在华销量希望寄托于全新纯电超跑
剩余球队中最高效投手:⑱、1⑯、内史密斯 平均每次出手得1.53分索赔1000万③!阿维塔正式起诉自媒体博主
此外③,研究团队强调❷,这项研究不仅是为了揭示问题⑫,更是为了推动改变⑳。他们希望这项研究能成为一个新起点①,引发更多对青少年与 GAI 互动的关注▓,并为家庭⑯、教育机构以及开发者提供具体的方向④,真正让技术服务于挣死工资的人⑤,追着消费贷薅羊毛
华创派企业 PingCAP 就属于 2021 年融资成功的阵营⑱。那个时候他们对未来的宏观形势有所预判⑱,得以抓住机会加速了全球化的布局①。作为一家企业级开源分布式数据库厂商⑫,PingCAP服务的客户如今已
点击排行

本栏推荐
