您现在的位置是:网站首页>人工智能人工智能
电玩城图片
程含玉 2025-05-14 【人工智能】 0722 人已围观
大模型进化路线持续分野①,阶跃星辰追求AGI的决心反而更加坚定⑲。
成立于2023年4月的阶跃星辰刚刚过完两岁生日❷,模型发布频率和产业落地探索正在前所未有地加速⑧。
阶跃星辰累计发布了22款自研基座模型❷,覆盖文字⑨、语音②、图像⑱、视频⑦、音乐①、推理等全系列②。其中⑤,16款是多模态模型⑪,占比七成④。目前仍然保持“月更”状态⑥。
阶跃星辰创始人⑲、CEO姜大昕说⑤,追求智能的上限仍然是当下最重要的一件事❷。
姜大昕的目标是坚决探索通往AGI⑰,且多模态是实现AGI的必由路径⑳。他把模型演进路线图划分为三个阶段⑩,即模拟世界—探索世界—归纳世界❷。
首先⑧,模拟世界的训练范式是模仿学习⑤,核心是学习海量互联网数据⑰;其次⑥,探索世界是追求“系统二”的能力⑯,实现慢思考⑥;其三⑨,智能的尽头是归纳世界❶,机器能够自主学习❸、主动发现人类尚未发现的物理规律⑦。
姜大昕还特别强调从多模态融合走向多模态理解生成一体化⑦,因为“在多模态领域任何一个方向出现短板⑨,都会延缓实现 AGI 的进程⑳。”
在国内大模型公司里①,像这样重视模态全覆盖▓,并且坚持原生多模理念的公司并不多⑧。这被视为阶跃星辰的独特优势①。“我们需要 AI 能听⑨、能看⑯、能说⑬,这样它才能更好地理解用户所处的环境④,并且和用户进行更为自然的交流③。目前的大模型公司有能力去全面自研预训练模型⑤,并构成模型矩阵的⑰,即使是大公司也不多▓,更不用说是初创公司了⑮,这是阶跃星辰的一个特色⑲,也是我们的优势❶。”
多模态模型的两大趋势▓、强调多模型理解生成的阶跃星辰⑳,是这么想也是这么做的③,不断探索模型能力的同时加速落地验证▓。
第一是预训练加上强化学习⑦,激发模型推理的时候产生长思维链⑦,极大地提高模型的推理能力❸。
姜大昕说⑪,推理模型已经从趋势变成了范式⑤。
阶跃星辰在今年1月份发布了一款推理模型 Step R-Mini⑯,“它的速度很快⑲,推理能力挺强⑰,超出了当时的 o1的 preview 的版本▓,我们预计在未来的三个月内发布满血版的 Step-R1⑲。”
第二个趋势是多模态理解生成一体化⑥,也就是如何把推理引入到多模态领域⑥。
姜大昕举一个例子⑱,有一张足球比赛现场的图片③,一般视觉理解是训练时看到过类似的图❸,然后给出结果⑤。而加了推理的视觉模型可以根据图片中的广告牌⑪、球衣颜色等更多特征信息给出更准确的答案⑨。
这样的探索已经延伸到短剧领域③。“现在短剧最卡脖子⑱、最瓶颈的地方不是短剧生产④,而是短剧审核⑮。因为全部需要人工审核⑮,效率非常低④,用了阶跃星辰的模型后审核效率从原来的90天可以变成一个星期❶。”
姜大昕还进一步解释了“多模理解生成一体化”路线的正确性:
为什么要做理解和生成⑪?因为生成的内容需要理解来控制⑩,为了保证生成的内容有意义①,即生成需要理解来控制⑯。反过来❶,理解需要生成来监督⑬。但他也表示❷,从整个行业看⑥,这个路线还有卡点和挑战❷。
“到现在为止计算机视觉做了几十年⑪,不幸的是这个问题仍然没有被解决⑥。”姜大昕表示⑥,理解生成一体化是整个计算机视觉需要突破的一个堡垒⑤。
AGI的实现路径清晰了②、何时能实现世界模型⑰,姜大昕眼中的 AGI 就实现了②,他近期感受最深的一点是④,路线越来越清晰了②。
他回顾技术发展路线说⑳,2017年transformer 架构对业界最大的意义在于它是一个 scalable 的文本的理解生成一体化的架构⑥。
在那之前❸, LSTM或者RNN循环神经网络或者其他模型都不能 scalable⑱。正因为有了这个 scalable 的架构以后⑰,到了2020年 GPT-3来了⑬,GPT-3的意义在于我们第一次把海量的互联网数据放到了这个 scalable 的架构上⑥,可以让它用一个模型去处理所有 NLP 的任务❷。但那个时候它需要一些例子❷,然后它用一个模型来告诉你要怎么做⑤。
再往前一步⑱,到了2022年 ChatGPT来了⑮,就是在预训练模型的基础上再加上指令跟随⑦,这是 GPT-3.5做的事情⑫,到了 GPT-4的时候这个能力进一步增强⑳,所以我们经常谈到 "GPT-4时刻"❷,指的就是在这个模态上❸,模型真正能达到跟人的智能差不多的水平⑬。
到目前为止⑤,语言模型的技术路线基本上收敛了❸,没有出现别的分支❶,不管是 OpenAI 也好⑨、Google 也好⑱、Anthropic 也好⑦,或者国内任何的公司▓,语言模型都在朝着这条路往下走⑳。
姜大昕相信⑭,视觉也是可以 follow 同样的路线⑲。“如果我能够用海量的视频去做预训练⑯,它能 predict next frame 以后⑩,然后类似语言模型一样加各种指令⑳,让它去预测⑲,再往后做推理⑥,如果能做到时空推理①、加上3D ⑩、再加上自然语言学习❸,那就是世界模型了⑤。”
而世界模型⑱,就是姜大昕眼中AGI的模样❶。而挑战正在于此⑬,这件事的原点就是彻底地解决理解生成一体化②。
姜大昕断言②,这个问题一旦突破以后③,今后的道路会非常顺畅⑧,视频就会和文本一起发展到世界模型⑧。直到抵达AGI①。
智能体将从数字走向物理❸、2025年是Agent 元年⑤,姜大昕总结了两个之所以爆发的条件▓,一个是多模态的能力⑭,一个是慢思考的能力⑨,这两个能力恰好在2024年的时候取得了突破性进展②。
阶跃星辰的发力方向是智能终端 Agent⑭,并在此投入重兵⑤。
姜大昕认为⑨,终端是用户感知和体验的延伸⑮,而且它能帮你完成任务▓。这是阶跃星辰选择这个赛道的原因③。
目前倾注精力的有四个方向⑨,一个是与OPPO等厂商合作的AI手机赛道⑧。一个是和吉利汽车❶、千里科技合作的智能汽车赛道⑧。一个是和TCL等厂商合作的IoT设备领域❷。一个是具身智能领域⑨。
阶跃星辰正在具身智能领域投注精力⑪,与智元机器人和原力灵机机器人合作❷,其中阶跃的多模态大模型是机器人的大脑⑳,以感知⑭、理解这个世界③。未来目标是实现视觉的泛化①、机器人的泛化▓。
在家庭场景②,姜大昕还描绘了这样一幅场景③,在未来⑳,大家不需要了解微波炉的功能⑬,不需要去研究每个功能怎么使用⑮,把鸡蛋放进去⑫,给出指令即可⑪。也不需要知道如何设定⑩,这就是智能终端⑨。家庭场景的想象力大有可为⑱。
姜大昕用三点来概括阶跃星辰的发展蓝图①。
第一⑧,坚持基础大模型研发⑬,追求 AGI 不会改变⑥。第二⑱,阶跃差异化的特点就是多模态的能力⑤。第三⑪,在智能终端 Agent 方向上发力⑱,最终形成从模型到 Agent⑭,从云侧到端侧的生态体系⑫。
在Agent 元年❷,姜大昕希望有所坚持⑬,有所选择④。摆在他们眼前的任务⑩,是让智能体从数字世界走向物理世界⑪。
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可②,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐❷,非常欢迎各位朋友分享到个人站长或者朋友圈⑱,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑧。
很赞哦⑨!
相关文章
随机图文
字母哥持开放态度名记:火箭内部认为交易字母哥很有吸引力
长飞是全球唯一一家同时自主掌握三种主流光纤预制棒制备技术⑮,并已成功实现产业化的企业⑲。企业供图 本届光博会⑦,我国光通信史上首家中外合资企业“长飞”❶,将展出代表全球最高技术水平的空芯反谐振光纤⑫。长飞执行-
铸造大船向海兴
周楹深有感触⑬。有段时间瑞幸咖啡推出7.9元一杯咖啡后⑱,她再次购买9.9元的咖啡⑭,也开始犹豫③。今年上半年⑪,瑞幸咖啡9.9元的咖啡品类减少③,引发诸多涨价讨论⑤。不少消费者也担忧补贴结束后价格反弹❶。 再次翻拍国外影片⑤,新晋金扫帚影帝⑲,包贝尔新片又扑街⑫!
据顺电店员介绍①, iPhone 16系列一些机型原本就有价格优惠①,最新的优惠政策是从昨天开始施行⑬,在原本的基础上再降700元左右❸。“一般就是根据iPhone的市场价格情况⑮,苹果官方说要降价⑤,我们就进行错过冠军后卫⑨?TA:沃克曾被推荐租借至皇马⑨,但最终皇马没有回应
全场数据:❷、射门:7-15⑪、射正:5-7❶、角球:1-7⑧、越位:1-0❸、犯规:9-8⑪、黄牌:1-0③、控球率:43%-57%新华社消息丨开足马力⑤!前4个月我国汽车产销量均超过1000万辆
所谓“自动扣费”❷,顾名思义⑲,是指平台会在特定周期自动从用户的账户中扣除费用❷,用于支付订阅服务⑫、会员续费⑰、免密支付等②。保安砸这几下特斯拉⑩,最少得赔几千块吧⑦?
近日①,工信部发文公开征集《汽车车门把手安全技术要求》强制性国家标准制修订计划项目的意见❶,这一举措犹如一场及时雨③,为当下混乱且存在安全隐患的车门把手市场带来了统一的规范指引❷,也为汽车安全筑牢了一道坚实的哈曼怒批拜仁:既然禁止开派对为啥又允许③?俱乐部形象太差了
直播吧5月13据《报》报道⑫,前曼联总监丹-阿什沃斯将返回英足总任职⑨。程里对话沈斐:乐道L60未达预期的原因是什么⑦?L60和L90产品力足够支撑销量增长
俄国家杜马金融市场委员会主席阿纳托利·阿克萨科夫曾多次作为俄政府代表团成员到访中国❷。他在红场庆典现场说❸,军容严整⑧、士气高昂的中国人民解放军三军仪仗队方队给自己留下深刻印象⑲。“阅兵式仿佛把人们带回苏中人