您现在的位置是：网站首页>CBACBA

皇家捕鱼电玩城官方

黎易梦 2025-05-13 【CBA】 6610 人已围观

大模型进化路线持续分野⑯，阶跃星辰追求AGI的决心反而更加坚定⑱。

成立于2023年4月的阶跃星辰刚刚过完两岁生日⑰，模型发布频率和产业落地探索正在前所未有地加速②。

阶跃星辰累计发布了22款自研基座模型❸，覆盖文字⑨、语音⑩、图像⑦、视频❶、音乐⑬、推理等全系列⑥。其中③，16款是多模态模型⑫，占比七成⑥。目前仍然保持“月更”状态③。

阶跃星辰创始人⑥、CEO姜大昕说⑲，追求智能的上限仍然是当下最重要的一件事❶。

姜大昕的目标是坚决探索通往AGI⑦，且多模态是实现AGI的必由路径②。他把模型演进路线图划分为三个阶段⑮，即模拟世界—探索世界—归纳世界⑲。

首先⑲，模拟世界的训练范式是模仿学习⑮，核心是学习海量互联网数据⑱；其次①，探索世界是追求“系统二”的能力⑦，实现慢思考❸；其三⑰，智能的尽头是归纳世界②，机器能够自主学习⑫、主动发现人类尚未发现的物理规律▓。

姜大昕还特别强调从多模态融合走向多模态理解生成一体化⑭，因为“在多模态领域任何一个方向出现短板⑰，都会延缓实现 AGI 的进程⑰。”

在国内大模型公司里⑰，像这样重视模态全覆盖⑭，并且坚持原生多模理念的公司并不多❷。这被视为阶跃星辰的独特优势⑦。“我们需要 AI 能听❸、能看②、能说⑮，这样它才能更好地理解用户所处的环境⑦，并且和用户进行更为自然的交流③。目前的大模型公司有能力去全面自研预训练模型⑧，并构成模型矩阵的❶，即使是大公司也不多⑩，更不用说是初创公司了⑲，这是阶跃星辰的一个特色⑤，也是我们的优势❸。”

多模态模型的两大趋势⑥、强调多模型理解生成的阶跃星辰⑳，是这么想也是这么做的⑨，不断探索模型能力的同时加速落地验证⑦。

第一是预训练加上强化学习⑬，激发模型推理的时候产生长思维链①，极大地提高模型的推理能力⑲。

姜大昕说⑰，推理模型已经从趋势变成了范式⑫。

阶跃星辰在今年1月份发布了一款推理模型 Step R-Mini⑭，“它的速度很快⑨，推理能力挺强⑯，超出了当时的 o1的 preview 的版本⑳，我们预计在未来的三个月内发布满血版的 Step-R1⑮。”

第二个趋势是多模态理解生成一体化⑦，也就是如何把推理引入到多模态领域⑮。

姜大昕举一个例子❶，有一张足球比赛现场的图片⑥，一般视觉理解是训练时看到过类似的图③，然后给出结果▓。而加了推理的视觉模型可以根据图片中的广告牌⑬、球衣颜色等更多特征信息给出更准确的答案⑮。

这样的探索已经延伸到短剧领域⑨。“现在短剧最卡脖子⑳、最瓶颈的地方不是短剧生产⑪，而是短剧审核⑱。因为全部需要人工审核⑥，效率非常低⑲，用了阶跃星辰的模型后审核效率从原来的90天可以变成一个星期⑦。”

姜大昕还进一步解释了“多模理解生成一体化”路线的正确性：

为什么要做理解和生成①？因为生成的内容需要理解来控制①，为了保证生成的内容有意义⑦，即生成需要理解来控制⑤。反过来⑲，理解需要生成来监督⑯。但他也表示⑱，从整个行业看⑯，这个路线还有卡点和挑战⑲。

“到现在为止计算机视觉做了几十年⑪，不幸的是这个问题仍然没有被解决⑰。”姜大昕表示⑦，理解生成一体化是整个计算机视觉需要突破的一个堡垒④。

AGI的实现路径清晰了⑫、何时能实现世界模型❶，姜大昕眼中的 AGI 就实现了⑥，他近期感受最深的一点是④，路线越来越清晰了❷。

他回顾技术发展路线说▓，2017年transformer 架构对业界最大的意义在于它是一个 scalable 的文本的理解生成一体化的架构⑲。

在那之前③， LSTM或者RNN循环神经网络或者其他模型都不能 scalable⑥。正因为有了这个 scalable 的架构以后⑱，到了2020年 GPT-3来了⑭，GPT-3的意义在于我们第一次把海量的互联网数据放到了这个 scalable 的架构上⑯，可以让它用一个模型去处理所有 NLP 的任务❸。但那个时候它需要一些例子❸，然后它用一个模型来告诉你要怎么做⑬。

再往前一步⑯，到了2022年 ChatGPT来了②，就是在预训练模型的基础上再加上指令跟随⑯，这是 GPT-3.5做的事情③，到了 GPT-4的时候这个能力进一步增强⑪，所以我们经常谈到 "GPT-4时刻"⑳，指的就是在这个模态上③，模型真正能达到跟人的智能差不多的水平⑲。

到目前为止①，语言模型的技术路线基本上收敛了⑩，没有出现别的分支⑨，不管是 OpenAI 也好⑧、Google 也好⑰、Anthropic 也好③，或者国内任何的公司⑤，语言模型都在朝着这条路往下走⑰。

姜大昕相信⑤，视觉也是可以 follow 同样的路线❶。“如果我能够用海量的视频去做预训练⑧，它能 predict next frame 以后⑭，然后类似语言模型一样加各种指令⑦，让它去预测❷，再往后做推理②，如果能做到时空推理①、加上3D ⑮、再加上自然语言学习③，那就是世界模型了⑲。”

而世界模型⑦，就是姜大昕眼中AGI的模样⑱。而挑战正在于此⑤，这件事的原点就是彻底地解决理解生成一体化⑲。

姜大昕断言⑳，这个问题一旦突破以后⑨，今后的道路会非常顺畅⑰，视频就会和文本一起发展到世界模型⑰。直到抵达AGI②。

智能体将从数字走向物理①、2025年是Agent 元年▓，姜大昕总结了两个之所以爆发的条件⑮，一个是多模态的能力③，一个是慢思考的能力⑤，这两个能力恰好在2024年的时候取得了突破性进展❷。