您现在的位置是:网站首页>国内国内
菠菜电玩城app官网
杨元柏 2025-05-11 【国内】 8950 人已围观
衡宇 发自 凹非寺量子位 | 公众号 QbitAI
当大模型赛道中不少玩家明确表示放弃基础大模型研发⑰,心思放在更聚焦的方向上时①,阶跃星辰站出来——就像这家公司第一次亮相时那样⑥,给外界一个明确的回答:
我们会坚持基础大模型研发⑰。
创始人兼CEO姜大昕解释了背后逻辑❷。
一方面①,大模型行业的趋势技术发展还是在非常陡峭的区间⑬。他也很感慨AI行业发展瞬息万变⑳,“去年大家觉得GPT-4很牛⑪,今天他都快下架了”▓,等到明年看今年的技术⑬,同样会觉得微不足道❸。
姜大昕说⑥,阶跃不想在这个过程中放弃主流增长或前进的趋势▓,所以还是会坚持做基础模型的研发❷。
另一方面③,从应用的角度来看⑲,阶跃仍然相信应用和模型是相辅相成的③。“模型可以决定应用的上限⑲,应用给模型提供具体的应用场景和数据⑬。”姜大昕表示⑳,虽然阶跃的产品形态随着模型的演变是动态发展的⑯,但这样的逻辑关系还是一直保持下去的❷。
确实如他所说⑪,在过去的一年里⑰,阶跃星辰旗下产品从命名⑯、布局和形态上都发生了转变⑳。
主打的C端助手App①,由“跃问”改名为“阶跃AI”⑮,意味着它从类ChatGPT产品到Agent的转变⑰;产品重点形态从用户普遍直接使用的手机App变成了端云一体Agent平台⑳。“虽然我们的智能终端Agent和头部企业合作⑬,但总体而言②,阶跃的产品最终是服务C端的④。”姜大昕表示⑥,“不管作为助手类也好⑨、内容类也好⑨,都有非常大的机会④。”
大模型领域的两条显着趋势
姜大昕同时强调⑪,模型的突破是早于商业化的①。就拿OpenAI来说▓,是先有了GPT-3.5⑪,才有了ChatGPT⑳。
因此⑳,在基座模型上面继续投入以追求智能的上限⑩,仍然是当下最重要的一件事⑥。
要怎么去不停触碰智能的边界or天花板❶?不如先来看看这个领域里最前沿的趋势有哪些③。
姜大昕复盘道⑥,趋势共有如下两条:
一条是“模仿学习到强化学习”⑭,另一条是“从多模态融合走向了多模态理解生成一体化”▓。
从模仿学习到强化学习的技术演进大家已经非常熟悉⑧, OpenAI的o1①、o3⑬,以及DeepSeek-R1背后采用的都是强化学习技术⑮,也是现在大模型玩家争先恐后着重投入的方向⑧。
第二条趋势则关乎多模态⑫。
姜大昕再次提到了那句他在多个场合不停重复提及的话:多模态是实现AGI的必经之路⑫。
无论是从人类智能的多元化角度⑧,还是从垂直领域AI应用需求来说③,大模型的多模态能力都必不可少⑱。
在这样的认知指导下⑯,阶跃星辰在研发基座模型时采取了散弹式打法:
成立两年⑱,公司累计发布22款基座模型⑱,覆盖文字⑯、语音③、图像⑮、视频❶、音乐⑦、推理等系列⑯。
其中有16款是多模态模型▓,占据总数七成②;这些多模态模型又分属图像理解❸、视频理解⑤、图像生成⑰、视频生成⑰、图像编辑③、音乐生成⑫、多模态推理等方向⑤。
业界公认阶跃是多模态卷王⑯,也不是没有道理④。
多模态理解生成一体化才是未来
至于如何追求智能的上限⑯,阶跃目前行进的路线与第一次公开亮相时所讲的那样一般无二❷,即“单模态——多模态——多模态理解和生成的统一——世界模型——AGI”③。
姜大昕重点解释了关于“多模态理解生成一体化”的部分⑤。
它意味着多模态模型的理解和生成用一个模型来完成❶,而不是“视频/图像/语言转文本——文本理解与生成——生成结果转视频/图像/语音”的三段式过程⑱。
大语言模型的理解生成一体化②,已经有类GPT实现统一❶;然而在视觉领域并不如此⑮,人们往往在理解视觉内容时选择一个模型⑪,在生成内容时调用另一个模型①。
这并不是一个可以直接从语言模型的NTP直接迁移到视觉模型的NFP的简单事③。
语言文本模态是低维度离散分布的⑧,而视觉模态是高维度连续分布⑮,这也就是说后者在进行训练学习时⑫,复杂性更高⑫。
从技术角度来看❸,视觉领域的内容生成需要理解来控制——如果想保证生成内容有意义⑳、有价值⑭,实际上需要对视觉的“上下文”作出更好的理解⑯。
反言之⑤,理解需要生成来监督⑭。姜大昕解释说⑬,就是“只有生成了的时候才是真正的理解了”⑰。
现在▓,视觉领域还没有出现自己的Transformer架构⑭,阶跃就是想做出一个视觉领域的⑥、生成一体化架构①,并且是非常scalable的⑭。
姜大昕分享道❸,GPT-4o可能已经实现了多模态理解生成一体化⑪,而阶跃的图像编辑模型Step1X-Edit也初步实现了这一点⑥。
之所以称其为“初步”⑲,是阶跃觉得Step1X-Edit的效果依然有很大改进空间②,还可以在架构上做进一步的优化⑮,数据上也可以做进一步的打磨⑳,让它的效果变得更好一些❷。
但具体走哪条路线能精益求精❸,不管是阶跃内部还是业界都没有公认的真理⑬。姜大昕表示⑫,在这一方面⑤,阶跃内部多有条技术路线并行⑭,因为确实哪一条路线都会有可能出现突破⑫。“一旦突破以后⑭,今后的道路会更加顺畅⑯。”姜大昕称⑧。
既然认可多模态理解生成一体化才是未来⑭,为什么阶跃不把所有的精力集中在Step-R1-V-Mini这样的多模态推理模型上②,反而是要在各个模态上都发力呢⑫?
量子位把这个问题抛给了姜大昕⑩。
他很坦然▓,表示也想过做❶,但这行不通
理解生成一体化是非常综合素质的考验⑤。首先要理解▓。如果语言模型不行就谈不上理解❶,何况现在语言模型又进化到了推理模型⑯,这块不能省⑰。第二要做视觉推理④。视觉推理是视觉理解的升级⑮,所以要做视觉理解⑤。要做理解生成一体化还要有生成端⑳,所以生成也必须做①。
简单点说⑯,做理解生成一体化④,必须自身具备非常强的综合实力
但姜大昕信心满满①,“我们几条线的能力都非常强⑲,所以才可以组合起来去探索这个路径”▓。
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可④,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑨,非常欢迎各位朋友分享到个人站长或者朋友圈⑮,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑤。
很赞哦❷!
相关文章
随机图文
感同身受⑲!JR:在CBA打球我才明白核心球员是如何思考的
美联储连续第三次宣布维持基准利率不变❷,利率声明强调通胀和失业风险双双上升⑱。“经济前景的不确定性进一步升高❸,”联邦公开市场委员会在为期两天会议结束后发布的声明中表示⑨。“委员会关注双重使命面临的风险②,并判-
巴军方高调公布机动发射车 对印发射导弹现场
3③、 地形对无人机的限制克什米尔山区的高海拔与复杂地貌大幅削弱无人机作战效能: 小型侦察无人机受限于续航与信号传输⑮,难以有效监控战场⑬; 自杀式无人机在峡谷环境中易被地形干扰⑧,命中率下降⑩; 骑士队史季后赛40+次数:米切尔3次追平欧文并列第二 詹姆斯24次
女子称很遗憾没有进行更好的处理哄堂大笑弗里克模仿什琴斯尼抽烟:你知道他有时会来一根
贾载瑞甘肃省平凉公路事业发展中心静宁公路段干部⑧,高级工程师-
国足主力11人将大换血②,4人中超疯狂爆发①,大概率锁定18强赛首发
同时⑱,从车辆动态驾驶中的尾部效果来看⑱,该版本在边框打造上更加激进④,并优化了C柱与车顶之间的弧度⑳。而在扬起的雪花之下⑤,还能够依稀分辨出保险杠中的宽大运动包围⑮,它或许会通过扩散器等样式来进行最终表达⑨。 最惨烈争冠⑫!同积79分末轮定生死 37岁迪马利亚无缘第37冠⑯?
第70分钟⑫,米内罗禁区内完成抢断⑬,但他的打门打偏⑪。↓傅成玉:未来所有企业都无法回避三大确定性趋势
"submitType": "commentPage"莱利:永远记得巴特勒在园区拼尽全力 但过去一年半情况大不相同
赵元瑞中国邮政集团有限公司甘肃省华池县分公司投递员
点击排行
