您现在的位置是:网站首页>娱乐娱乐
电玩城套牛游戏手机版
姜翠萱 2025-05-14 【娱乐】 3207 人已围观
在60个主流基准测试中拿下38项第一⑥!
字节发布轻量级多模态推理模型Seed1.5-VL⑦,仅用532M视觉编码器+200亿活跃参数就能与一众规模更大的顶尖模型掰手腕②,还是能带图深度思考的那种⑲。
相关技术报告也第一时间公开了①。
整体而言⑩,虽然是“以小博大”⑫,但新模型在复杂谜题推理①、OCR⑪、图表理解⑬、3D空间理解等方面表现出色⑭。
比如猜下图中有几只猫③,人眼很容易误将地上的黑猫当成影子:
还能用来玩“看图找茬”⑬,速度和准确率双双胜于人类:
同时也能用来解答复杂推理谜题❷,考公党有福了(bushi~
当然⑥,以上也基于其强大的OCR识别能力⑫。即便是长度惊人⑦、中英混杂的消费小票⑱,也能分分钟转换成表格❸。
除此之外⑦,新模型还擅长处理Agent任务①。它在GUI界面操作和游戏场景中③,显着优于OpenAI的CUA和Claude 3.7等模型⑤。
那么它是如何做到的呢⑪?
532M视觉编码器 + 20B混合专家语言模型
通过深扒技术报告⑪,背后关键主要在于模型架构和训练细节③。
据介绍⑮,Seed1.5-VL由以下三个核心组件组成:
SeedViT:用于对图像和视频进行编码⑥;
MLP适配器:将视觉特征投射为多模态token⑨;
大语言模型:用于处理多模态输入并执行推理❸。
模型支持多种分辨率的图像输入⑱,并通过原生分辨率变换确保最大限度保留图像细节⑬。
在视频处理方面⑫,团队提出了一种动态帧分辨率采样策略❶,能够根据需要动态调整采样帧率和分辨率⑥。
此外▓,为了增强模型的时间信息感知能力②,在每帧图像之前引入了时间戳标记❸。
这些设计让模型能够高效处理各种多模态数据⑲,包括文本⑩、图像和视频等❸。
而基于上述架构⑪,团队接着开始了模型训练⑲。
首先④,团队使用了3万亿个多样化且高质量的多模态标注⑧,这些数据是根据模型需要发展的特定能力来组织和分类的⑫。
其预训练过程分为三个阶段:
阶段0:仅训练MLP适配器⑮,以对齐视觉编码器和语言模型⑥;
阶段1:训练所有模型参数⑳,重点是掌握视觉定位和OCR能力①;
阶段2:增加数据多样性①,扩展序列长度⑩,以适应视频理解和复杂推理任务⑳。
值得一提的是⑱,团队在预训练阶段观察到了——
大多数子类别的数据训练损失与训练标记数量之间遵循幂律关系⑪,即训练损失随着训练标记数量的增加而减少⑮。
此外❷,某一子类别的训练损失与该类别对应的下游任务评估指标之间呈现对数线性关系)的趋势❶,尤其在局部区域内尤为显着⑫。
后者意味着⑳,可以通过训练损失来一定程度上预测模型在下游任务上的表现⑰。
接下来团队又进行了后训练❷,使用了监督微调和强化学习等技术⑧。
其一⑫,使用高质量的指令数据对模型进行微调❷,包括一般指令和长链推理数据❷;
其二④,结合人类反馈和可验证奖励信号④,通过PPO算法进行训练⑨,以提高模型的对齐能力和推理能力⑯。
需要注意的是❷,团队在后训练采用了结合拒绝采样和在线强化学习的迭代更新方法⑬。
他们构建了一条完整的数据pipeline⑳,用于收集和筛选复杂提示⑱,以增强后训练阶段的数据质量⑦。
并且在强化学习过程中⑪,监督信号通过奖励模型和规则验证器仅作用于模型生成的最终输出结果❷。
也就是说⑬,团队特意避免对模型的详细链式思维推理过程进行监督⑫。
最后⑫,为了支持大规模预训练和后训练⑳,团队还开发了一系列优化技术:
混合并行化:针对视觉编码器和语言模型的不同特点③,采用不同的并行策略⑳;
工作负载平衡:通过贪心算法重新分配视觉数据⑩,平衡GPU工作负载❷;
并行感知数据加载:减少多模态数据的I/O开销⑪;
容错机制:使用MegaScale框架实现容错⑰,确保训练的稳定性①。
这些技术显着提高了训练吞吐量⑮,并降低了硬件成本▓。
60项测试中拿下38项SOTA
那么其实际表现如何呢⑱?
实验结果显示⑨,新模型在60项公开基准测试中取得了38项新SOTA④,其中包括19项视频基准测试中的14项▓,以及7项GUI智能体任务中的3项⑳。
部分测试结果如下:
单拎出多模态智能体任务来看⑫,它在多个GUI任务上⑯,优于OpenAI的CUA和Claude 3.7等现有模型▓。
在多个游戏中⑱,它也展现出强大的推理和决策能力④。
与此同时⑲,在内部测试中②,新模型尤其在视觉推理⑱、文档理解⑰、3D空间理解等方面表现出色❶。
光看测试结果可能还不够②,我们最后也来简单实测一下⑥。
比如玩最近很火的“看图找地理位置”⑯,随意一张游客照也能正确推理识别⑱。
鉴于图中有灯塔这种可能容易暴露地标的元素⑪,我们再换张难度更高的▓。
在无明显标识的情况下⑲,o3曾因猜出的位置距离正确答案仅相差200-300公里而出圈⑯。
而Seed1.5-VL最后的答案是加州沿海地区:
这两个地点距离正确位置分别为160公里和440公里❷,和o3的表现已经相当接近⑭。
不过最后需要提醒②,团队表示新模型仍存在一些局限性⑤,尤其是在细粒度视觉感知⑤、三维空间推理以及复杂组合搜索任务方面⑨。
目前新模型可在Hugging Face在线体验⑨,欢迎大家评论区分享讨论~
在线体验:https://huggingface.co/spaces/ByteDance-Seed/Seed1.5-VL论文:https://arxiv.org/abs/2505.07062GitHub:https://github.com/ByteDance-Seed/Seed1.5-VL
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑯,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐④,非常欢迎各位朋友分享到个人站长或者朋友圈❶,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑯。
很赞哦⑭!
相关文章
随机图文
图片报:拜仁球员已从伊维萨岛返回⑬,将在周三中午集合训练
投资者可于2025年5月21日前登录网址https://eseb.cn/1od56ewN1u0或扫描下方小程序码⑲,进入问题征集专题页面进行会前提问⑨,公司将在本次业绩说明会上⑨,在信息披露允许范围内就投资广东省原省长卢瑞华逝世④,享年88岁
白酒⑬、酒店⑯、航空等15个门类这几年属于共享招商门类⑬,即CBA公司和各俱乐部均可进行招商❸。目前⑪,CBA各队冠名赞助商方面有四家是酒类冠名:除了山西男篮由汾酒冠名外⑪,新疆男篮由伊力特冠名⑨,每个赛季的冠名费🚨罗马诺:皇马已与怀森团队直接接触①,5000万镑解约金分三期支付
5月13日晚⑦,京东发布2025年一季度财报⑳。财报数据显示③,这是2022年以来京东业绩最好的一季度:收入上⑭,同比增长15.8%至3011亿元❸,其中京东最为核心的带电品类和日百都实现收入同比双位数增长①,同记者:小安切洛蒂已收到英超和科莫的邀请⑯,可能接替小法执教科莫
根据赛程安排⑪,比赛分上午和下午两个阶段⑰。上午为300米直道赛⑮,于9时开始⑧,11时结束⑫。下午为200米直道赛⑤,于14时开始②,16时结束⑬。比赛设6条赛道❶,竞赛地点与去年相同❶,均为邕江大桥畅游阁附近水域⑳。目中央公开通报⑭,李献林⑥、叶金广等10名干部违规吃喝▓,1人饮酒后死亡
2023年到2024年京东最为明显的“压力”来自三个维度:市场份额⑯、用户❶、流量③。在市场份额上①,拼多多和抖音对于线上零售市场份额的蚕食力度较大⑲,而拼多多抖音所持续发力的3C⑪、美妆⑪、鞋服等品类①,也是线上零京东季报图解:营收3011亿同比增16% 已斥资15亿美元回购股权
王毅表示④,今天上午⑱,习近平主席在本次会议开幕式上发表重要讲话⑧,指出中方愿同拉方携手启动五大工程⑤,共谋发展振兴①,共建中拉命运共同体❸,同拉方领导人形成广泛共识⑮,为中拉关系长远未来描绘了发展蓝图⑨,提供了战略克罗斯:即便皇马当时2球领先⑤,我也不觉得他们能够赢下比赛
这些好消息让球迷觉得王钰栋的留洋很快就会成功⑧。只是⑲,现实和理想之间总是有着太大的差距③。媒体人赵震表示王钰栋留洋有着3大非常现实的难题:攻防都有贡献⑯!特纳7中3拿到10分7板4帽 正负值+12
宏观政策是经济保持平稳运行的重要推动力⑯。中国人民银行行长潘功胜近日在国新办新闻发布会上表示⑨,中国人民银行将加大宏观调控强度⑱,推出10项政策▓,进一步实施好适度宽松的货币政策⑯,推动经济高质量发展⑬。