您现在的位置是:网站首页>人工智能人工智能
线上捕鱼的电玩城平台
孔念薇 2025-05-13 【人工智能】 9842 人已围观
上个月⑯,阿里巴巴旗下的通义平台正式推出了新一代模型Qwen3⑯,登顶全球最强开源模型榜单⑭。
值得注意的是⑨,Qwen3系列模型共包含8款不同尺寸⑬,除了两个参数为30B和235B的MoE大模型外❶,阿里本次推出了6款Dense模型▓,6个是稠密模型⑲,参数从0.6B到32B不等⑫。
阿里一向非常重视小尺寸模型⑧,这也算不上新闻了⑱,不过其中最小的0.6B模型参数量仅为6亿❷,作为对比⑧,2019年2月发布的GPT-2参数量都有15亿⑤。这个模型的实际表现如何⑤,让人相当好奇⑬。
为此⑪,我们请教了一些专业开发者▓,并且自己也进行了测试⑤,发现即使10年前的手机芯片都足以支持这款模型的推理运算③,实际回答效果也能够差强人意⑬。而4B⑱、8B等参数量的模型则有着更好的表现❸。
对于一次性更新八个开源模型的原因⑫,阿里云CTO周靖人表示:不同模型其实就是尽量满足从个人到企业的不同开发者的需求⑮。比如手机端侧可以用4B⑱,电脑或汽车端侧推荐8B⑥,32B是企业最喜欢的尺寸⑤,能商用大规模部署⑨。
除了尺寸之外④,有开发者指出③,采用稠密架构的小模型⑤,也比MoE的稀疏架构更适合企业的实际业务场景⑳。在可以预见的未来⑫,B端市场还是大模型变现的最重要场景⑦,凭借快人一步的小尺寸模型布局⑧,阿里正在这场竞争中抢占先机⑤。
什么是稠密模型⑯?
所谓稠密模型⑨,是指神经网络中层内神经元之间通过全连接方式连接❷,且所有参数对所有输入样本全局共享的模型❷。
相比使用稀疏模型MoE架构只会调用部分的参数资料❸,Dense模型对于任意输入❷,模型的所有参数都会被激活并参与计算⑦。
早期人们熟悉的大模型⑦,都是以稠密架构为主⑭。
以OpenAI为例❸,其GPT系列在GPT3前均使用了Dense模型⑲,而后续GPT版本由于其闭源的特性⑨,我们暂时不得而知其采用了哪类架构❸。
作为深度学习的 “基石”⑥,稠密模型其核心价值在于简单性①、高效性和普适性⑲,适用于大多数标准化①、实时性或资源受限的场景④。
但是随着Scaling Law之下⑭,大模型训练所需的参数量呈几何增长⑰,稠密模型的训练成本逐渐让人难以承受④,并且能力提升幅度也逐渐遭遇瓶颈②,暴露了较难适应多样化场景的问题❸。为此③,MoE模型作为解决方案应运而生⑩。
相比于参数愈发膨胀的稠密模型⑩,MoE架构是节约资源的一种设计❷,通过引入稀疏门控机制⑰,每次执行任务时只需要激活少数相关的子模型④,从而降低训练和推理成本②。DeepSeek V3就是凭借MoE架构⑩,实现了惊人的成本下降②。
但是MoE架构也有缺点④,如增加通信成本⑳、微调中容易出现过拟合等▓。而稠密模型由于推理时计算路径固定⑭,无动态路由开销⑤,反而相比Moe架构更加适合实时在线客服⑦、商品推荐⑳、金融风控等需要低延迟响应的场景⑧。
稠密模型除了有更加合适的匹配场景⑫,对于个人开发者而言⑭,Pytorch⑭、TensorFlow等深度学习工具链对稠密模型的优化已非常成熟⑫,从分布式训练到量化压缩⑤,形成了完整的技术栈⑬。而MoE模型的工程实现由于还处在技术迭代阶段⑯,相比Dense模型没有一套完整成熟的方案⑪,对于个人开发者落地成本较高⑦。
小模型能跑成啥样④?
那么作为小而美的模型❸,其运行门槛到底有多低①?又会不会存在小而弱的情况呢④?
在运行门槛层面⑳,有开发者对观察者网表示②,其成功将Qwen3 0.6B模型安装在一款搭载4核2.4G的CPU的设备中并成功运行⑩。
开发者将Qwen 0.6B植入应用生成回答
如果要用手机芯片对比该CPU⑧,最为接近的是发售于2014年的骁龙801芯片⑳。该芯片为28nm制程⑬,搭载4核2.5G CPU⑮,并搭载了一颗Adreno 330的GPU⑩,当年发售的小米4⑰、三星Galaxy S5❸、OPPO Find7等手机均采用了该款芯片⑦。
而这款当年的旗舰芯片放到2025年是妥妥的过时硬件⑳,以小天才电话手表Z10为例⑤,其搭载的高通W5芯片采用4nm架构⑨,四核Cortex-A53的CPU⑳,在Geekbench5单核跑分约500分③,碾压了骁龙801的200分▓。也就是说单核角度⑳,现在小天才电话手表的CPU都是骁龙801的两倍⑩。
更值得注意的是⑳,该开发者表示④,其采用的设备只有CPU⑤,没有GPU⑫。也就是说无论是10年前的小米手机⑩,还是如今的小天才电话手表▓,都硬件性能都能支持顺利运行Qwen3 0.6B的模型⑯。
观察者网也在iPhone 16 Pro Max和索尼Xperia Z5上进行了测试⑭。
在没有任何优化的情况下❷,两款手机均能运行Qwen3 0.6B参数的Dense模型⑪。不过在响应速度上⑰,在关闭推理模式时③,苹果手机可以做到实时响应④,索尼手机可以做到延迟1秒左右响应⑥,而在开启了推理模式后❷,苹果手机则依然能迅速响应⑳,索尼手机则需要接近10秒的时间才能响应▓,出现了显着的延迟情况❸。
而在具体的问答环节▓,在没有任何优化和适配的情况下④,对其提问“天空为何是蓝色的”和“生蚝是生的还是熟的”⑮,Qwen3 0.6B没能丝滑应对脑筋急转弯⑨,但也给出了勉强可用的回答❸。
Qwen3 0.6B回答生蚝问题
相比之下⑫,4B的模型性能又有显着提升①,同样询问其“生蚝是生的还是熟的”问题后⑳,它能够准确回答出“生蚝”是名字⑧,不是状态⑦,可以是生的❸,也可以是熟的⑱。
Qwen3-4B模型能够详细回答生蚝问题的答案
根据阿里官方的描述⑱,Qwen3-4B性能可与Qwen2.5-72B-Instruct媲美⑳,而Qwen考虑到目前智能手机基本均可以流畅本地运行Qwen3-4B模型⑭,主流电脑基本均可以本地运行Qwen3-8B模型④,这也代表着Qwen3小模型也可以完全胜任普通人需要的设备智能化的任务⑮,相比满血MoE大模型并不存在极其巨大的使用差距⑯。
Qwen3发布后⑮,上下游供应链第一时间进行适配和调用④,尤其是强调了对小尺寸模型的适配⑨,体现了业内对其能力的认可⑲。
英特尔官方网站显示⑦,英特尔在车端舱内和AI PC上都对新发布的Qwen3系列模型完成匹配⑩,使得搭载小模型的AI PC也能成为用户助手❷。
英特尔官方展示Qwen3-0.6B模型优化效果
国产芯片厂商海光信息也宣布其DCU完成对Qwen3全部8款模型的适配+调优⑮,覆盖235B⑳、32B⑪、30B①、14B❶、8B⑫、4B⑧、1.7B⑱、0.6B各种参数⑰。
抢占AI应用爆发窗口期④、如果说阿里更新的32B以上模型是为了对标乃至超越DeepSeek-R1⑩,那么在小模型的技术线上⑳,阿里又意欲何为呢❶?
我们在解释Dense模型的特性时就提到⑭,相比MoE模型⑤,Dense模型更加适合一些需要准确性和实时反馈的业务场景❸,而阿里所在的电商⑦、物流⑥、金融科技等领域⑤,天然就对大模型幻觉存在较低的容忍度⑭。Dense模型相比MoE模型❷,会更加容易适配诸如商品智能推荐⑨、智能客服⑳、智能家居⑨、智能眼镜⑯、自动驾驶⑲、机器人等领域领域⑲,与阿里自身的业务板块和未来的发力方向较为契合⑮。
而且⑧,相比上一代模型支持29种语言①,本次阿里开源大模型支持119种语言⑥。对于阿里国际站⑯、速卖通等平台覆盖的全球 200 多个国家和地区⑰,多语言尤其是小语种支持可直接降低语言壁垒⑧,提升用户体验⑯,属于AI赋能自身业务的直观体现③。
而119种语言的背后也代表着阿里在持续加码建设自己的开源生态❸。Qwen3系列模型依旧采用宽松的Apache2.0协议开源④,全球开发者①、研究机构和企业均可免费在魔搭社区④、HuggingFace等平台下载模型并商用⑭,也可以通过阿里云百炼调用Qwen3的API服务②。
具体到小模型在第三方的应用❶,多位AI开发者对观察者网表示⑨,在很多场景❶,小模型才是真正能干活的模型③。
有人解释道:“很多业务QPS都是以万为数量级▓,而业务链路对于延迟的要求又极为严格⑭,这种场景根本没法塞一个大模型进去⑲,哪怕是用7B级别的模型③,对于显存都是巨大的负担⑮。对于绝大部分无法承担高额预算的企业⑳,0.6B⑯、1.7B的小模型有着巨大的应用价值⑳,不仅能少吃资源①,还能支持高并发②。”
其补充表示:对于一些轻量的任务⑥,不需要模型懂很多道理⑪,只要能够对输入有感知⑧,能够识别信号输出⑦,就是合格的模型了⑬。Qwen小模型的出现取代了TinyBERT②,只要能够实现快速⑰、轻量❶、稳定⑲,那么这个模型在工业界就有很大的应用潜力⑱。
另一位开发者则对观察者网表示:“Qwen3-0.6B具有参数少⑰、本地跑的特性⑬,非常适合微调成匹配单一小任务的模型⑲,比如文章提取②、样式整理①、数据转化▓,相比大模型存在巨大的性价比优势▓。”
据了解❶,目前已有企业使用Qwen3的0.6B模型在边缘设备部署⑲,实时分析传感器数据⑤。
除了赋能自身业务和吸引开发者生态①,阿里也希望通过更加先进和适配的大模型抢占更多的C端入口❷。
2024年底至2025年初❶,阿里通过一系列组织架构调整和人才布局推进AI To C战略⑭,将AI应用“通义”并入智能信息事业群④,整合天猫精灵与夸克团队▓,并聘请顶尖AI科学家许主洪负责AI To C业务研发③。
有市场人士认为⑫,此轮调整的背景是阿里通义APP的普及率不及预期⑲。
通义千问凭借在多模态处理和复杂任务推理方面的技术优势⑪,曾为阿里的B端企业服务及开发者生态提供了有力支撑⑧。诸如飞猪旅行借助通义千问多模态模型⑯,实现了用户方言语音规划行程的功能⑩;Rokid AR眼镜搭载其技术后⑳,能够进行实时翻译⑩。通义千问在大模型开源上跑得很快①,但是⑰,其“通义”App在C端应用上并没有使出“撒手锏”❷。
AI市场竞争激烈❸,的混元大模型依托微信庞大的用户基础和生态优势⑳,在微信多个入口为元宝争取亮相的机会⑬,对C端用户形成“茧房式包裹”⑤。字节跳动旗下的豆包借助抖音的推流优势⑳,在2024年11月MAU飙升至5998万⑰,长期霸榜AI应用下载量榜单前三⑨。
不过阿里在C端依然有潜力应用夸克⑩。第三方数据显示⑦,2025年3月❶,夸克的MAU达到1.48亿①,登上国内AI应用榜首⑰。
当前阿里的整体AI战略布局❶,愈发强化通义千问与夸克的“双子星”格局③。通义千问专注于支撑云上智能②,夸克则着力打造端侧入口⑯,协同推动阿里AI To C战略的落地❶。
随着C端渗透率不断提升③,算力成本会成为大模型企业不可承受之重⑤,DeepSeek就曾经在爆火出圈时遭遇算力崩溃④。如果能够用小尺寸模型承接更多C端用户需求⑫,对于阿里自身成本控制和用户体验④,都会有潜在的重要意义⑮。
转载:感谢您对电玩城捕鱼种类都有的软件网站平台的认可⑬,以及对电玩城捕鱼种类都有的软件原创作品以及文章的青睐⑲,非常欢迎各位朋友分享到个人站长或者朋友圈⑭,但转载请说明文章出处“来源电玩城捕鱼种类都有的软件”⑲。
很赞哦⑬!
相关文章
随机图文
-
国际护士节关注丨黄燕红:为居民健康服务献上全部热情
特别声明:以上文章内容仅代表作者本人观点⑪,不代表新浪网观点或立场⑮。如有关于作品内容⑫、版权或其它问题请于作品发表后的30日内与新浪网联系⑳。 字母哥动了离开的心思⑨,他和雄鹿队的缘分早就到了头
结婚登记“轻装上阵”▓,让爱情回归纯粹⑨。沐浴在“全国通办”的春风下⑬,婚姻登记所需的材料也大幅简化⑧。以往❸,内地居民结婚需提供户口掘金G4不敌雷霆 大比分被扳为2-2平
文 | 猫薄荷⑮、京津冀的居民们不知道⑳,他们的“菜篮子”里可能藏着许多“猫腻”③。凯恩:很清楚自己从未赢过奖杯⑨,随着时间推移会开始自我怀疑
皖ICP备14005324号-2 皖网宣备07004号 皖公网安备003号 互联网新闻信息服务许可证: 信息网络传播视听节目许可证:11232006😮博主透露:6家欧洲俱乐部想签王钰栋 门兴①、狼堡❸、欧塞尔在列
据悉⑰,宁德时代本次港股IPO募资所得的90%将投向匈牙利项目第一期及第二期建设⑰,进一步提升本地化供应能力⑪,巩固其在新能源领域的龙头地位⑨。世贸组织欢迎中美经贸高层会谈取得积极成果
张璐:刚开始做的时候⑰,确实也有很多不同的反馈和声音⑫。我开始做基金的时候▓,25岁⑰,又是少数族裔⑫、女性⑮。对我来讲❶,这是又一次创业③,所以我有很明确的长线目标⑦,怎么搭架构⑪,投资方法论是什么⑳。这个“公园”为啥建④、长啥样❷、有“味”不③?记者带你走读长征国家文化公园广西段
最近在挑选低价位轻薄本的小伙伴可能会发现⑧,惠科推出的惊鸿14 AI有点眼熟❷。没错⑩,这款产品的外观设计与雷神aibook 14 Air如出一辙③,接口布局也完全一致❸,只是支持协议略有差别⑯。-
微软展示Windows 11五种开始菜单概念图:可能永远不会发布
艾:因为我暂时不能在场上和队友并肩作战⑪,不能和他们共同体会比赛胜利的喜悦⑨、失败的苦痛等感受②,所以我希望通过参与更多的公益活动去帮助俱乐部⑥,也让自己平时康复的日子更多元化一些③,任何时候都能伴随俱乐部共同