您现在的位置是: 网站首页>中国足球中国足球

超级电玩城免广告版2024

曹寻文 2025-05-14 中国足球 1149 人已围观

上个月⑥,阿里巴巴旗下的通义平台正式推出了新一代模型Qwen3⑲,登顶全球最强开源模型榜单⑨。

值得注意的是⑨,Qwen3系列模型共包含8款不同尺寸❸,除了两个参数为30B和235B的MoE大模型外⑮,阿里本次推出了6款Dense模型③,6个是稠密模型⑫,参数从0.6B到32B不等②。

阿里一向非常重视小尺寸模型⑬,这也算不上新闻了④,不过其中最小的0.6B模型参数量仅为6亿❷,作为对比③,2019年2月发布的GPT-2参数量都有15亿❶。这个模型的实际表现如何❷,让人相当好奇⑮。

为此①,我们请教了一些专业开发者①,并且自己也进行了测试④,发现即使10年前的手机芯片都足以支持这款模型的推理运算⑧,实际回答效果也能够差强人意⑪。而4B⑩、8B等参数量的模型则有着更好的表现③。

对于一次性更新八个开源模型的原因⑧,阿里云CTO周靖人表示:不同模型其实就是尽量满足从个人到企业的不同开发者的需求⑩。比如手机端侧可以用4B⑳,电脑或汽车端侧推荐8B⑰,32B是企业最喜欢的尺寸⑳,能商用大规模部署⑥。

除了尺寸之外⑱,有开发者指出⑱,采用稠密架构的小模型❷,也比MoE的稀疏架构更适合企业的实际业务场景⑥。在可以预见的未来①,B端市场还是大模型变现的最重要场景⑭,凭借快人一步的小尺寸模型布局❷,阿里正在这场竞争中抢占先机⑦。

什么是稠密模型❶?

所谓稠密模型⑱,是指神经网络中层内神经元之间通过全连接方式连接⑫,且所有参数对所有输入样本全局共享的模型❸。

相比使用稀疏模型MoE架构只会调用部分的参数资料②,Dense模型对于任意输入❸,模型的所有参数都会被激活并参与计算⑯。

早期人们熟悉的大模型⑩,都是以稠密架构为主③。

以OpenAI为例⑯,其GPT系列在GPT3前均使用了Dense模型❸,而后续GPT版本由于其闭源的特性⑰,我们暂时不得而知其采用了哪类架构⑨。

作为深度学习的 “基石”⑰,稠密模型其核心价值在于简单性❸、高效性和普适性⑰,适用于大多数标准化⑯、实时性或资源受限的场景⑳。

但是随着Scaling Law之下⑥,大模型训练所需的参数量呈几何增长⑯,稠密模型的训练成本逐渐让人难以承受▓,并且能力提升幅度也逐渐遭遇瓶颈②,暴露了较难适应多样化场景的问题②。为此③,MoE模型作为解决方案应运而生⑥。

相比于参数愈发膨胀的稠密模型❶,MoE架构是节约资源的一种设计❸,通过引入稀疏门控机制⑧,每次执行任务时只需要激活少数相关的子模型⑬,从而降低训练和推理成本③。DeepSeek V3就是凭借MoE架构⑥,实现了惊人的成本下降③。

但是MoE架构也有缺点⑮,如增加通信成本❶、微调中容易出现过拟合等⑰。而稠密模型由于推理时计算路径固定❷,无动态路由开销▓,反而相比Moe架构更加适合实时在线客服⑪、商品推荐▓、金融风控等需要低延迟响应的场景⑤。

稠密模型除了有更加合适的匹配场景②,对于个人开发者而言⑱,Pytorch⑧、TensorFlow等深度学习工具链对稠密模型的优化已非常成熟⑬,从分布式训练到量化压缩⑱,形成了完整的技术栈❶。而MoE模型的工程实现由于还处在技术迭代阶段③,相比Dense模型没有一套完整成熟的方案❶,对于个人开发者落地成本较高⑤。

小模型能跑成啥样⑪?

那么作为小而美的模型⑭,其运行门槛到底有多低⑭?又会不会存在小而弱的情况呢⑬?

在运行门槛层面⑤,有开发者对观察者网表示▓,其成功将Qwen3 0.6B模型安装在一款搭载4核2.4G的CPU的设备中并成功运行⑬。

开发者将Qwen 0.6B植入应用生成回答

如果要用手机芯片对比该CPU⑱,最为接近的是发售于2014年的骁龙801芯片②。该芯片为28nm制程❸,搭载4核2.5G CPU②,并搭载了一颗Adreno 330的GPU⑥,当年发售的小米4⑱、三星Galaxy S5▓、OPPO Find7等手机均采用了该款芯片⑧。

而这款当年的旗舰芯片放到2025年是妥妥的过时硬件⑪,以小天才电话手表Z10为例⑬,其搭载的高通W5芯片采用4nm架构⑳,四核Cortex-A53的CPU⑪,在Geekbench5单核跑分约500分⑦,碾压了骁龙801的200分⑯。也就是说单核角度②,现在小天才电话手表的CPU都是骁龙801的两倍❶。

更值得注意的是①,该开发者表示⑩,其采用的设备只有CPU⑳,没有GPU⑫。也就是说无论是10年前的小米手机⑦,还是如今的小天才电话手表⑩,都硬件性能都能支持顺利运行Qwen3 0.6B的模型❸。

观察者网也在iPhone 16 Pro Max和索尼Xperia Z5上进行了测试④。

在没有任何优化的情况下②,两款手机均能运行Qwen3 0.6B参数的Dense模型⑳。不过在响应速度上⑨,在关闭推理模式时⑦,苹果手机可以做到实时响应①,索尼手机可以做到延迟1秒左右响应❸,而在开启了推理模式后⑱,苹果手机则依然能迅速响应▓,索尼手机则需要接近10秒的时间才能响应⑯,出现了显着的延迟情况⑧。

而在具体的问答环节❷,在没有任何优化和适配的情况下⑭,对其提问“天空为何是蓝色的”和“生蚝是生的还是熟的”⑪,Qwen3 0.6B没能丝滑应对脑筋急转弯⑥,但也给出了勉强可用的回答❸。

Qwen3 0.6B回答生蚝问题

相比之下⑬,4B的模型性能又有显着提升⑥,同样询问其“生蚝是生的还是熟的”问题后③,它能够准确回答出“生蚝”是名字❷,不是状态⑩,可以是生的⑪,也可以是熟的⑮。

Qwen3-4B模型能够详细回答生蚝问题的答案

根据阿里官方的描述⑪,Qwen3-4B性能可与Qwen2.5-72B-Instruct媲美⑬,而Qwen考虑到目前智能手机基本均可以流畅本地运行Qwen3-4B模型④,主流电脑基本均可以本地运行Qwen3-8B模型⑪,这也代表着Qwen3小模型也可以完全胜任普通人需要的设备智能化的任务⑲,相比满血MoE大模型并不存在极其巨大的使用差距③。

Qwen3发布后⑥,上下游供应链第一时间进行适配和调用❶,尤其是强调了对小尺寸模型的适配⑲,体现了业内对其能力的认可⑰。

英特尔官方网站显示⑦,英特尔在车端舱内和AI PC上都对新发布的Qwen3系列模型完成匹配⑤,使得搭载小模型的AI PC也能成为用户助手⑯。

英特尔官方展示Qwen3-0.6B模型优化效果

国产芯片厂商海光信息也宣布其DCU完成对Qwen3全部8款模型的适配+调优⑩,覆盖235B⑳、32B⑮、30B⑪、14B⑦、8B❸、4B⑨、1.7B⑦、0.6B各种参数④。

抢占AI应用爆发窗口期⑰、如果说阿里更新的32B以上模型是为了对标乃至超越DeepSeek-R1⑲,那么在小模型的技术线上❷,阿里又意欲何为呢⑬?

我们在解释Dense模型的特性时就提到❸,相比MoE模型⑩,Dense模型更加适合一些需要准确性和实时反馈的业务场景⑪,而阿里所在的电商⑪、物流③、金融科技等领域⑨,天然就对大模型幻觉存在较低的容忍度❸。Dense模型相比MoE模型⑨,会更加容易适配诸如商品智能推荐②、智能客服⑮、智能家居⑳、智能眼镜⑪、自动驾驶⑲、机器人等领域领域⑪,与阿里自身的业务板块和未来的发力方向较为契合⑧。

而且⑩,相比上一代模型支持29种语言⑬,本次阿里开源大模型支持119种语言①。对于阿里国际站⑳、速卖通等平台覆盖的全球 200 多个国家和地区⑮,多语言尤其是小语种支持可直接降低语言壁垒❷,提升用户体验⑬,属于AI赋能自身业务的直观体现⑥。

而119种语言的背后也代表着阿里在持续加码建设自己的开源生态⑰。Qwen3系列模型依旧采用宽松的Apache2.0协议开源⑮,全球开发者⑦、研究机构和企业均可免费在魔搭社区⑥、HuggingFace等平台下载模型并商用②,也可以通过阿里云百炼调用Qwen3的API服务⑮。

具体到小模型在第三方的应用⑩,多位AI开发者对观察者网表示⑩,在很多场景②,小模型才是真正能干活的模型⑱。

有人解释道:“很多业务QPS都是以万为数量级③,而业务链路对于延迟的要求又极为严格③,这种场景根本没法塞一个大模型进去⑫,哪怕是用7B级别的模型⑥,对于显存都是巨大的负担▓。对于绝大部分无法承担高额预算的企业⑲,0.6B❷、1.7B的小模型有着巨大的应用价值⑭,不仅能少吃资源⑳,还能支持高并发⑩。”

其补充表示:对于一些轻量的任务❷,不需要模型懂很多道理⑯,只要能够对输入有感知④,能够识别信号输出⑲,就是合格的模型了❶。Qwen小模型的出现取代了TinyBERT⑮,只要能够实现快速②、轻量⑤、稳定⑰,那么这个模型在工业界就有很大的应用潜力⑫。

另一位开发者则对观察者网表示:“Qwen3-0.6B具有参数少⑭、本地跑的特性⑩,非常适合微调成匹配单一小任务的模型▓,比如文章提取▓、样式整理⑮、数据转化④,相比大模型存在巨大的性价比优势⑰。”

据了解⑤,目前已有企业使用Qwen3的0.6B模型在边缘设备部署④,实时分析传感器数据⑦。

除了赋能自身业务和吸引开发者生态⑯,阿里也希望通过更加先进和适配的大模型抢占更多的C端入口⑨。

2024年底至2025年初⑰,阿里通过一系列组织架构调整和人才布局推进AI To C战略▓,将AI应用“通义”并入智能信息事业群⑱,整合天猫精灵与夸克团队④,并聘请顶尖AI科学家许主洪负责AI To C业务研发⑨。

有市场人士认为⑱,此轮调整的背景是阿里通义APP的普及率不及预期▓。

通义千问凭借在多模态处理和复杂任务推理方面的技术优势⑱,曾为阿里的B端企业服务及开发者生态提供了有力支撑⑤。诸如飞猪旅行借助通义千问多模态模型⑭,实现了用户方言语音规划行程的功能⑲;Rokid AR眼镜搭载其技术后⑲,能够进行实时翻译⑦。通义千问在大模型开源上跑得很快⑰,但是⑩,其“通义”App在C端应用上并没有使出“撒手锏”❶。

AI市场竞争激烈⑱,的混元大模型依托微信庞大的用户基础和生态优势⑳,在微信多个入口为元宝争取亮相的机会⑪,对C端用户形成“茧房式包裹”③。字节跳动旗下的豆包借助抖音的推流优势⑰,在2024年11月MAU飙升至5998万③,长期霸榜AI应用下载量榜单前三⑰。

不过阿里在C端依然有潜力应用夸克②。第三方数据显示⑤,2025年3月⑩,夸克的MAU达到1.48亿⑯,登上国内AI应用榜首⑲。

当前阿里的整体AI战略布局②,愈发强化通义千问与夸克的“双子星”格局⑤。通义千问专注于支撑云上智能⑨,夸克则着力打造端侧入口⑳,协同推动阿里AI To C战略的落地①。

随着C端渗透率不断提升②,算力成本会成为大模型企业不可承受之重⑭,DeepSeek就曾经在爆火出圈时遭遇算力崩溃⑲。如果能够用小尺寸模型承接更多C端用户需求⑱,对于阿里自身成本控制和用户体验⑱,都会有潜在的重要意义⑤。

很赞哦⑤!

随机图文