1. 端侧AI芯片的现状与挑战
过去两年,AI行业经历了从训练竞赛到应用落地的关键转折。大模型团队不再满足于刷榜和融资,而是将目光投向了更广阔的端侧市场。后摩智能联合创始人项之初在采访中提出了一个颇具前瞻性的判断:2026年将出现百万量级的AI端侧爆款产品。这个预测背后,是AI技术从云端向终端迁移的必然趋势。
当前端侧AI面临的最大挑战是算力供给与需求之间的巨大鸿沟。随着Physical AI(物理智能)概念的兴起,AI系统需要实时处理来自摄像头、麦克风等传感器的多模态数据流。以4K视频流为例,如果全部依赖云端处理,仅4000万用户就能耗尽全球海底光缆的带宽资源。这种物理限制使得端侧算力成为刚需而非选项。
值得注意的是,端侧算力需求正在呈现指数级增长。旗舰手机的NPU算力已从早期的30-40TOPS跃升至80-100TOPS,而自动驾驶领域更是达到了上千TOPS的量级。这种增长不仅反映了硬件性能的提升,更预示着AI应用场景的深度拓展。
2. Physical AI:从抽象符号到物理交互的革命
2.1 Agentic AI的演进
早期的Chatbot只能提供简单的对话服务,而现代Agent已经开始深度介入生产力流程。以"豆包X中兴"AI手机为例,其系统级Agent可以直接在后台注入事件,实现外卖点单等复杂操作。这种深度集成标志着AI从"玩具"向"工具"的转变。
2.2 物理智能的突破
Physical AI的核心突破在于实现了从一维符号到三维物理世界的跨越。项之初用"读万卷书"与"行万里路"的比喻,生动说明了传统大模型与Physical AI的本质区别。当AI配备传感器和执行器后,它不再是被动的信息处理者,而是能主动与环境交互的智能体。
在实际应用中,这种转变带来了全新的技术挑战。以家庭陪伴机器人为例,它需要:
- 实时捕捉用户微表情(视觉处理)
- 分析情绪状态(情感计算)
- 生成适当响应(自然语言生成)
- 执行音乐播放等动作(物理交互)
这种端到端的处理流程对延迟极其敏感,云端方案根本无法满足实时性要求。
3. 端侧算力的架构之争
3.1 iNPU与dNPU的技术路线
当前端侧芯片市场存在两种主流架构:
| 特性 | iNPU(集成NPU) | dNPU(独立NPU) |
|---|---|---|
| 算力范围 | 50-60TOPS | 100+TOPS |
| 典型功耗 | 5-10W | 10-30W |
| 支持模型大小 | ≤7B参数 | ≤30B参数 |
| 代表厂商 | 英特尔/高通 | 后摩智能/NVIDIA |
iNPU类似集成显卡,受限于SoC的功耗和面积约束,适合轻量级AI任务。而dNPU则像独立显卡,通过专用内存和高速接口提供更强的算力。
3.2 正向设计的必要性
项之初尖锐指出,当前很多端侧AI方案只是"油改电"式的过渡产品。真正的突破需要像功能机到智能机那样的架构革新。后摩智能的M50芯片就是这种理念的实践:
- 存算一体架构突破内存墙限制
- 3D堆叠技术提升能效比
- 专用编译器优化模型部署
在10W功耗下实现160TOPS算力,可支持30B模型25+Tokens/s的推理速度。
4. 杀手级应用的探索困境
4.1 硬件先行的产业现状
目前端侧AI面临"有铲无矿"的尴尬局面。后摩M50芯片虽然获得大量测试需求,但真正的量产应用仍在探索中。造成这种状况的主要原因包括:
- 开发者思维定式:长期受限于低算力环境,难以快速适应新硬件能力
- 产品导入周期:从芯片测试到最终产品上市通常需要12个月以上
- 工具链不成熟:新型架构需要全新的编译器、算子库等支持
4.2 潜在爆发场景分析
尽管尚未出现现象级应用,但几个领域已显现端侧AI的商业价值:
运营商AI网关
- 将传统路由器升级为轻量私有云
- 用户接入Wi-Fi即可使用本地AI服务
- 已实现数十万级的出货量
便携式超算中心
- 巴掌大小设备可运行120B参数模型
- 满足极客群体对隐私和性能的双重需求
- 典型配置:
- 300+TOPS算力
- 64GB LPDDR5内存
这类产品在海外开发者社区尤其受欢迎,单台售价约$999却供不应求
智能会议系统
- 完全离线的实时翻译和会议纪要
- 解决企业数据安全顾虑
- 典型部署:
- 多语言实时转写(延迟<500ms)
- 发言摘要生成(支持100+人会议)
- 跨境会议合规保障
5. 产业链的博弈与突破
5.1 成本与性能的平衡术
面对客户对成本的敏感,芯片厂商发展出"算力可裁剪"的交付策略:
- 基础版:100TOPS/$299
- 专业版:160TOPS/$499
- 企业版:300TOPS/$899
这种梯度产品线既满足价格敏感客户,又为高端需求保留空间。
5.2 工具链的生态建设
不同于CUDA的成熟生态,新型芯片必须从头构建软件栈。后摩智能的实践表明:
- 需要提供从模型量化到部署的全套工具
- 必须深度参与客户的实际开发
- 持续迭代编译器(平均2周一个版本)
一个典型的工具链包含:
bash复制quantizer --model=llama-30b --bits=4 --output=llama-30b-4bit
compiler --target=m50 --input=llama-30b-4bit --optimize=latency
deploy --runtime=arm64 --quant=4bit --device=/dev/npu0
6. 未来展望:端侧AI的iPhone时刻
项之初预测,端侧设备将重现数据中心算力结构的颠覆性变化 - NPU将从协处理器变为计算核心。这种转变需要三个关键条件:
- 架构革新:存算一体、3D堆叠等技术成熟
- 规模效应:单品出货突破百万级门槛
- 杀手应用:找到无可替代的使用场景
当前的产业态势像极了2007年智能手机爆发的前夜。芯片厂商需要既保持技术领先,又要有足够的耐心等待那个"iPhone 4时刻"的到来。在这个过程中,务实的选择是深耕中国这个世界最大的智能硬件供应链中心,做好"卖铲人"的角色。