爱芯元智AI社区与生态回顾与展望

科技时尚 2026-01-13 广盈财人 4823

从一颗芯片到全场景智能,爱芯元智正把AI落地每一步走成现实。

2025年初,随着DeepSeek等现象级产品的推广,大众对AI智能产品的认知与期待被快速点燃。随之而来的,产业端对AI部署需求的全方位爆发,云、边、端各类场景都在寻求更高效、更经济的智能化方案。特别是 7B 参数量以下多模态大模型的陆续开源,使得原本局限于云端运行的 AI 能力,在端侧部署也展现出切实可行的前景。基于这一趋势,爱芯元智迅速从大模型 Demo验证阶段转向了实际项目交付,并推出了多个可直接量产的解决方案,显著提升了用户部署大模型的效率。

01 年度突破 从技术探索到产品落地

2025年,爱芯元智完成了多个关键跨越:

1.发布基于AXCL框架的AX8850算力卡产品解决方案,迈出算力硬件产品化的重要一步,为边缘计算场景提供了高能效比、高智价比的AI加速选择。

2.深度参与Hugging Face开源生态,借助其免费提供的 ModelZoo 存储服务,团队成员得以高效协作、共享模型适配成果,与全球开发者共同推动AI开源生态的繁荣。

3.成功协助客户将Qwen系列多模态大模型集成并实现量产,真正实现了“大模型落地”从概念到产品的跨越。

4.完成了多款语音类大/小模型的端侧适配工作,推动“语音/音频+AI”应用场景加速落地,进一步拓展了端侧智能的交互边界。

02 模型生态 133个模型库背后的技术图谱

今年,爱芯元智将ModelZoo全面迁移至全球最大的模型管理平台Hugging Face,截至目前,已整理并开源133个模型仓库,涵盖适配优化的模型、示例代码、解决方案及NPU工具链。

HTTPS://huggingface.co/AXERA-TECH

a115f4c0-ed54-11f0-92de-92fbcf53809c.png

爱芯元智的模型适配已形成完整矩阵:

1. 视觉模型

覆盖了从检测、识别到分割、关键点、目标跟踪的全栈能力。不仅支持YOLO系列最新版本,还适配了单目/双目深度估计、图像增强等前沿算法

2. 语音模型

重点优化了语音检测、识别、生成模型,用于语音交互中的VAD、ASR、TTS小模型,确保其实时响应能力(RTF 均<1),为智能语音产品提供可靠基础。

a1c83928-ed54-11f0-92de-92fbcf53809c.jpg

3. 音频模型

实现音轨分离,通过先进的Transformer架构,显著提升了分离的精度和质量,极大提升效率与创新自由度。

4. 多模态模型

作为今年热点,爱芯元智完整适配了文搜图、文搜 NVR、智能相册、万物搜的基座多模态模型CLIP系列,以及“万物检测”模型YOLOWorldv2,为智能相册、以文搜图等场景提供核心支持。

a27ae3b6-ed54-11f0-92de-92fbcf53809c.jpg

5. 大语言模型

实现文本对话、文本翻译、会议摘要整理,尽管大语言模型迭代迅速,爱芯元智仍精选并适配了包括DeepSeek、Qwen3、MiniCPM等在内的多个架构最新版本,确保技术前沿性。

a2d55e86-ed54-11f0-92de-92fbcf53809c.jpg

6. 多模态大模型

爱芯元智对“多模态大模型”给出了更专业明确的界定:必须是真正支持文本、图片、语音至少两种输入的大语言模型架构,这些模型让设备开始真正“理解”周围世界。

a32d8ba6-ed54-11f0-92de-92fbcf53809c.jpg

7. 生成式模型

生成式模型,将 StableDiffusion1.5 支持到了更大的分辨率(1024*768),可生成细节更多的图片。同时,适配了能以假乱真的语音克隆模型 CosyVoice2。

a38fb8a8-ed54-11f0-92de-92fbcf53809c.jpg

8. RAG特征模型

RAG 业务流程中的特征提取功能,实现更智能地检索精度、优化用户体验、降低计算成本等,在业务场景中创造实际价值。

a3e67a58-ed54-11f0-92de-92fbcf53809c.jpg

9. Ultralytics QAT

从根源上来解决极端情况下的 w8a8 的量化长尾问题,让算法模型的生产者主动参与到模型量化的流程中,实现了闭环。

HTTPS://GitHub.com/AXERA-TECH/QAT.Ultralytics

03 生态解决方案 从算法到产品的关键一步

2025年,爱芯元智成立了边缘计算业务线,进一步拓展智能产品市场,深耕以AI为核心商业价值的赛道。公司从模型适配,迈向提供完整的算法功能SDK及准产品级解决方案,显著加速客户拓展与AI产品的量产落地进程。

1. 业务流

爱芯元智实现了硬件编解码+AI 检测(NPU 推理)的高性能视频处理流程。支持从 RTSP 流或 MP4 文件获取视频,解码后通过 NPU 执行目标检测,并输出可直接播放的结果视频流或文件,一站式处理,帮助客户快速评估多路(8 路/16 路/32 路)RTSP视频流的智能分析能力,并快速集成自己私有检测算法模型。

主控版本

HTTPS://GitHub.com/AXERA-TECH/ax-pipeline

算力卡版本

HTTPS://GitHub.com/AXERA-TECH/axcl-pipeline

2. 以文搜图

针对AI NAS、智能NVR等场景,提供基于CLIP模型的即插即用型“以文搜图”解决方案。该方案通过集成优化的多模态模型与轻量级数据库,客户无需关注底层算法,仅需通过增加算力卡,即可快速为现有NAS/NVR产品实现智能升级。

支持主控形态、支持算力卡形态

HTTPS://GitHub.com/AXERA-TECH/libclip.axera

3. 文字识别

基于PaddleOCR的最新版本,封装SDK已准备就绪。

HTTPS://GitHub.com/AXERA-TECH/libocr.axera

4. 语音 SDK

将 ASR、TTS 的模型封装到 HTTP API 的服务中,极大降低了集成门槛,方便用户直接调用。

HTTPS://GitHub.com/ml-inory/whisper.axera

HTTPS://GitHub.com/ml-inory/sensevoice.axera

HTTPS://GitHub.com/ml-inory/FireRedASR.axera

HTTPS://GitHub.com/AXERA-TECH/kokoro.axera

5. 多语言翻译

提供基于 Qwen2.5 驱动的多国语言互译 HTTP API 服务。

HTTPS://GitHub.com/AXERA-TECH/libtranslate.axera

6. 多人会议转录总结

基于声纹识别、语音识别、大语言模型的多人会议转录总结功能,拓展了AI在办公场景的应用。

HTTPS://huggingface.co/AXERA-TECH/3D-Speaker-MT.axera

7. 智能相册

基于开源项目 Immich,将算力需求适配到 NPU,极大缓解 CPU 提取图片特征耗时漫长的问题。

HTTPS://huggingface.co/AXERA-TECH/immich

Immich 智能相册在树莓派 5 上的高效部署与优化:

https://zhuanlan.zhihu.com/p/1959353946578585345

8. 智能 NVR

基于开源项目Frigate NVR打造的智能NVR解决方案,不仅将算力需求全面适配至NPU,更支持语义搜索和视频理解功能。

HTTPS://huggingface.co/AXERA-TECH/frigate-resource

https://docs.frigate-cn.video/

特别值得关注的是,其内置的 AI 功能极具前瞻性,优胜市面主流NVR产品,提供的模型微调服务,能针对垂直场景的漏检、误检等核心痛点进行优化,真正解决了落地中的准确性和可靠性。

04 生态共建 从芯片到产品的全链路支持

2025年,爱芯元智的生态硬件合作伙伴基于AX630C、AX8850等核心芯片,推出了一系列创新产品。

a49d8770-ed54-11f0-92de-92fbcf53809c.png

a513c282-ed54-11f0-92de-92fbcf53809c.png

Module LLM Kit(AX630C)、LLM630 Compute Kit(AX630C)等开发套件,降低了LLM应用开发门槛。

a573e7ca-ed54-11f0-92de-92fbcf53809c.png

LLM-8850 Card(AX8850)为边缘服务器提供灵活AI算力扩展。

a5cff128-ed54-11f0-92de-92fbcf53809c.png

a630645e-ed54-11f0-92de-92fbcf53809c.png

NanoKVM Pro(AX630C)、MaixCAM2(AX630C)等产品将AI能力注入专业与消费级设备。

a689217a-ed54-11f0-92de-92fbcf53809c.jpg

a6e24520-ed54-11f0-92de-92fbcf53809c.png

M4C-Hat(AX8850)、AX-M1(AX8850)等形态多样的算力模块,满足不同集成需求。

a74defe6-ed54-11f0-92de-92fbcf53809c.jpg

AI Pyramid(AX8850),承载Home Assistant微调的离线多模态大模型,可作为本地服务器(HA-Server),在完全离线的情况下运行全栈AI服务:

大语言模型(LLM):运行Qwen 0.5B,实现自然语言理解。

语音识别(ASR):搭载SenseVoice,提供高精度语音转文字。

视觉大模型(VLM):运行InternVL3-1B,实现实时画面理解。

计算机视觉(CV):部署YOLO模型,负责实时的行人与骨骼检测。

知名AI工程师:https://zhuanlan.zhihu.com/p/1991449170813403832

05 行业前瞻 家庭算力中枢时代即将到来

在2025世界人工智能大会上,已清晰感受到产业脉搏。行业全屋智能解决方案的推出,充分展示了多模态大模型在家居场景的惊人潜力。不久的将来,“家庭算力中枢”将从概念走向量产,全屋多模态AI能力将成为智能硬件的新门槛,100 TOPS的端侧算力或将成为未来家庭的标配。

06 2026 未来可期

从模型开源到方案量产,从算法到全栈生态——爱芯元智在2025年完成的,不仅是一系列技术适配与产品交付,更是一条从AI芯片到智能场景的完整价值通路的构建。爱芯元智正将算力转化为切实可用的产品功能,助力客户在多个垂直领域实现规模化部署。

2026年的大门已经打开,爱芯元智将继续探寻边端侧应用的最大公约数,与合作伙伴一同,让每一颗芯片的潜力,都在真实场景中绽放价值,真正实现“普惠AI,造就美好生活”。

通往物理AI世界的路上,爱芯元智与生态伙伴不仅是参与者,更是基础设施的建设者。