欲做AI模型算力“超级放大器”、为人工智能提供设施的清华系初创企业推出端侧开源模型。
12月16日,上海无问芯穹智能科技有限公司推出端侧全模态理解的开源模型Megrez-3B-Omni,30亿参数尺寸适合手机、平板等端侧设备,具备图片、音频、文本三种模态数据处理能力。
在文本理解方面,Megrez-3B-Omni将上一代14B大模型压缩至3B规模,降低计算成本,提升计算效率。在语音理解方面,该模型支持中英文语音输入,处理复杂多轮对话场景,支持对输入图片或文字的语音提问,不同模态间自由切换。在图像理解方面,该模型在场景理解、OCR(光学字符识别)等任务上可识别并提取文本信息。同步开源的纯语言版本模型Megrez-3B-Instruct为单模态模型,最大推理速度领先同精度模型300%,具备AI搜索功能。
无问芯穹由清华大学电子工程系教授、系主任汪玉发起,他带领的NICS-EFC实验室早在2008年便投入到面向智能场景的软硬件联合优化技术路线,提出“算法创新-编译映射-硬件架构”联合优化的设计范式。联合创始人、首席科学家戴国浩毕业于清华大学电子工程系NICS-EFC实验室,现任上海交通大学长聘教轨副教授、清源研究院人工智能设计自动化创新实验室负责人。联合创始人兼CEO夏立雪是汪玉的博士生。
“我们做的主要是端侧小模型,一是因为端侧是我们的重点业务之一,另一方面也证明我们有模型训练和优化的能力。云和端一直是我们的两大业务,以前主要做云,现在开始云和端一起发力了。”无问芯穹表示,相较于云端大模型,端侧模型需要在资源有限的设备上快速部署、高效运行,对降低模型计算和存储需求提出更高要求。Megrez-3B-Omni通过软硬件协同优化策略,令各参数与主流硬件适配。该模型是能力预览,接下来还将持续迭代,未来用户只需给出简单的语音指令,就可完成端设备的设置或应用操作,该方案支持CPU、GPU和NPU同时推理,通过跨越软硬件层次的系统优化,额外带来最高70%的性能提升,最大化利用端侧硬件性能。
编辑/范辉