【大河财立方音信】9月19日开云(中国)kaiyun网页版登录入口,小米崇敬开源首个原生端到端语音模子——Xiaomi-MiMo-Audio。
该模子基于立异预西宾架构和上亿小时西宾数据,初度在语音边界完结基于ICL的少样本泛化,并在预西宾不雅察到彰着的“贯通”步履。
据先容,在通用语音交融及对话等多项步履评测基准中,MiMo-Audio大幅杰出了同参数目的开源模子,获取7B最好性能;在音频交融基准MMAU的步履测试集上,MiMo-Audio跳动Google闭源语音模子Gemini-2.5-Flash;在面向音频复杂推理的基准Big Bench Audio S2T任务中,MiMo-Audio相似杰出了OpenAI闭源的语音模子GPT-4o-Audio-Preview。
下一步,MiMo-Audio 的开源将显耀加快语音大模子探究对皆到话语大模子,为语音 AGI 的发展提供伏击基础。
实习裁剪:金怡杉 | 审核:李震 | 监审:古筝开云(中国)kaiyun网页版登录入口