腾讯将发布全球首个全模态模型“混元-O”
来源:观察者网
2025-05-26 13:32
腾讯自研大模型“混元”发力“全模态”领域。
近日,观察者网了解到,基于腾讯自研大模型混元的首个端到端语音通话模型Hunyuan-Voice,最快今年6月上线腾讯元宝App。而且腾讯已规划多模态和全模态路线,最快今年将推出全球首个“全模态模型”,代号为混元-O。
腾讯混元
在大模型领域,多模态表示该模型能处理多种模态数据并进行融合交互,而全模态是在多模态基础上更全面,理论上涵盖所有模态类型,能更综合地处理和理解各类模态信息。而腾讯计划推出的代号为混元-O的模型就瞄准了全模态的场景。
隶属于腾讯TEG(技术工程)事业群的腾讯混元科研人员向国内媒体透露,面向AGI,混元将以语言模型为核心,探索多种模态融合,并将向深度、广度两方面持续推进探索。一方面,混元从大语言模型向多模态模型发展,理解和模拟物理世界;同时,混元还将瞄准更智能的推理、规划、智能体,以及探索知识边界,自我启发、自我迭代、自我发现,最终与具身智能等技术结合,向环境中自主行动和学习的世界模型方向进行探索。
此前,腾讯未曾公开披露过关于混元-O全模态模型技术的具体信息,这次也是首次腾讯混元披露相关全模态消息。
此外,腾讯即将上线的Hunyuan-Voice语音模型可能对标的是字节跳动旗下的豆包AI所具有的视频通话功能,字节的豆包AI语音对话功能流畅、自然,在行业中处于领先位置。
腾讯云副总裁王迪表示,混元正快速提升智能化水平,覆盖更广泛的应用场景,为 AI 技术普惠与产业转型升级提供支持。同时,混元将持续推进开源策略,涵盖多种尺寸与场景的全系模型。
本文系观察者网独家稿件,未经授权,不得转载。