腾讯将发布全球首个全模态模型“混元-O”-观察者网

腾讯自研大模型“混元”发力“全模态”领域。

近日，观察者网了解到，基于腾讯自研大模型混元的首个端到端语音通话模型Hunyuan-Voice，最快今年6月上线腾讯元宝App。而且腾讯已规划多模态和全模态路线，最快今年将推出全球首个“全模态模型”，代号为混元-O。

腾讯混元

在大模型领域，多模态表示该模型能处理多种模态数据并进行融合交互，而全模态是在多模态基础上更全面，理论上涵盖所有模态类型，能更综合地处理和理解各类模态信息。而腾讯计划推出的代号为混元-O的模型就瞄准了全模态的场景。

隶属于腾讯TEG（技术工程）事业群的腾讯混元科研人员向国内媒体透露，面向AGI，混元将以语言模型为核心，探索多种模态融合，并将向深度、广度两方面持续推进探索。一方面，混元从大语言模型向多模态模型发展，理解和模拟物理世界；同时，混元还将瞄准更智能的推理、规划、智能体，以及探索知识边界，自我启发、自我迭代、自我发现，最终与具身智能等技术结合，向环境中自主行动和学习的世界模型方向进行探索。

此前，腾讯未曾公开披露过关于混元-O全模态模型技术的具体信息，这次也是首次腾讯混元披露相关全模态消息。

此外，腾讯即将上线的Hunyuan-Voice语音模型可能对标的是字节跳动旗下的豆包AI所具有的视频通话功能，字节的豆包AI语音对话功能流畅、自然，在行业中处于领先位置。

腾讯云副总裁王迪表示，混元正快速提升智能化水平，覆盖更广泛的应用场景，为 AI 技术普惠与产业转型升级提供支持。同时，混元将持续推进开源策略，涵盖多种尺寸与场景的全系模型。

本文系观察者网独家稿件，未经授权，不得转载。