“卷王”阶跃星辰又卷出新花样,但姜大昕的理想道阻且长
来源:观察者网
2025-05-16 15:15
(文/万肇生 编辑/张广凯)
近日,“多模态卷王”阶跃星辰,又双叒叕开源了一款大模型 —— Step1X-3D。
据阶跃星辰介绍,3D大模型Step1X-3D是该团队继图像、视频、语音、音乐等模态后,在多模态方向的最新成果。Step1X-3D 模型总参数量达4.8B,其中几何模块1.3B,纹理模块3.5B,通过数据基础与3D 原生两阶段架构,可生成高保真、可控的3D内容。
Step1X-3D生成的3D模型
同市面上其他3D生成大模型相比,Step1X-3D实现了对超500万原始数据进行严格筛选与处理,建立了包含200万高质量、标准化的训练样本库,有效克服了行业数据稀缺与质量参差的瓶颈。Step1X-3D还通过增强型网格-SDF 转换技术等方法,让水密几何转换成功率提升了20%。
在3D结构及纹理细节方面,Step1X-3D 采用先进的 3D 原生两阶段架构,解耦几何与纹理表征。其中,几何生成模型基于 FLUX MMDiT 结构和 Rectified flow 算法直接对 3D 表示生成进行建模,而纹理生成模型基于预训练的 Diffusion model,通过单视图和 3D 几何信息指导,生成多视角一致的纹理信息。
Step1X-3D 的原生 3D 架构
Step1X-3D的VAE-Diffusion整体架构在设计上与主流 2D 生成模型(如 Stable Diffusion)保持了高度一致性,从而能够无缝引入并应用成熟的 2D 控制技术,比如轻量化的 LoRA 微调。因此用户可以对生成 3D 资产的多种属性进行调控,让创作更精准地符合用户意图。
阶跃星辰介绍,团队自建了一个包含110个多样化测试用例的综合测试,对该模型进行了评估,结果显示Step1X-3D 在多项关键维度上均表现出色。
不同大模型的图生3D模型效果对比
其中,在衡量内容与输入语义一致性的核心指标CLIP-Score上,Step1X-3D 取得了当前所有对比模型中的最高分,为开源社区提供了极具竞争力的3D生成方案。
综合来看,Step1X-3D的开源,再一次体现了阶跃星辰独特的发展路径。
作为“大模型六小虎”中成立最晚的一个,阶跃星辰最初并不被广泛看好,一度只是被视为大模型的“最后一张船票”。但凭借基座模型的扎实功力和多模态领域的特色,如今的阶跃星辰已然站稳脚跟,目前已对外发布了20多款自研基座模型,并且由于几乎每个月都在发布新模型,也被称为“多模态卷王”。
至于为什么要坚持多模态路线,阶跃星辰创始人姜大昕近日接受媒体采访时认为,多模态正是实现AGI的必经之路。人工智能发展的过程中,要先有多模态融合和推理模型,才会有之后成熟的Agent。但当多模态理解生成一体化技术突破后,它的意义不仅在于改进现有Agent,还会在具身智能泛化和世界模型构建方面带来全新应用。
值得一提的是,在当下火热的具身智能赛道,3D数据稀缺正成为最大瓶颈之一,不少具身智能企业不得不自己研发从2D到3D的数据生成技术。阶跃星辰在3D生成领域的进展,或许也能找到更多的商业化空间。
不过,从生成3D图像到构建完整的物理仿真世界,还有很长的路要走。
姜大昕日前坦言,目前多模态模型还仅仅相当于大语言模型2017年以前的阶段。
姜大昕指出,当下的大模型还处于理解和生成两条路线独立发展、互相促进的情况,还没有突破理解生成一体化。多模态模型远未出现类似2017年谷歌“Transformer”级别的突破性框架诞生,“Transformer是2017年出来的,GPT-1是2018年”。
姜大昕指出,理解生成一体化又是一项非常综合的挑战,不但需要强大的语言和视觉进行理解和推理,还需要有生成能力。这也是为什么阶跃星辰一开始就布局非常完整的多模态路线,包括语音、图像、视频、音乐等多个方向。
“每条技术路线都经过几个月甚至半年的积累才发布一个模型,只是当你同时看这么多方向时,会觉得我们频繁发布新成果”,姜大昕表示,“我们也希望这样(集中力量攻克理解生成一体化),但不是我们不够聚焦,而是完成这项任务本身就需要多方面能力的支撑”。
本文系观察者网独家稿件,未经授权,不得转载。