大模型进入爆发期,中国企业如何构建自身优势?

来源:观察者网

2023-04-17 09:53

【文/观察者网 吕栋】

到目前为止,如果要评选2023年最热的概念,非AI大模型莫属。这轮由ChatGPT引爆的技术热潮,经过一段时间的发酵,已在国内迎来爆发期,互联网大厂纷纷躬身入局。人们也似乎越来越认识到,大模型是通往通用人工智能(AGI)最明确的路径。

在此背景下,商汤科技也厚积薄发,于近期正式推出了自研AI大模型体系“日日新SenseNova”,其中不仅包含语言大模型,还拥有AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用。

在这轮AI大模型浪潮中,由于ChatGPT率先出圈,不少人认为,中国企业只是随波逐流,跟风模仿,甚至只是概念炒作。但实际上,想要推出一个经得起考验的大模型,绝不可能一蹴而就。国内已推出大模型的企业中,均有着长期规划,商汤自然也早有准备。

在算力、数据和应用场景等大模型核心能力上,商汤科技已处于国内B端第一梯队。其前瞻布局的AI大装置SenseCore,拥有2.7万块GPU,可以输出5.0 exaFLOPS的总算力,是亚洲目前最大的智算平台之一,也是商汤自研大模型体系的关键基础设施。

基于“大模型+大算力”双轮布局,无论在当下还是未来,商汤科技都对中国AI产业界具有重要的战略价值和意义。

千亿参数大模型,惊艳亮相

4月10日,在距上海市中心近百公里的临港,商汤科技在自己的智算中心举办技术交流日,现场投资者、分析师、记者等人流攒动,座无虚席。在大模型持续爆火几个月后,大家依然非常期待这个人工智能领域的头部企业能拿出更亮眼的作品。

商汤科技不负众望,董事长兼CEO徐立登场后,正式发布了国内首个大模型体系——“日日新SenseNova”。该名称出自《礼记·大学》中汤之《盘铭》:苟日新、日日新、又日新。这个名字也承载了商汤对大模型快速迭代、走向通用人工智能(AGI)的希冀。

由于ChatGPT持续火热,加之百度和阿里相继推出“文心一言”和“通义千问”,语言类大模型为人所熟知。在最新的大模型体系中,商汤也推出了自研语言大模型“商量SenseChat”。

与之前语音交互、图像识别等AI应用类似,语言大模型也被用于人机交互,人们能通过文字和机器对话,获得内容。但语言大模型的突破之处在于,它是真正在尝试理解人们的想法,并基于大数据集生成内容,而不是简单对比和匹配,这意味着AI拥有了一定的自学习能力。

作为千亿级参数的自然语言处理模型,“商量”使用大量数据训练,充分考虑了中文语境,能够更好地理解和处理中文文本。在现场,徐立实时演示了如何用“商量”来完成童话故事的续写、邀请函的文本创作和细节修改。

在实时演示中,“商量”还展现了多轮对话和超长文本理解能力。例如,将超长文本《专利法》“投喂”给“商量”后,再向它提问。可以看到,“商量”能够理解《专利法》的文本,而后对用户问题进行解答,回答的内容并非复制《专利法》大段内容,而是有一定总结性。

区别于国内已发布的大模型,“商量”还在现场展示了难度颇大的医疗咨询功能。当用户诉说症状后,“商量”并没有立刻给出病情诊断,而是进行多次询问,根据用户的患病时长和其他症状等,才给出可能的病症和求医科室建议,更接近于人工问诊。

在专业门槛更高的编程能力上,“商量”能帮助开发者更高效地编写和调试代码。在内部实测中,“商量”代码编写效率提升62%,在HumanEval测试集上,准确率达到40.2%。在“商量”辅助下,新一代软件开发的“二八定律”正在形成,未来将是80%AI生成+20%人工编写。

通过这一系列的演示,不难看出,“商量”在逻辑推演、语言理解的广度和深度,以及知识的自动及时更新等方面的表现,都令人印象深刻。

多样的AI生成能力,源于长期积淀

在ChatGPT爆火一个季度后,国内AI大模型开始集中爆发。在不少人看来,这是中国企业在跟风OpenAI,并无创新性。但实际上,商汤等中国企业布局大模型已久,并非起于当下。

早在2018年,OpenAI刚提出GPT-1时,商汤就开启了AI大模型的研发。在2019年时,商汤便推出了10亿参数量规模的视觉模型。在之后的招股书中,商汤更是把AI大模型的布局也写了进去。2021年,商汤启动语言大模型的训练,并在NLP顶级赛事中拿下过多个第一。

2022年,商汤训练出了320亿参数的通用视觉大模型,也是迄今全球最大的通用视觉模型。多模态方面,商汤在今年3月开源30亿参数的“书生2.5”大模型,具备强大的图文跨模态开放任务处理能力,而且是目前全球开源模型中ImageNet准确度最高、规模最大的模型。

这些长期能力的积累,证明商汤大模型体系的构建绝非一日之功,而是量变到质变的过程,同时也为商汤大模型展现出更多AI生成能力打下坚实基础,目前大模型已落地20多个业务场景。

在最新发布的“日日新SenseNova”大模型体系下,商汤科技还推出了包括AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列自研的生成式AI应用。

例如,文生图创作平台“秒画SenseMirage”展现了光影真实、细节丰富、风格多变的强大文生图能力,可支持6K高清图的生成,客户还可根据自身需求训练生成模型。

在现场演示中,商汤的精选模型中曾出现AI模型站civitai的图片,一度引发外界质疑。但实际上,“秒画SenseMirage”是一个创作平台,创作者除使用商汤自研AIGC大模型外,也可导入第三方开源模型和本地模型,所谓存疑图片在演示时均有明确说明,并标示了出处。

商汤秒画文生图效果

“如影SenseAvatar”是AI数字人视频生成平台,仅需一段5分钟的真人视频素材,就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身。

“琼宇SenseSpace”和“格物SenseThings”则是3D内容生成平台,可以高效低成本生成大规模三维场景和精细化的物件,为元宇宙、虚实融合应用打开新的想象空间。

从“秒画”、“如影”、“琼宇”到“格物”,可以被视为一套完整的视频内容制作和生成工具平台,人、物到空间的数字化闭环都包含在这套生成式AI应用矩阵里。这些强大而易用的内容生成能力,无疑会重塑内容生产行业生态,并打开新的增长空间。

目前,商汤“日日新SenseNova”已为政企客户提供了多种灵活的API接口和服务,包括图片生成、自然语言生成、视觉感知通用任务与标注服务,客户可根据实际应用需求,调用日日新SenseNova大模型的各项AI技术能力,低门槛、低成本、高效率地实现各类AI应用。

前瞻布局大模型

大模型训练非一日之功,想要入局大模型,拥有大算力是必备条件之一。尽管大模型概念持续火热,但入局者大多面临着算力之困,尤其是在外部环境紧张的情况下,许多下场的企业并没有足够的算力储备。那商汤又是如何持续发展大模型,甚至还构建了大模型体系的呢?

实际上,自成立之初,商汤便深刻认识到超大规模算力对于推动AI技术创新的战略作用,并长期深耕于算力基础设施建设。自2018年至今,商汤历时5年搭建起了AI大装置SenseCore。

目前,支持商汤大模型训练的AI大装置SenseCore拥有2.7万块GPU,是亚洲最大的智算中心之一。其输出的算力十分惊人:峰值算力高达5000Petaflops;可以并行训练20个以上的类ChatGPT模型;1750亿参数的GPT-3在此一天就能完成1次训练。

强大的算力背后,也让商汤付出了巨大的代价,在2018年—2022年之间,其研发费用率从45.9%飙升至105%,2022年全年净亏损60.45亿元。

但科技企业高强度研发导致的巨额亏损并不罕见。尤其是AI大模型企业,前期比拼的就是计算资源。市场上流传的调研纪要显示,要训练像ChatGPT这样的生成式AI,至少需要1万张英伟达A100加速卡的支持。目前,国内只有商汤等6家公司具备这样的硬件实力。

实际上,在大模型时代,衡量算力能力的核心指标也不只是简单的数字,还包括多卡并行状态下的有效利用率,即能够支撑大模型训练的实际算力,以及系统能够持续稳定运行的时长。

商汤SenseCore AI大装置拥有出色的并行计算能力,能够以最大4000卡规模集群进行单任务训练,并可做到七天以上不间断的稳定训练。SenseCore AI大装置在2022年已支持了超过10个大模型训练项目,其中不仅有商汤自身的大模型训练项目,也包含了一些其他企业自定义的模型训练任务。在4000卡规模集群的训练关键指标达到世界领先之后,SenseCore AI大装置将为商汤科技未来万亿级参数规模的大模型训练提供基础。

商汤科技董事长兼CEO徐立曾表示,AI的核心是解决“工业红线”问题,而商汤SenseCore AI大装置相当于粒子对撞机,成为业内稀缺的大模型专用基础设施,可以解决AI软件所需算力支撑挑战。

在前瞻布局算力基础的同时,商汤还在智慧城市、智慧商业等领域长期耕耘,积累了海量真实世界的高质量视觉数据,支持商汤在视觉技术方面的持续突破。

大模型+大算力,带来AI服务涌现

一次性推出多个生成式大模型,商汤意在向外界表明,技术的研发和落地是在同步进行的。

如今,商汤科技的产品和技术体系,都可以用大模型做支撑。“日日新SenseNova”大模型体系,已经深度融合在商汤的智能汽车、智慧生活、智慧商业和智慧城市四大业务板块中。

以智慧生活板块为例,在过去的2022年,商汤围绕文本、语音、图像、视频、3D场景的内容生成,全面布局生成式预训练大模型,整体升级了SenseMARS混合现实平台的产品及功能,头部客户续约率超过95%,推动智慧生活板块实现收入10亿人民币,同比增长高达130%。

商汤在智能汽车领域同样表现亮眼,2022年该业务贡献收入3亿元,增幅达59%。年内,商汤的绝影智能车舱和智能驾驶产品完成了27款车型的适配和量产交付,量产交付数超50万辆,新增定点数超800万辆,覆盖30多家车企的80多款车型,持续领跑行业。

同时,基于AI大装置和“日日新SenseNova”大模型体系,商汤科技也在积极面向客户提供涵盖自动化数据标注、大模型推理部署、大模型并行训练、大模型增量训练、开发者效率提升等多种大模型即服务(Model-as-a-Service)。

从某种程度来说,大模型算法是大模型在实际场景落地中那个最容易跨越的环节,更多的矛盾集中在后续的工程能力,以及成本控制上。这也是商汤AI大装置SenseCore在数据标注效率和模型部署成本等环节希望解决的问题。

“基于预训练大模型的自动化数据标注可实现相较于人工数据标注近百倍的效率提升。”商汤科技联合创始人、大装置事业群副总裁陈宇恒介绍,“而模型推理部署服务可将大模型推理效率提高100%以上,降低用模型提供服务的成本。”此外,商汤也向行业开发人员开放大量预训练模型及AI开发工具链,全面赋能开发效率。

从自用到他用,商汤AI大装置帮助客户进入工业化AI开发新模式。基于此,商汤也在继续践行“AI普惠”的理念。可以说,在当前的AI浪潮中,商汤已通过“大模型+大算力”双轮驱动,打造了新的商业模式,正带来丰富的AI商业化落地场景。

商汤也将持续推进“日日新SenseNova”大模型体系建设,期待在数据量上、参数结构上、以及能处理的问题上,可以日复一日地提高,携手行业生态共同迎来更强大的AGI技术突破。

责任编辑:吕栋
观察者APP,更好阅读体验

哥大挺巴抗议持续,美众议长称国民警卫队应适时出动

中央金融办:金融政策的收和放不能太急,防止大起大落

安理会表决:俄方否决,中方反击美方指责

“6年增加两倍”,美军高官又炒:中国速度“惊人”

NASA局长抹黑中国登月,连专业常识都不顾了