肖仰华:国内大模型真正的短板并非数据和算力,而在"炼制"工艺

来源:观察者网

2023-05-25 23:00

【文/观察者网 周毅 编辑 张广凯】

微软再一次抛出“王炸”。

5月23日,在西雅图的微软Build 2023开发者大会上,微软CEO纳德拉正式宣布,正在为Windows 11添加人工智能助手“Windows Copilot”,用户可以在Windows系统中使用聊天机器人。

在ChatGPT领域,中国此前已有阿里通义千问、百度文心一言、京东灵犀等多款产品。

在AIGC的新风口下,如何看待中国企业的挑战和机遇?

5月22日,2023数字经济(东湖)论坛在武汉举办。在论坛上,复旦大学教授、上海市数据科学重点实验室主任肖仰华对观察者网表示,与国际同行相比,模型、数据和算力并不是中国最大的劣势,真正的短板在于对大模型"炼制"工艺的掌握,包括数据配方、数据清洗和参数设置等等。

肖仰华表示,大模型"炼制"工艺从根本上决定了大模型的效果。但是和OpenAI等企业相比,我们仍有一定的时间差距。但是中国也有自己的优势,比如举国体制。我们可以成立产业联盟多线并进,缩短试错周期。

图源2023数字经济(东湖)论坛

肖仰华还提醒,我们不能因为炒作ChatGPT一个热点,而忽略了具身智能等其他赛道。

值得重视的短板:先进工艺

在肖仰华看来,以ChatGPT为代表的生成式人工智能技术(AIGC),将成为推动我国数字经济进步,实现高质量发展的重要引擎。在ChatGPT之前,人工智能处于不成熟的产业阶段;ChatGPT的出现将人工智能带入快速发展、快速变现的重工业发展阶段。

但在类ChatGPT等大模型领域,中国尚处于起步阶段,需要进一步规划和统筹。

肖仰华认为,大模型产业发展的取决于数个因素。

首先是模型。模型好比功夫中的“内功”,模型越大,潜力越强;其二是算力,这是大模型的核心竞争力,大模型竞争归根结底是算力的竞争;其三是数据。只有高质量的数据,才能喂养出高水平的大模型。不过,它们都不是中国大模型产业的真正短板所在。

图源微软

“我国的大模型产业,在数据上有优势,在算力上有基础,模型本身也不存在什么秘密,我们真正缺的是先进工艺。”肖仰华说。

他解释道,“炼制”大模型的工艺过程至关重要,它包括数据配方、数据清洗、参数设置、流程设计和质量控制等等。它从根本上决定了大模型的效果,是大模型产业发展的重要因素。当前我国大模型产业发展缺乏先进工艺过程,这是短期之内难以跟上的,需要付出巨大代价进行摸索。

数据配方,指的是根据模型的学习目标,确定不同领域、不同类型、不同模态数据的配比;数据清洗,指的是对原始语料进行去噪、去重、过滤、规范化等操作,提高语料一致性、多样性与完整性。

所谓的参数设置,是根据模型的架构和规模,选择合适的超参数,如学习率、批次大小、优化器、激活函数等,这些选择将影响模型训练的效率和效果。

流程设计,是根据模型的训练目标和资源限制,设计各相关组件之间的流程排布、目标设定、训练策略等,提高模型的泛化能力和适应性。

质量控制,指的是对模型的训练过程和结果进行监控和评估,通过准确率、困惑度等关键指标监测,通过对比不同模型或版本的表现,以保障大模型训练的质量和稳定性。

肖仰华表示,上述的每一个具体模块,国内其实都知道怎么做,但是将它们整合在一起,总体效果和国外是存在差距的。“不是能做还是不能做的问题,而是做出来的效果是70分与100分的差别。”肖仰华表示,我们要赶上最后这几十分,要不断试错、评测和改进。

肖仰华对观察者网表示,先进工艺的掌握需要试错,需要时间积累。OpenAI成立于2015年,在2018年投入大模型研发,到今年整整用了5年时间,他们花了很多时间去试错和摸索。即使现在很多中国企业在努力追赶,但是这个“时间差”是一朝一夕难以赶上的。

OpenAI网站截图

但是,中国也有优势:举国体制。

“我们可以把串行的试错变成并行的试错,甚至可以10条技术路线同时试错,”,肖仰华解释道,当一些人在验证某一个路线,那么其他人就不必重复验证该路线,可以转而去验证求索B路线、C路线……这就是中国举国体制的力量。

肖仰华提到,并行试错需要相关研发机构形成联盟,例如算力联盟、数据联盟和技术联盟。如果大家能够做到技术共享、协同研发,就可以把试错的成本大大降低,并显著缩短试错周期。“人家需要用5年,我们可以只用1年。迎头追赶的策略是存在的,关键是我们能不能推动这些联盟的团结。”

“不能为了追随ChatGPT,而错失了下一个ChatGPT”

在采访中,肖仰华表示,ChatGPT越火,我们在AI领域越要比以往更有战略定力。

“我们一定要注意一件事:不能为了追随ChatGPT,而错失了下一个‘ChatGPT’;不能一窝蜂炒作一个热点,而忽略了其他热点。这是我们一定要去防范的。对新出现的热点要在战略上重视,但不能打乱自己的既有布局。”肖仰华说,很多传统的小模型该研究的也得研究,其他IT技术也得继续往前推进。

通用人工智能阶段,其实热点纷呈。除了聊天场景下的ChatGPT以外,还有图文生成,例如Midjourney这样有代表性的产品和公司;还有具身智能——让大模型和机器结合去操纵现实世界,让机器人能够更好地为我们服务。

具身智能(Embodied Intelligence)  图源麻省理工网站

“大家一窝蜂搞ChatGPT,会分散我们的精力,会打乱我们科研的节奏。”

肖仰华解释道,ChatGPT所在的开放聊天存在商业价值,但垂直领域的严肃决策商业价值其实更多。比如医疗领域,各界一直希望能有解放医生的问诊机器人;投资领域,人们希望有投资顾问机器人;司法领域,大家也希望有司法咨询机器人……这些都属于垂直领域的严肃应用场景。

“这些需求不是简单闲聊功能所能胜任的,需要把专业知识、专家经验、复杂逻辑等能力赋予机器或者大模型,这样才有可能解决垂直领域的复杂问题。我们要跟踪ChatGPT技术,更要补齐其不足,积极推动大模型向千行百业落地。大模型赋能复杂决策场景,是未来人工智能产业发展的焦点。”

图源腾讯网站

肖仰华认为,现阶段中国大模型产业存在四个主要问题。

其一,技术同质化严重,很多大模型都是用ChatGPT喂养自己;其二,数据生态不完善。中文数据生态尤其重要,但现在较为欠缺;其三,算力掣肘;其四,模型创新不足,现在很多国内大模型都基于国外的开源社区模型,万一以后被禁用,我们将非常被动。

这些问题值得我们重视和弥补。与此同时,我们也要展开更多思考。例如大模型要想创造价值,其实有两个基本要求:其一是底座模型能力,即上述四个我们应该追赶的地方;其二就是行业应用。

肖仰华表示,国外大模型产业已经形成了一个生态,而且发展非常迅速。反观国内,同质化严重,很多企业都在研究底座模型。其实从我们国家的发展态势来讲,恰恰应该用应用带动底座模型研究。“中国市场巨大、数据丰富,应用场景多元,可以用应用发展来带动模型进步,走一条‘农村包围城市’的路线。”

“我们可以把外围应用和生态做好,不断去补齐数据、算力、模型和工艺方面的短板,最后在技术模型方面形成我们自己的核心竞争力。”肖仰华说,大模型绝不是宣传文案的噱头,也绝不能成为一场华丽的烟花秀,要实实在在地让它成为推动社会发展和进步的先进生产力。

责任编辑:周毅
观察者APP,更好阅读体验

美国胁迫下,阿斯麦CEO最新涉华表态

他张嘴就来:不寻求与中国贸易战,但中企作弊…

乌克兰暗示西方“双标”,美欧:你们和以色列不一样

美国对中国造船业等发起301调查,商务部:一错再错

“令人鼓舞!无法想象没有中国的全球供应链”