肖仰华：国内大模型真正的短板并非数据和算力，而在"炼制"工艺-观察者网

【文/观察者网周毅编辑张广凯】

微软再一次抛出“王炸”。

5月23日，在西雅图的微软Build 2023开发者大会上，微软CEO纳德拉正式宣布，正在为Windows 11添加人工智能助手“Windows Copilot”，用户可以在Windows系统中使用聊天机器人。

在ChatGPT领域，中国此前已有阿里通义千问、百度文心一言、京东灵犀等多款产品。

在AIGC的新风口下，如何看待中国企业的挑战和机遇？

5月22日，2023数字经济（东湖）论坛在武汉举办。在论坛上，复旦大学教授、上海市数据科学重点实验室主任肖仰华对观察者网表示，与国际同行相比，模型、数据和算力并不是中国最大的劣势，真正的短板在于对大模型"炼制"工艺的掌握，包括数据配方、数据清洗和参数设置等等。

肖仰华表示，大模型"炼制"工艺从根本上决定了大模型的效果。但是和OpenAI等企业相比，我们仍有一定的时间差距。但是中国也有自己的优势，比如举国体制。我们可以成立产业联盟多线并进，缩短试错周期。

图源2023数字经济（东湖）论坛

肖仰华还提醒，我们不能因为炒作ChatGPT一个热点，而忽略了具身智能等其他赛道。

值得重视的短板：先进工艺

在肖仰华看来，以ChatGPT为代表的生成式人工智能技术（AIGC），将成为推动我国数字经济进步，实现高质量发展的重要引擎。在ChatGPT之前，人工智能处于不成熟的产业阶段；ChatGPT的出现将人工智能带入快速发展、快速变现的重工业发展阶段。

但在类ChatGPT等大模型领域，中国尚处于起步阶段，需要进一步规划和统筹。

肖仰华认为，大模型产业发展的取决于数个因素。

首先是模型。模型好比功夫中的“内功”，模型越大，潜力越强；其二是算力，这是大模型的核心竞争力，大模型竞争归根结底是算力的竞争；其三是数据。只有高质量的数据，才能喂养出高水平的大模型。不过，它们都不是中国大模型产业的真正短板所在。

图源微软

“我国的大模型产业，在数据上有优势，在算力上有基础，模型本身也不存在什么秘密，我们真正缺的是先进工艺。”肖仰华说。

他解释道，“炼制”大模型的工艺过程至关重要，它包括数据配方、数据清洗、参数设置、流程设计和质量控制等等。它从根本上决定了大模型的效果，是大模型产业发展的重要因素。当前我国大模型产业发展缺乏先进工艺过程，这是短期之内难以跟上的，需要付出巨大代价进行摸索。

数据配方，指的是根据模型的学习目标，确定不同领域、不同类型、不同模态数据的配比；数据清洗，指的是对原始语料进行去噪、去重、过滤、规范化等操作，提高语料一致性、多样性与完整性。

所谓的参数设置，是根据模型的架构和规模，选择合适的超参数，如学习率、批次大小、优化器、激活函数等，这些选择将影响模型训练的效率和效果。

流程设计，是根据模型的训练目标和资源限制，设计各相关组件之间的流程排布、目标设定、训练策略等，提高模型的泛化能力和适应性。

质量控制，指的是对模型的训练过程和结果进行监控和评估，通过准确率、困惑度等关键指标监测，通过对比不同模型或版本的表现，以保障大模型训练的质量和稳定性。

肖仰华表示，上述的每一个具体模块，国内其实都知道怎么做，但是将它们整合在一起，总体效果和国外是存在差距的。“不是能做还是不能做的问题，而是做出来的效果是70分与100分的差别。”肖仰华表示，我们要赶上最后这几十分，要不断试错、评测和改进。

肖仰华对观察者网表示，先进工艺的掌握需要试错，需要时间积累。OpenAI成立于2015年，在2018年投入大模型研发，到今年整整用了5年时间，他们花了很多时间去试错和摸索。即使现在很多中国企业在努力追赶，但是这个“时间差”是一朝一夕难以赶上的。

OpenAI网站截图

但是，中国也有优势：举国体制。

“我们可以把串行的试错变成并行的试错，甚至可以10条技术路线同时试错，”，肖仰华解释道，当一些人在验证某一个路线，那么其他人就不必重复验证该路线，可以转而去验证求索B路线、C路线……这就是中国举国体制的力量。

肖仰华提到，并行试错需要相关研发机构形成联盟，例如算力联盟、数据联盟和技术联盟。如果大家能够做到技术共享、协同研发，就可以把试错的成本大大降低，并显著缩短试错周期。“人家需要用5年，我们可以只用1年。迎头追赶的策略是存在的，关键是我们能不能推动这些联盟的团结。”

“不能为了追随ChatGPT，而错失了下一个ChatGPT”

在对话中，肖仰华表示，ChatGPT越火，我们在AI领域越要比以往更有战略定力。

“我们一定要注意一件事：不能为了追随ChatGPT，而错失了下一个‘ChatGPT’；不能一窝蜂炒作一个热点，而忽略了其他热点。这是我们一定要去防范的。对新出现的热点要在战略上重视，但不能打乱自己的既有布局。”肖仰华说，很多传统的小模型该研究的也得研究，其他IT技术也得继续往前推进。

通用人工智能阶段，其实热点纷呈。除了聊天场景下的ChatGPT以外，还有图文生成，例如Midjourney这样有代表性的产品和公司；还有具身智能——让大模型和机器结合去操纵现实世界，让机器人能够更好地为我们服务。

具身智能（Embodied Intelligence）图源麻省理工网站

“大家一窝蜂搞ChatGPT，会分散我们的精力，会打乱我们科研的节奏。”

肖仰华解释道，ChatGPT所在的开放聊天存在商业价值，但垂直领域的严肃决策商业价值其实更多。比如医疗领域，各界一直希望能有解放医生的问诊机器人；投资领域，人们希望有投资顾问机器人；司法领域，大家也希望有司法咨询机器人……这些都属于垂直领域的严肃应用场景。

“这些需求不是简单闲聊功能所能胜任的，需要把专业知识、专家经验、复杂逻辑等能力赋予机器或者大模型，这样才有可能解决垂直领域的复杂问题。我们要跟踪ChatGPT技术，更要补齐其不足，积极推动大模型向千行百业落地。大模型赋能复杂决策场景，是未来人工智能产业发展的焦点。”

图源腾讯网站

肖仰华认为，现阶段中国大模型产业存在四个主要问题。

其一，技术同质化严重，很多大模型都是用ChatGPT喂养自己；其二，数据生态不完善。中文数据生态尤其重要，但现在较为欠缺；其三，算力掣肘；其四，模型创新不足，现在很多国内大模型都基于国外的开源社区模型，万一以后被禁用，我们将非常被动。

这些问题值得我们重视和弥补。与此同时，我们也要展开更多思考。例如大模型要想创造价值，其实有两个基本要求：其一是底座模型能力，即上述四个我们应该追赶的地方；其二就是行业应用。

肖仰华表示，国外大模型产业已经形成了一个生态，而且发展非常迅速。反观国内，同质化严重，很多企业都在研究底座模型。其实从我们国家的发展态势来讲，恰恰应该用应用带动底座模型研究。“中国市场巨大、数据丰富，应用场景多元，可以用应用发展来带动模型进步，走一条‘农村包围城市’的路线。”

“我们可以把外围应用和生态做好，不断去补齐数据、算力、模型和工艺方面的短板，最后在技术模型方面形成我们自己的核心竞争力。”肖仰华说，大模型绝不是宣传文案的噱头，也绝不能成为一场华丽的烟花秀，要实实在在地让它成为推动社会发展和进步的先进生产力。