华为战略研究院院长：AI能力快速提升，但还面临三个重要挑战-观察者网

（编辑/吕栋）

大模型的爆火，让人工智能（AI）再度成为火热的话题。4月19日，观察者网在华为第20届全球分析师大会上了解到，华为战略研究院院长周红分享了在人工智能领域最新的观点。

他认为，在AI能力快速提升的情况下，需要考虑AI的目标如何与人类一致、并且正确和高效地执行。除了通过规则和法律来加强AI的伦理和治理外，从理论和技术的角度看，要达到这些要求，目前还面临三个重要的挑战：AI的目标定义、正确性与适应性、效率。

“缺乏共识的目标定义，没有定义清楚并达成共识，就很难确保AI发展的目标与人类一致，也很难合理地分类和科学地计算。”周红表示，人工智能在历史上有不同的流派，例如符号主义、贝叶斯主义、进化主义、行为主义，以及连接主义等，它们还没有很好地融合起来，缺乏共识的目标定义是重要的原因之一。

那该如何牵引人工智能发展？周红表示，在通信和计算两大基石的驱动下，从狭义人工智能，到通用人工智能与超级人工智能的过程中，首先要通过理论和技术的不断突破，来实现万物智联，促进社会的进步；其次要勇于拓展思想的边界，增强对智能的认知和掌控能力；最终，用正确的目标和有力的手段，牵引人工智能的发展，助力人类超越极限，增强生命，创造物质，控制能量，跨越时空，实现人类文明的进化。

周红从经验、知识到智能，提出面向智能世界的假设和愿景。他认为：“未来通信和未来计算是迈向智能世界需要解决的两大核心问题。在通信领域，今天的我们有条件超越香农定理最初的假设和应用条件，实现超越十年百倍的发展。在计算领域，方向是新的计算模式、架构与部件，提升对智能的认知水平和掌控能力，并在AI for Industry和AI for Science等应用中不断迭代发展”。

华为首届分析师大会于2004年举办，至今已连续举办了20届。本届大会以“跃升数字生产力，加速迈向智能世界”为主题，与全球1000多名行业与产业分析师、财经分析师、意见领袖及媒体等，共同探讨前沿趋势、产业发展策略、行业数字化方向。

图源：观察者网

以下是周红演讲实录：

女士们、先生们，大家好，欢迎参加第二十届分析师大会。今天我和大家分享的题目是，建设智能世界的假设与愿景，从经验、知识到智能。

上一届大会上，我们分享了走向未来智能世界的科学假设与商业愿景，ICT技术将可能对人的健康和幸福、AI普及应用与自动和智能的机器、绿色可持续发展的环境、虚实融合的数字世界等做出更大的贡献。

面向未来，我们提出了十个问题和挑战。在过去的一年中，我们与学术界、产业界沟通，与科学家、客户交流，探讨了迈向智能世界需要解决的两大核心问题：未来通信和未来计算。

今天，我将重点分享在这两个问题上的一些思考。

首先是在通信领域，香农在75年前提出了3个定理，第一定理是可变长无失真信源编码，第二定理是有噪声情况下的信道编码，第三定理是保失真度下的信源编码。在第一和第三定理中，香农假设信源是离散无记忆的，当时通信采用的是经典极化电磁场，传播环境比较简单，没有考虑高楼大厦林立的场景。

上个月，我和香农奖的获得者，Erdal Arikan教授讨论，在香农定理提出后，又有很多新的发现，比如：

第一是1987年Durnin发现具有自愈性的非衍射波束可以绕过障碍物而继续传播；2007年，人们第一次在实验室观察到中心能量可以转弯的艾里波束。

第二是1992年，Allen发现轨道角动量OAM电磁场传播是螺旋相位光束的自然属性，理论上在同一方向上有无数个正交量子态。

第三是1994年，Jerome Faist等人做出来第一个量子级联激光器，一个量子级联激光器现在可以同时产生三百多个波长，如果每个波长可传800Gbps的话，一个激光器就可以提供超过200Tbps的传输能力；2018年，Gerard Mourou因为发明飞秒激光器获得了诺贝尔奖，飞秒激光器以及后续可能实现的阿秒激光器，在理论上每秒可能发出1000T的脉冲。

第四是2016年AlphaGO推出之后，人们发现可以通过大模型来很好描述具有先验知识的世界，这个世界的很多信息并不是离散无记忆的。目前学术界已经有一些这方面的探索，比如这两年比较热的语义通信。

第五是2018年，5G的MassiveMIMO规模商用后，在城市高楼林立的复杂传播环境中，可以通过利用很多独立传播通道来大大提升通信的容量。

所有这些新的现象、新的工程能力和新的应用环境，都是75年前人们不了解的、也不在假设中。因此我认为，在未来的通信上还有很大的发展空间，我们有可能改变香农定理最初的假设和应用条件，实现超越十年百倍的发展。

通信网络是建设智能世界的基础，我们要实现成百上千倍的提升，就必须敢于打破既有理论与技术瓶颈的条条框框，才能大踏步前行。

其次是计算。在过去的几年中，我们看到智能应用的迅速发展，尤其是通过AI模型优化可能帮助解决应用碎片化的问题，这也引发了模型规模的爆发式增长。过去十年，AI算法的算力需求提升了四十万倍。

麻省理工的Max Tegmark教授在《生命3.0》书中，给出了一个AI能力地图。目前在山脚处很多能力上，AI已经超越人类，比如死记硬背、智力问答和下棋，大家知道，1997年AI打败了国际象棋世界冠军卡斯帕罗夫，2011年AI获得了《危险边缘》智力节目冠军，2016年AI打败了前围棋世界冠军李世石。在山腰上的一些能力上，人们还在不断研究提升中，例如自动驾驶、图像识别、语言文字处理等，当前AI在语言文字的学习、理解和生成上表现出来的能力，超出了很多人的想象。在接近山顶的能力上，例如软件编程、科学研究、定理自动验证和自动证明等，学术界和产业界已经有一些探索。，随着计算模式的不断优化、算力的不断提升、有了更多和更准确的数据，AI将能更好地服务于人类社会的进步。

在AI能力快速提升的情况下，我认为需要考虑AI的目标如何与人类一致、并且正确和高效地执行。除了通过规则和法律来加强AI的伦理和治理外，从理论和技术的角度看，要达到这些要求，目前还面临三个重要的挑战：AI的目标定义、正确性与适应性、以及效率。

图源：观察者网

AI面临的第一个挑战，是缺乏共识的目标定义。杜克大学的物理学家Adrian Bejan教授在《生命的物理学》书中，列出了对智能的二十多种目标定义，有的强调理解和认知能力、有的强调学习和思考能力、有的强调适应和行动能力等等。

如果没有定义清楚并达成共识，就很难确保AI发展的目标与人类一致，也很难合理地分类和科学地计算。人工智能在历史上有不同的流派，例如符号主义、贝叶斯主义、进化主义、行为主义，以及连接主义等，它们还没有很好地融合起来，我认为缺乏共识的目标定义是重要的原因之一。

其次，在当前的很多AI应用中，存在正确性和适应性的挑战。

依靠大数据统计规律进行的学习，会依赖于采样的覆盖面和数据的正确性，如果错误使用，就可能导致结果不稳定和偏见的风险，出现“黑天鹅”事件。

比如用统计和相关计算模式来识别香蕉，如果我们在香蕉边上放一些其他图片，识别结果可能从香蕉变成烤箱，中间还有一定的比例是鼻涕虫；熊猫图片加上一些肉眼几乎不可见的小噪声，也可能被识别成长臂猿。这些图片用人眼来看是一目了然的，但是人工智能为什么会犯错，这很难解释。因为AI的能力分布在巨大的参数中，出了这些问题，我们既无法解释、也难以调试。

第三个挑战是AI的效率。

首先我们看看能效。从2022年第60届全球超级计算机Top500中看到，排名第一的Frontier，计算性能约1102PFLOPS，能耗是2千1百万瓦；排名第二的Fugaku，计算性能约442PFLOPS，能耗是3千万瓦，而相比之下，人脑只需要约20瓦就能等效实现30PFLOPS的计算性能。可见当前这些超级计算机单位能量的计算效率，要比人脑低大约三万倍到十万倍。除了人脑外，高效智能在动物界普遍存在，比如乌鸦大脑只用0.2瓦的能量，就聪明到将核桃衔到高空扔到水泥地上砸开，有一次我在柏林的阿尔伯特∙爱因斯坦大街上逛，差点被乌鸦从高空扔下的核桃砸中，在这张照片上，作为补偿，我抢了乌鸦的半个桃仁来吃；乌鸦还会将铁丝掰弯做成钩子来钩东西吃，它在观察环境、适应环境、解决问题上的能力，远不是当前的AI能比拟的。

其次是数据效率。我们除了通过从大数据中得到统计规律，来认识和理解世界外，能不能从小数据中进行思考，发现逻辑性，形成概念，抽象出原则？

面对这三个挑战，如何进一步寻求突破呢？我建议从实用的角度，来发展知识和智能。如何通过从外部环境和我们自身的事实和现象中，归纳抽象出概念和属性、及其关系和运行规律，来形成知识？按柏拉图的理念，知识应该是被验证过的、正确的和被人们相信的。能不能提升达成追求或者目标的能力，来发展智能？具体来说，可以通过感知与交互、计算或者试错，在复杂的环境和有限的资源下达成目标。我们要通过智能来认识环境、适应环境，甚至改造环境以及我们自身，其正确性、适用性与高效性就很重要。从已有大数据中提取概率分布来进行拟合和推演，是实现智能的一种手段，除此之外，我认为智能也要考虑因果推理、给出假设和进行试错，提出问题和创造性地解决问题等。

近几年学术界有很多跳出Transformer之外的新型AI架构的思考，例如Geoffery Hinton的GLOM模型，建议通过各种学习方法，实现从部分到整体，类似人类的感知系统；Yoshua Bengio建议未来的人工智能由基于直觉的System1模型和基于逻辑与归纳的System2模型组成；Yan LuCun建议以自监督的方式来学习世界模型，然后利用这些模型进行预测、推理和规划；Richard Sutton提出基于经验的AI，通过与环境的交互而获取经验，构建AI的目标和整个世界的状态，使得智能体可以学会与环境沟通、合作和竞争。

哈佛大学Howard Gartner教授把人类的智能分类成八大类，包括语言文字、视觉与空间、自然理解、自我认知、人际关系、音乐、运动和数理逻辑。

图灵奖教授Joseph Sifakis提出自主系统概念。

我建议在这些思考的基础上，发展感知与建模、知识自动生成、求解与行动三个核心部分，通过从多模态感知融合与建模，到“知识+数据”驱动的决策，实现更高正确性与适应性的自主智能系统。感知与建模是对外部环境以及自身的表征与抽象；知识的自动生成应该将吃穿住行、琴棋书画、数理化生等人类能表达与不能表达、能感知和不能感知的知识都考虑进来，要考虑Human in the loop，将人已有的经验融入到策略模型或评价函数当中；求解与行动可以是在已有知识的基础上，结合内外部信息进行直接的演绎推理，或者通过与环境交互试错，来找到解决办法。

希望未来的自主智能系统，更好地支持自动驾驶网络、自动驾驶汽车、云服务等领域。

其次是发展更好的计算模式，以及与之匹配的计算架构与计算部件，来持续提升智能计算的效率。

我和菲尔兹奖教授Laurent Lafforgue讨论，当前在视觉与空间计算上，往往采用像素点来表达物体，但是绝大部分物体的识别与其像素点的颜色没有直接的关系，甚至是毫无关系，它们在不同的光下呈现不同的颜色，因此建议增加几何流形来进行表达和计算，看看能不能用很小的数据量来抓住物体的不变性。

EPFL的Gestner和Kistlei等写了一本《神经动力学》的书，介绍了大脑皮层的功能柱、以及功能柱中的六层连接情况，这样的浅度神经网络架构，会不会比深度网络更高效？

另外，从实现的角度看，在当前的很多AI计算上，面临存储瓶颈的问题，我们往往要花比计算多上百倍的时间来读写与搬移数据，今后能不能抛开传统的冯·诺依曼架构的处理器、指令集、总线、逻辑器件和存储器件，围绕先进AI计算模式的需要来定义新的架构与部件？

接下来我和大家分享华为在AI领域所做的一些探索。首先是AI4Industry，通过行业大模型促进价值创造。我们在视觉、语言文字、图网络、多模态等专用L0基础大模型之上，形成L1行业专用大模型，来降低开发门槛、提升泛化能力，解决应用碎片化的问题，推动从“作坊式”走向工业化升级，帮助电力、煤矿、交通、制造等重要行业，提升作业效率、提升安全性。比如，在煤矿场景，华为帮助客户通过模型训练与推理，来实现瓦斯浓度的超前预警、作业序列的风险防范、以及作业质量的智能验收；华为的智慧港口方案，已经在天津、青岛、上海、深圳等港口实现智慧化应用。机场与轨道军团在呼和浩特、武汉与深圳与伙伴们一起探索机场、铁路与地铁的现代化智联。

图源：观察者网

另一方面，AI4Science的发展也可以极大帮助提升科学研究的能力。

比如，我们通过构造新型的、地理信息3D Transformer编码结构，以及层次化时域聚合方法，推出盘古气象大模型，通过更精准、高效的学习与推理机制，从大自然历史运转出来的数据中提取出全球气象先验知识，代替传统科学计算的超大规模偏微分方程的时序求解，从而可以实现快速完成全球未来1小时到7天的天气预报，预测精度比欧洲中期天气预报中心高20%以上。在这两张台风轨迹图中，蓝色轨迹是欧洲中期天气预报中心给出的预测，实际路径是黑色轨迹，我们的预测的路径是红色轨迹，可以看出，这个预测非常接近实际情况。

再比如制药领域，药物靶点发现是药物研发过程的关键问题。传统的分子对接计算方法效率高，但是没有考虑蛋白质的柔性，导致搜索空间小，寻找到的靶点少；而分子动力学模拟考虑了蛋白质的柔性，但是计算量非常大。我们的专家与北大教授一起提出了基于元动力学的靶点发现和构象搜索算法，加速小分子遍历蛋白质的过程，对同样的构象搜索，传统方法需要37天，我们只需要6个小时，提升了150倍效率。

在软件编程上，除了用传统AI在大量已有代码中进行检索和推荐外，我们也在发展科学的模型驱动和形式化方法。尤其是在大规模并行化的情况下，很多处理是相互纠缠和前后关联的，我们探索出了一套名为Vsync的方法，实现了操作系统内核的自动化验证和并发代码优化，在提升性能的同时也确保可靠性。2015年Linux社区发现了一个很难的内存屏障Bug，社区专家花了两年多才修复，而使用我们的Vsync方法，仅用20分钟就发现并修复了这个Bug。欧美一些学校和公司都来寻求Vysnc方法的合作。

在Linux社区，对Kernel版本的补丁修改贡献上，我们在2020年的5.10版本，2021年的5.14版本，以及2022年的6.1版本上，做到全球贡献第一。

图源：观察者网

我们也通过新的AI计算模式，来研究定理自动证明问题。比如拓扑斯理论有助于探索范畴证明、同余推理系统、自动理论导出，提升定理证明器的水平，希望解决形式验证中的状态爆炸问题和自动模型抽象问题，增强形式验证能力。

我们也在探索基础计算部件的重构。比如加法和乘法在学术界和产业界目前还不知道复杂度能降到什么程度。两个二进制数相加，可能面临不确定次数的进位问题，从而消耗大量的时间和能量。早在一千多年前，南北朝时期的《孙子算经》，南宋时期的《数书九章》中提到过余数定理，现代数学家也在60多年前提出过将普通的数变换为MSD数来进行计算，避免进位的发生，但是这个思想因为有一些实际问题而没有被产业界接受。我们希望解决实际应用中的变换效率以及溢出等问题，重构最基本的加法和乘法，提高计算的效率。

在走向智能社会的过程中，可能有超过百倍、甚至千倍的信息需求增长，现有的很多理论和技术已经遇到瓶颈，难以支持未来的发展，因此我们积极推动科学假设与商业愿景牵引的创新，在通信上，大胆探索有别于香农定理的前提条件和应用场景；在计算上，进一步明确人工智能的目标定义、提升正确性、适应性和高效性。

在通信和计算两大基石的驱动下，从狭义人工智能，到通用人工智能与超级人工智能的过程中，我们首先要通过理论和技术的不断突破，来实现万物智联，促进社会的进步；其次要勇于拓展思想的边界，增强对智能的认知和掌控能力；最终，用正确的目标和有力的手段，牵引人工智能的发展，助力我们超越极限，增强生命，创造物质，控制能量，跨越时空，实现人类文明的进化。

我们将这些面向未来的思考放在黄大年茶思屋网站上，促进开放的探讨交流，希望能与伙伴们一起，开展相关的基础科学研究与技术创新，重构基础理论、重构架构、重构软件。同时我们也赞助青年学者，并在ICPC、IMC、以及其他全球学生奥林匹克竞赛中，分享这些挑战和方向、赞助学生训练营、激励和培养更多的未来领军人才。

我们正在快速奔向智能社会，面对无穷的可能性，我们所有的想象都是保守的。在征服星辰大海的道路上，一切的不可知和不确定性，都会使我们变得更加强大。期待和大家一起应对挑战，共同开创更美好的明天！

谢谢大家！