李聪廷:通用大模型被少量科技巨头掌握,AI能带来技术和知识平权吗?

来源:观察者网

2023-05-23 08:48

李聪廷

李聪廷作者

宇视AI首席科学家

2023年迄今为止最热门的话题,莫过于ChatGPT。大语言模型和由此带来的AIGC技术,将带来一场技术平权和知识平权。AI技术将不再是AI公司、行业巨头们的专属。5月9日,宇视科技CEO张鹏国在乌镇的一场演讲中,将这比喻为从繁体字到简体字的变革。在AIoT合作伙伴峰会上,宇视发布了行业大模型“梧桐”。

为什么一家并非互联网大厂,而是物联网行业以摄像头等硬件设备闻名的企业,也把AIGC技术作为业务的试验场?AIGC会改变物联网行业,进而在社会生活中改变我们在社会管理、交通管理等诸多场景中的面貌和格局吗?

带着这些疑问,观察者网和宇视AI首席科学家李聪廷聊了聊AIGC对物联网和社会生活的影响。

《流浪地球2》中的宇视设备

观察者网:如何理解“小模型+大样本”变成“大模型+小样本”的趋势,是不是有业务场景的用户,因为更低的数据标注和算法训练成本,能以更低价格用得起AI解决方案?比如我们媒体想用一个大模型来开展AIGC业务,如辅助新闻写作、鉴别假新闻等,但我们经费不多,可以提供喂食的行业数据也有限,是不是我们链接一个“大模型”的底座,真正需要针对我们业务特点重新调整的成本就很低了,是这个意思吗?

李聪廷:对。回顾过去“小模型+大样本”开发模式,一个高精度的模型,训练参数量在百万级,训练样本量在几十万级,最高可能到千万级。几千或几万也可以生成模型,但精度不够高、场景适应性不够好。总的来说,“小模型+大样本”开发模式,研发门槛高、成本高、周期长。

通用大模型本身,是基于海量数据训练起来的,数据量远远多于小模型的训练数据量。通用大模型可以做的工作非常多,特别是在创作领域。但我们AIoT行业,绝大多数应用需要的是精确,而不仅仅是“全能”,通用大模型的精度受限会使得在AIoT行业难以应用。

因此我们创新的提出行业大模型的模式,所谓行业大模型即“通用大模型+行业场景+训练调优”,扬长避短。行业大模型将开启“大模型+小样本”的新模式,经过少量的来自行业场景的小样本学习,即可取得一个比较好的精度;同时由于受限应用场景,模型参数量又会比通用大模型小很多,意味着边缘端部署成为可能。

您提到的辅助新闻写作、鉴别假新闻应用,理论上也是可以通过这样去做。所以未来可能会有很多垂直的行业大模型的公司来解决行业应用问题。

科技巨头生成通用大模型,以通用大模型为底座,垂直行业公司提供行业大模型,这将会是未来比较务实和普遍的方式。大家不用重复造轮子,新的AI模型开发和应用模式将降低AI应用落地的成本。

观察者网:如果这个趋势成立,用户用很低的代价就可以接入到大模型的底座上面,享受他的服务,那么确实会掀起一场AI平权的革命,涌现出许多新业态。从我们媒体行业看,许多角色身份、生产关系可能变革,比如机构和个人的内容生产力可能被渐渐拉平了。在AIoT行业可能会出现什么特征,会不会更加碎片化,对你们来说这是好事吗?

李聪廷:AIoT行业的特点是碎片化,过去只有不到10%的AI需求被满足,有的因为技术难以实现,有的因为实现代价太高、商业不闭环。

行业大模型的“大模型+小样本”新开发模式,一是因为大模型涌现的超强理解和逻辑能力使得过去有的技术难以实现的需求,能被实现了;二是需求实现的门槛降低、效率提升,使得商业闭环的概率大幅提升。因此,预计未来AIoT行业的50%的需求能被实现,其中只有20%会由宇视这样的解决方案和设备商实现,剩下30%由合作伙伴实现。

AI技术平权,对参与企业都是机会。能做的需求和应用更多,而且能让合作伙伴自己拥有差异化控制点,更好满足客户需求。

相信这样的变革不仅仅会发生在AIoT行业,也会发生在媒体行业,甚至各行各业。

AI绘制特朗普被捕的假照片

观察者网:AI平权和AI生成内容的泛滥肯定会带来一些问题,比如代写论文和作业、编造假新闻……而在物联网行业,则面临伪造的物理或生物信息造成的安全隐患。矛和盾的需求会同步增长,在反AIGC的方向上,目前的技术储备如何,盾能跟得上矛现在迅猛发展的势头吗?

李聪廷: 无论是恶意还是无意,AIGC的确存在“造假”的副作用,而且对我们“打假”的技术手段提出了更高的要求。

对“无意”的“造假”,我们更多的是从行业大模型本身去优化提升。比如,我们在问chatGPT这样的通用大模型推荐一款宝宝看家的摄像机时,它给的答案是有一些误导性的。经过AIoT行业场景训练调优的行业大模型,可以给出更“精确”的回答。

对“恶意”的“造假”,这更多需要我们反AIGC技术去鉴定、识别、阻止造假。举个例子,AIGC技术可能通过一张2D照片生成动态的人脸表情,从而骗过金融场景中的人脸验证环节,带来安全隐患。现阶段,反AIGC技术有一些人在研究,但仍是一个较小众的市场,但随着AIGC技术的普及,反AIGC需求的增长,必将拉动反AIGC的技术迭代,更多的科研机构和厂商投身其中。辩证的看,矛与盾的攻防,促进两类技术的快速迭代,技术水平螺旋上升。

观察者网:你们这次发布有提到智能vlog,能解释一下这个业务逻辑吗,是否意味着AIGC业务也能用到你们的梧桐大模型?

李聪廷:很多年轻人,去景区、乐园玩,希望把个人游玩的精彩瞬间记录下来、与景区沉浸式视觉体验融合,形成一段炫酷的小视频,最后与朋友分享、发朋友圈、发抖音等。

宇视的VLOG产品,很好的满足了这方面需求。它本身是基于景区和乐园场景的AI自动剪辑。AIGC大模型技术带来的变化是,将来我们可以将一些更加有趣炫酷的生成特效融入其中。

例如,一家三口出游,我们可以融入米老鼠等动漫明星;又比如,单身出游,把遗憾未能出行的女朋友虚拟地融入进去。梧桐的多模态行业大模型,第一个落地产品就是VLOG,将来用户可以有更多的玩法,更好的体验。当然对于合作伙伴来说,更多的流量、更多的收益分成。

观察者网:因为我们是媒体,我们可能也有这方面的需求,比如说你们通过学习主持人,过往讲的所有的内容,然后再生成一个他的一个数字孪生。下一次我们只要输入文本,你们就能生成主持人,用他的数字孪生来播讲内容,呈现画面和声音,这个是能做到的吗?

李聪廷:虚拟人数字孪生,这个概念出现的比较早,前几年“元宇宙”兴起带动了虚拟人数字孪生的发展,市面上有不少类似产品。但坦白的说,现在的技术效果普遍不够好,还有很多地方需要提升,此外,生成数字孪生人的成本需要降低。AIGC大模型,将大幅提升数字孪生人的体验和效果,这个只是时间问题。

观察者网:对,但是我们媒体可能有大量的需求把文字视觉化,比如说文本其实我已经有了,不需要生成,但是我需要把这些文章变成一段视频,可能需要一个虚拟人来把它讲出来。像这样的业务,你们有没有考虑过和媒体合作。媒体用户有大量这样的需求。

李聪廷:目前市面上已经有一些类似产品,只不过效果不够好,AIGC大模型技术还没有得到应用。随着AIGC大模型技术的逐渐产业化落地,将来效果一定会越来越好。我们在媒体创作领域不是专家,直接深入并提供最终产品的挑战大。目前先聚焦本身的AIoT赛道是比较务实的做法,将来有机会可以考虑拓展媒体创作领域的机会点。

观察者网:物联网能采集到的信息,模态是非常丰富的,有物理上的声、光、热、电信息,还有各种化学、生物、地理信息。因为我们生活的场景本身就是多模态的环境。过去AI只能解决一些标准化的问题,比如人和车的识别。而通过大模型,这些沉睡的多模态数据如果盘活,是否意味着,未来更多复杂业务都有可能落地实现了?能设想几个过去还难以想象的案例吗?

李聪廷:我觉得未来肯定会有一些复杂的业务会被实现。例如,GPT-4举的例子非常典型,它可以理解“VGA端子插入手机充电口的笑话”,这在过去是无法做到的。我们可以通过大量的训练学习,识别VGA端子、识别手机,但我们很难具有“VGA不能插入手机”这样的常识。大模型的理解力非常惊人,意味着过去一些技术难以实现的需求,可能被实现。

多模态,引入更多信息,这些信息的引入,在过去大部分时候是无效的,准确的说,是“无力”。因为过去,AI无法理解视频中的内容,只是对视频中的人和车的检测识别,更不用说多模态的理解应用了。举个例子,跌倒检测,躺在地上的人,和靠墙站的人,在相机画面中,通过人本身是很难区分的。他们都是头朝上,脚朝下。但引入大模型技术后,我们可以通过结合判断周围环境如桌椅的摆放等,区分人是躺在地上还是靠墙站。多模态引入更多信息,意味这将来能实现更复杂的AI需求,精度更高。

观察者网:因为各种安全和隐私保密限制,物联网数据不像互联网数据那样容易公开获取,要唤醒沉睡的行业数据,让越来越多的公司张开怀抱去拥抱人工智能,目前在顶层设计上还要解决哪些问题?

李聪廷:首先,合法合规是所有商业和产品落地的前提。顶层设计上,国家、国际上都出台了相应的数据安全保护法律。

第二,数据隐私是有分级的,像人、车牌等信息是高度涉密的,厂商不能轻易获取、留存。但有一些数据,如行为动作类、物体识别类、缺陷检测了,在经过合规评估后,是可以进行使用和训练学习的。

第三,我们前面提到的梧桐行业大模型,他本身是开放能力的。对于设计安全和隐私的场景,我们会交给客户自己去定义算法,数据在客户自己手上,我们只是提供能力。

观察者网:物联网的另一个特点是边缘的算力有限制,计算放在云端又有时延,这会制约AIoT+多模态大模型吗?最后会撮合出不那么大,但更适合行业的“大模型”吗?

李聪廷:现阶段,云边端都有大量AI落地,分工上,普通的AI任务在边和端落地为主,这样做更经济;一些复杂的AI任务在数据中心侧落地。

AIoT行业目前大多数AI应用的时延在可接受范围内。随着AI算力的提升,时延会越来越小。

AIGC大模型一开始在数据中心侧落地为主,加上本身计算量比较大,一定程度上会加大这个时延。这个时延大部分场景是可接受的,毕竟不是自动驾驶这类对时延极其敏感的场景。

另一方面,行业大模型的参数量没有通用大模型的参数量那么大,在边缘侧的部署应该很快就会到来。时延会比数据中心侧进一步降低一些。

总的来说,时延在AIoT行业应用,绝大多数场景,不是关键问题。

观察者网:您预计一下边侧是要全部升级改造吗?

李聪廷:从长线看,一定会升级,全部换代掉。但周期不是一蹴而就的,因为AIoT行业是比较碎片化的,它的款型都是有几千款甚至上万款,这个周期我觉得会非常像上一个12年到22年这样的10年周期,像深度学习对行业的第一次变革那样。预计10年后,几乎所有的AIoT产品都或多或少用了AIGC行业大模型的能力或技术。

观察者网:现在各家都在宣传模型的参数量,特别是语言模型,从AIoT行业的应用落地看,模型的参数量是越大越好吗?

李聪廷:这需要结合场景和应用来看。传统的人、机、非检测识别,周界类行为分析,小模型已经做的非常成熟了,够用了,短期内使用大模型必要性不大。对于其它长尾AI需求,大模型很有意义。但大模型也不是参数量越大越好,AIoT行业用自己的行业大模型就好了,参数量几十亿规模,不需要通用大模型动辄上千亿参数规模。最终,还是效果为王,不是参数量越大越好。另外,产业落地,成本始终是一个重要因素,要结合成本去定义产品和应用。

观察者网:如果你们去选不同的大模型底座,去接入,那么你们会用什么角度来评判和选择?

李聪廷:结果说话、实验数据说话。现在的“千模大战”,整个环境比较乱,大家很难看清真相。原创的通用大模型主要还是掌握在少量的科技巨头手里,前面也提到,算力、算法和数据的门槛很高,绝大多数企业无法企及。因此,也有不少企业是做行业大模型,构建在通用大模型之上。宇视是AIoT行业最早提出并发布行业大模型的厂商。当然,也有一些可能是基于插件或开源模型做应用的。不管哪种模式,最终都是以谁能提供最优的产品和服务,谁能最先落地为考量项。

观察者网:在AI的应用落地中,容错率是一个关键考量。车辆识别假如说我们做到99%的正确率可以接受,技术上也能成立,那么落地就比较容易。AI帮我们听写一篇文章,再生成大纲,可能80%的正确率用户就比较能接受,而在80%这一档的潜在应用可能不少,许多事情能够替代最繁琐机械的一部分,用户可能会接受20%的错误率,因为检查出这些错误额外投入的精力依然是划算的。而80%在技术上会大大增加可行性。互联网的思维一直是找到更多这样的应用场景,让技术先用起来,在使用中迭代改善体验,但物联网的容错率一直是很严苛的,很难用这种思路落地。AIGC+AIoT产生的新生态,能改变这种局面吗?

李聪廷:很好的问题。精度越高越好,这个没问题。但并不意味着,只有99%甚至更高的精度才能落地、才能商业化。很多场景,AI作为人工的辅助工具、效率的提升工具,也是很有意义,也可以商业变现。特别在我们这个AIoT行业,很多场景对精度的要求没有那么高,不像自动驾驶应用那么的苛刻。当然,精度太低也不行,那就不是效率提升工具,而是一个制造麻烦的工具。

技术提升,一是效率提升,二是创造更多商业机会。回顾车牌识别应用,早期在交通违法上应用,哪怕只有30%的违法捕获率,对交警人工现场执法来说也是巨大的效率提升。后来,园区和商场出入口得到应用,识别率98%,已经很高了,但是仍然离不开人工,因为每100辆车就有2辆车需要人工处理异常。而今天,识别率已经可以做到99.9%,很多出入口场景已经是无人值守了,偶尔几起异常通过远程呼叫可以解决。这是效率提升。从商业机会来说,以前没有出入口产品、解决方案、配套运维、服务等,是因为AI车牌识别这个工具的出现,创造了这个市场。

AIGC大模型技术也不例外,工具的提升,带来效率的提升,进而创造更多的商机。

本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。

责任编辑:朱敏洁
观察者APP,更好阅读体验

以色列警告美国:一旦逮捕令下发,我们就对它动手

涉及俄罗斯,美国又对中企下黑手

内塔尼亚胡警告布林肯:以色列不会接受

“这是美国自信心下降的表现”

“美国没料到遇上中国这样的对手,出现战略失误”