曾 毅 袁佛玉
2024年1月7日,第二十五届北大光华新年论坛在bat365在线平台网站百周年纪念讲堂举行,本届论坛的主题为“增长动能中国探索”。中国科学院自动化研究所人工智能伦理与治理中心主任、联合国人工智能高层顾问机构专家曾毅出席论坛并发表题为《从科学与社会视角推进新一代生成式人工智能的发展与治理》的演讲。百度集团副总裁袁佛玉发表了题为《生成式AI,进入智能原生时代》的演讲。
观点概览
Ø 曾毅:未来需要推进新一代生成式人工智能的科学突破,目前并没有真正意义的通用人工智能的存在,在有效理解、识别和划分任务方面,尚存在本质性的问题瓶颈。他表示,基于人工智能的现状,特别是风险安全伦理方面的发展捉襟见肘,不必使人工智能无所不在,而应在发展中秉持智能向善的理念,负责任的稳健发展和适度的使用,才能够使人工智能扬帆远航。生成式人工智能未来的发展应当聚焦于:从数据驱动的人工智能发展到自然机制驱动的人工智能,从合乎伦理到拥有道德,从人工智能与人类价值观对齐,到人与人工智能的价值协。
Ø 袁佛玉:技术真正的价值只在于应用。没有构建于大模型之上的繁荣的产业应用,大模型本身就毫无价值。生成式AI正式进入了拼落地、拼应用的“下半场”,当下就是最重要的应用创新窗口。生成式AI带来的全新机会在于用好AI智能涌现之后出现的理解、生成、逻辑和记忆四大核心能力,去创造出过去没有过的全新的用户体验、更高的生产效率。
一、曾毅:从科学与社会视角推进新一代生成式人工智能的发展与治理
当代生成式人工智能是工程技术的组合创新,以及在用户体验方面带来了前所未有的显著提升,但它确实尚未形成本质性的科学突破。因为当代生成式人工智能最基本的思想是人工智能领域几十年前奠定的,真正在科学上的突破并不是这几年,当代生成式人工智能憧憬的通用人工智能的科学突破也还尚未到来。面向未来,应当从科学与社会角度来审视和推进生成式人工智能的发展。从科学角度讲,未来需要推进科学意义上的新一代生成式人工智能。从社会角度讲,生成式人工智能未来发展为基础设施的重要组成部分,推进社会发展,那么传统的人工智能研发者就需要加强社会维度的认知。
我举例说明,通过文字交互,何谓和谐共生?ChatGPT给出的答案确实是更新了我们传统意义的和谐共生。用它生成的和谐共生的画作看起来也确实抓住了和谐共生的意义,但是当对比文字和图像的时候有一个非常有趣的现象,文字生成的结果并没有缺乏人的因素,但图像生成的结果中并没有人的存在,这不禁引发我们更深入的思考。从这样的案例可以看出我们已经可以受益于技术的进步。
然而另外一方面,实际上它还并未形成真正的理解。很多人说生成式人工智能确实有理解,如果没有理解怎么能够做生成的任务,所以我再举一个例子。我们不是所有的场景下都需要生成。大家记得,当最开始生成式人工智能在互联网上为大家提供服务时,用它去查阅参考文献,它给出的参考文献没有一篇是真实存在的,因为输出的所有参考文献的名字都是生成的。在这种情况下,一个生成式人工智能并不能够区分何时不需要生成,这个实际上就是看似智能的信息处理工具实则并不拥有真正的智能所存在的问题。
不同生成式人工智能服务对“生成一张包含和谐共生四个字的楷书作品”请求的输出比如说回到和谐共生的例子,如果现在问题变成“生成一张包含和谐共生四个字的楷书作品”,结果却看到,不管是英文的生成式人工智能,还是来自中国的生成式人工智能服务,都没有去抓住需求背后真正的意义。生成出的哪一幅图上都没有“和谐共生”四个字当中的任何一个字,甚至没有可识别出的文字,所以这就是为什么说目前缺乏理解的生成式人工智能,尚需有效理解、识别和划分任务。
当代数据驱动的人工智能是输入的数据对应预期的输出,可以发现一种数学优化方法和模型来从数据输入拟合到期望的输出。生成式人工智能系统所期待的给定任务理想化地认为应该是个完全生成的任务,但是真实世界中实际的需求不是这样的。所以人工智能的生成式模型不等于是人工智能的基础模型,而基础模型也不仅仅提供生成式的能力,在很多时候它首先要去区分和划分什么样的任务需要生成,什么样的任务不用生成或进行受限的生成,而从人工智能来看,我们不需要生成的这种判别式的人工智能,还只是人工智能可能输出的一种,可能还有很多其他类型。必须讲到生成式人工智能确实并非通用人工智能的雏形,它更非人工智能的基础模型。所以面向通用人工智能的人工智能基础模型,确实需要能够自主地、有效地识别、理解、划分和解决任务。
人工智能诞生之初有关通用问题求解器的研究就指出:一切的问题都能够被形式化为逻辑的话,通用问题求解器可以解决世界上所有的问题。但实际上,将一个问题自主的描述划分为一个可解的问题,在这一部分的进展,60年以来人工智能领域没有任何实质性进展。
所以基于现在的人工智能的现状,我们确实不必使人工智能无所不在。人工智能的确存在可能的风险,但是发展当中我们应当秉持智能向善的理念、负责任稳健的发展和适度的使用,才能够使人工智能扬帆远航。
什么叫做智能向善,我希望能给大家一些感性的认识。我们研发了类脑生成式人工智能基座“心擎(MindEngine)”,并在此基础上从不同视角支持“智能向善”理念的实践。第一个例子是数字哲学家。哲学回答人生当中切要问题并给予我们思考的力量,数字哲学家构造了类脑生成式人工智能引擎向这些哲学家去学习,就可以受益于先哲们的智慧,助力我们认识这个世界并与这个世界更好地相处。我们也需负责任地指出这样的AI并不能够被称为是这些先哲的数字版,虽然它可以很有用,它仍然是看似智能的信息处理工具。
再比如,我们基于类脑生成式人工智能基座“心擎”构建的心灵对话的平台“心友”。当你心情不好的时候,它用积极心理学去引导你。当你觉得未来无限大好的时候,它也会提醒你人生过程当中可能还会遇到各种各样的挑战,为每一个人创建“心灵之友”。
生成式人工智能可以帮助我们更好的认知我们的世界和我们的关系,比如说人类和生态、人类和所有的动物和植物之间的关系。我们融合了不同人工智能技术构建的人与生态的“共生图”就呈现和分析了人类和所有的动植物之间的关系。例如看似蚂蚁与人类相比关系网络相对简单,但是地球上人类和蚂蚁的数量比例却是1:100万,但是当我们问生成式人工智能,蚂蚁和人类之间的关系是什么的时候。我们的搜索和摘要引擎告诉我们“世界上有若干种不同吃蚂蚁的方式”,只有一句话写到“蚂蚁合作的模式是人类合作的典范”。当我们用生成式人工智能来描述它们之间关系的时候,总结的结论就是人类和蚂蚁并不能够很好的相处。看到这样的生成式人工智能输出的时候,我还是感觉到非常沮丧,并希望这样的努力能赋予人类更多的启示和反思。倘若未来超级智能视人类如同人类视蚂蚁,我们是否会从这个观察与反思以及我们对人类现代行为的分析中获得些什么呢?
人工智能还可以赋能我们的文化交互,在很多国际交流当中经常被问到一个问题:我们跟你们是如此的不同,我们仍然希望跟你合作。我从来是从第一句话就打断,我非常想知道为什么中国的学者跟你们有如此的不同。人工智能可以用来弥合文化之间误解并促进交流,正是在这个背景下我萌生了创造文化交互引擎这个项目与服务的想法。联合国教科文组织遴选的自然和文化遗产,本来突出的是各个国家遗产相对来说都有各自的特征以区分于其他的自然和文化的遗产,形成对人类文明独特地勾勒。然而这些自然和文化遗产真的只是具有独特性而背后缺乏相关性吗?我们用生成式人工智能的技术可以去发现它们之间的相似点,以及它们的相异点。在它们的相似点上,将所有全球的文化关联在一起,但部分的相异点是我们可以进行文化互鉴的机遇。
现在生成式人工智能确实是不完美的,现阶段我们先针对基于传统生成式人工智能大模型做好合乎伦理的研究与服务,从一个看似智能信息处理的工具开始,再同步布局新一代人工智能,使它能真正的有道德,从合乎伦理的人工智能发展到具有道德的人工智能。
比如说我们的善智人工智能伦理安全平台体系中“智善·如流”平台用人类和生成式人工智能协作的方式生成数千种不同的场景,然后再让人类和生成式人工智能共同去判断场景中的行为是否道德。可以发现即使现在最强大的生成式人工智能,如果以GPT4来举例,它在伦理道德的输出方面与人类的相近程度,用相似度来匹配的话只有0.64,最强大的大模型跟人类的价值观的差异仍然是非常大的。而且任何一个生成式大模型在伦理道德,价值观的表现方面相当的不稳定的。说的是同一件事情,只要描述方式稍微变一下,它的输出道德的价值判断甚至可以是颠覆性的,这是人不会出现的问题。所以这些看似智能的信息处理工具用人类反馈的强化学习这种方式即使给它做了伦理道德框架,也尚未避免看似并不复杂的问题。
未来的生成式人工智能不一定会停留在看似智能的信息处理的工具上,但是如果想让它获得道德,而不仅仅是用规则的方式让它合乎伦理,现在所谓的基于人类反馈的强化学习是完全不够的。人类在进行基于道德的问题求解的时候,道德框架是在外部的,而不是在一个问题求解器上打补丁,所以这样的方式本质上就构成了合乎伦理和具有道德之间在计算原理的本质上的差别。人类获得获得道德的方式首先是基于生物的自我感知、区分自我和他人,有了心理揣测能力和情感共情能力,产生利他并最终形成道德直觉,在此基础上进行道德推理与决策。
但是我们现在的生成式人工智能不是这样的,因为你在希望其形成合乎伦理的信息处理,这对于它来说只是让他执行了一个无异于其他分类任务的任务。当采用人类反馈的强化学习,生成式人工智能做一个错误的决定你可以惩罚它,但是也可以有另外十个人同时给它奖励。如果你是一个善人,你去惩罚它,如果给它奖励的另外十个人是恶人的话,生成式人工智能的输出就会跟我们所预期的截然相反。
我们希望未来的生成式人工智能是基于这样智能的本质发展出来的,是真正区分于现在通过规则合乎伦理,到从基于自我发展出来的道德直觉,让它具有道德。
最后,我认为面对长远的超级智能、人类灾难性的风险、生存风险的隐患,确实需要我们从现在开始做准备。但是,人工智能与人类价值对齐这件事情在未来的超级智能的时代将不成立,因为我们需要的是从价值对齐过渡到人与人工智能价值的协调,协调是双向的,因为在那个时候当人工智能具备反思能力的时候,智能的水平远远超过人类的时候,那么人工智能对于人类也将有价值观方面的诉求和期待。
未来社会可能不是一个以人类为中心的社会,我们现在叫做人类文明,但是相信未来一定是共生文明。人工智能是人类的一面镜子,现在人工智能还没有人类强大,但是它却可以照耀到人内心部分的黑暗和人类社会未来应当发展的方向。大家经常说人工智能比人类演化的快,我们既然知道人类的弊端,在人工智能作为一面镜子一样赋予我们反思的时候,人类需要加速反思的过程。超级智能对人类社会产生的风险,人类社会能不能够更快的进化到共生文明,这个问题如果不从现在开始的话就太晚了。
二、袁佛玉:生成式AI正式进入拼落地、拼应用的“下半场”
2023年,全球和中国整个市场对生成式AI和大模型技术的可能性以及对各行各业的改造潜力非常兴奋,有观点把它称作是“上半场”,我们通过一个视频来简单地回顾一下这一年多。
其实人工智能出现过好几次浪潮,比如出现过下围棋、人脸识别等等应用,一开始市场也非常热,但随着落地过程中出现各种挑战,包括应用有限、场景分散,使得很难标准化,企业在应用过程中发现经济模型算不过来账等等,随后就会进入低谷。
但是这一次和以往任何一次的AI浪潮非常不同的地方在于它的通用性,我们叫作智能涌现,就是没有教过的现在它的也许会了。有了这个通用性智能涌现的特点之后,当你有能力有一套基础很好的技术,就有机会在各行各业都能快速地做出有真正产业价值的应用,这就是过去AI七十多年都没有过的全新的一次机会。
技术真正的价值只在于应用。没有构建于大模型之上的繁荣的AI原生应用,大模型本身就毫无价值。所以,我们认为,站在2024年一开头再谈“百模大战”已经没有意义,也可以说已经成为过去时。一方面,重复开发多个几乎没有实际应用的大模型,是对社会资源的极大浪费,尤其是在算力还受到限制的情况下。另外,在实际应用中,基础大模型之间的梯队已经显著拉开,随着建在大模型之上的工具链、平台生态和部分的应用的出现,大模型的能力差距已经越来越大。
刚才,黄铁军老师用发动机来形容大模型的技术,我们很容易理解,当人类历史上出现了电和电动机这样的重大发明之后,我们其实要做的不是全社会重新把电和电动机做一遍,而是围绕着这项技术,我们把上面的电网、服务生态和各种电器的应用做起来,使得它真正能够在不同的产业应用下产生价值,大模型也是如此。当我们已经拥有了很多企业建立的可用的大模型,接下来我们要做的就是应用驱动,通过实际应用价值的需要来倒推基础模型技术的进步,而不是整个社会再把基础大模型做一遍。
这并不意味着创新机会变小了,实际上根据刚才的例子我们能够理解到,实际上机会最大的应用层机会才刚刚开始,有着巨大的创新空间。在我们列出了大家比较熟悉的近期几次关键技术和爆款应用产生的时间差。
PC时代,IBMPC推出9年后,诞生了微软Office这样的标志性应用。移动互联网时代,iPhone发布后4年,迎来了微信等系列爆款应用。时间从9年缩短到4年,因为底层技术越来越完善,创新爆发越来越快。在AI原生时代,爆款应用诞生的时间会进一步加速。在产业中讨论的时候,会有部分非常积极的探索者认为已经有爆款应用正在产生。2024年是大家非常期待的一年,我们会认为很多有价值的、明星的应用会持续爆发。所以当下就是最重要的应用创新的窗口,推动生成式AI真正落地到各行各业。
面对生成式AI,什么是我们最应该抓住的创新机会?我们的基本理念就是:要基于过去没有而现在有了的能力,去解决过去解决不了或解决不好的问题,就会带来真正的价值,带来有巨大的创新空间。这个过去没有而现在有了的能力,就是AI智能涌现之后,出现的四大核心能力——理解、生成、逻辑和记忆。我们要思考,在业务里面怎么用好这四大能力,去创造全新的用户价值、全新的生产效率。
基于技术只有用起来才有价值的这个理念,百度智能云去年三月推出了千帆大模型平台,帮助企业更简单、更经济地把生成式AI用起来。企业与此相关的应用方式我们在实践中认为可以分为五类、三个层面。
自上往下看,最共性的需求,就是应用。一种方式是直接选择已经被开发出来的应用,我们已经推出了千帆应用商店,上面上架了积累了很多开发者开发出来的AI原生应用。在应用层,也有很多企业希望自己去开发更符合自己特殊性、个性化需求的应用。千帆提供了Appbuilder开发工作台,集成了大模型应用开发的常见模式、工具和流程、范式,支持最低门槛的应用开发。
应用层往下是模型层。也有两种情况:有些应用是直接调用已有的基础大模型就可以完成;有些垂直领域的应用,需要在基础大模型之上进行模型精调等等二次开发才能满足需求。所以在这一层,千帆推出了Modelbuilder工具链,支持专有模型开发、模型精调等。一站式可以完成专有模型的开发,以支撑它最终的应用。
从模型层再往下,是AI算力的需求。在这一层,我们有百度百舸AI异构计算平台,是具备万卡集群能力的智算基础设置,支持了百度文心系列大模型的训练、以及很多客户的智算需求。
在过去一年多的经历里面,我们看到,很多专业场景的实际落地都是大模型套小模型的模式,这个模式也越来越被行业所关注和认可,它同时满足性能、效率和成本的需求——行业专有模型更快、更小、成本更低,可用性更强;大模型通用能力更强,更加智能,可以进行增强和兜底。
千帆大模型的推出,就是为了支持整个社会产业经济,更快地把生成式AI的能力用起来。现在一年多的发展之后,它的易用度到底怎么样?我想举一个例子说明。前几天,吴晓波老师做一年一度的年终演讲,过去准备这个演讲花很多时间,有一个团队,有很多的问题要问他的助理,要准备整理大量的资料。今年准备演讲的过程当中,吴晓波老师在千帆平台上自己亲手用10分钟零代码开发了一个年终演讲的助手,即时回答他所有知识检索和整理的需求,包括过去往年他演讲内容的整理。
所以,最终一个技术能够用起来,除了通用大模型的能力要非常强,其实还需要非常多的建设,包括呈现应用的开发平台,要有一个足够简单的、低门槛的、低成本的经济性开发平台,才可能真正帮助企业,尤其是在整个增长环境都非常有挑战的情况下,真正地将AI应用起来。
经历了2023年的兴奋,现在产业界的焦点都放到了实际的应用上,并且是要计算应用的经济模型,并且最终要回归价值本质——谁的效率高、谁能创造的业务价值更确定,谁就会胜出,而不仅仅是所谓的通用能力本身。
2023年,百度文心大模型是在IDC等专业机构的评估中非常领先的一个大模型,面向企业客户我们的千帆平台也服务了超过4万家企业客户。这张趋势图是千帆平台大模型API公有云调用量曲线,一直保持着超过30%周度高增速。
高速发展的背后是什么?舆论场上大家非常关注通用大模型的能力,但其实在应用上一项技术要健康地发展,有更多关键的因素,我在这里想分享的是关于成本的优化。例如,文心一言从去年3月份发布至今,推理的成本下降到了最初的1%,也就是原来有些企业想用这项技术,但是因为成本高,可能一天只敢调用一万次,今天同样的成本可以调用100万次,这样企业才有可能真正在大规模在线运营的业务里面把它用起来,真正降低应用门槛。
纸上得来终觉浅,绝知此事要躬行。看再多的文章也不如我们要实践,要去探索。这是一轮长周期的大变革,它会重置很多已有的成功经验,我们认为只有更快地行动起来,把它用起来才能真正地把握住机会。
(本文在演讲全文基础上略有修订。)