财经相对论

E0201. 对话丁磊:从AIGC的飞轮效应,到伟大的商业模式

AI思维的底层逻辑——其基础在于数据,核心在于模型,实现在于算力,具体应用在于业务场景。

嘉宾:丁磊 人工智能商业化落地先行者、历任百度金融首席数据科学家、PayPal全球消费者数据科学创始负责人、《生成式人工智能》作者

策划/采访 | 潘    琦
制作/视觉 | 葛雯瑄

数据、模型、业务形成飞轮效应

《复旦金融评论》:ChatGPT等人工智能机器人通过交互界面走进大众视野。而实际上人工智能的概念早在1956年达特茅斯会议就诞生了,当下人工智能所用的算法也是上个世纪五六十年代就有的。为什么发展和应用了这么多年的决策式AI没有像生成式AI(或AIGC)引发这么大的轰动效应?
丁磊:作为一名从事模型相关工作近20年的人,我认为有必要先简要介绍一下什么是模型。模型是人工智能通过从数据中不断学习和总结得出的一种类似于人脑的思考方式,可以将其理解为知识和逻辑的数字化载体。与存储数据或信息的数据库不同,模型更接近人类的思维过程,通过分析和推理来完成各种任务。
人工智能发展了这么长时间,最近才引起了更大的公众层面关注,可能是因为现在的模型发展到了一个新的阶段。现在的这些大模型,如GPT-4,已经初步具备了成年人的通识和逻辑能力,我们可以利用这些模型研发大量的相关应用。从这一角度来说,人工智能对人类社会的生产和工作具有重大意义。
《复旦金融评论》:在2020 年的专著《AI 思维》和最近的这本《生成式人工智能》中,您提到目前可以观察到的人工智能应用只是人工智能领域的冰山一角,那么您认为冰山的内核是什么呢?
丁磊:2020年《AI 思维》这本书更多关注的是决策式AI,而我们现在新的大模型主要是生成式AI。这两者可以看作是人工智能的两个主要分支。无论是哪种人工智能,我认为其内核都是AI模型驱动的运营模式。换句话说,人工智能的内核是基于数据、模型、业务三者的相互作用所形成的飞轮效应。
也就是说,随着数据的不断积累和模型的持续训练,模型的智能程度不断提高,进而在业务中产生更大的价值。而在业务的运行过程中,又会积累更多的数据来训练模型,从而数据、模型、业务之间形成了一种正反馈的飞轮效应。就像是一个飞轮不停地转动,数据越来越多、模型越来越聪明,业务所带来的价值也会越来越大。
因此,基于这种飞轮效应可以构建出伟大的商业模式。例如,亚马逊、天猫的推荐引擎可以有效促进消费者的购买行为;字节跳动捕捉到目标受众的需求和兴趣的能力越来越强,抖音推荐的内容越来越精准,让人“上瘾”;自动驾驶通过数据的自学习反馈变得越来越智能,可以实现无人员干预的价值;当前非常流行的图片生成工具,如Midjourney,其团队虽然很小,但却通过数据和模型的正反馈的效应,使其生成的图片越来越符合人类需求。
《复旦金融评论》:您能不能为我们再解释一下,为什么到了生成式人工智能这样兴起的一个阶段,会有这样的一个正反馈效应?随着生成式人工智能的兴起,人工智能领域是否会加速发展?
丁磊:飞轮效应并不仅限于决策式AI或生成式AI。实际上,它是人工智能的一种本质学习属性,可能带来正反馈机制。但要实现这种效应,须建立完整的数据、模型、业务闭环,否则效应难以实现。
展开来说,决策式AI更像是在做选择题,分类是它的强项。人脸识别就是一个典型的案例,决策式AI对实时获取的人脸图像进行特征信息提取,再与人脸库中的特征数据匹配,从而实现人脸识别。当然,现在人脸识别模型的基数是非常大的,动辄处理成百万、上千万的人脸数据,并进行相应的识别。
而生成式AI则擅长做简答题,以创作为长处。我们所说的生成式AI,其核心在于生成内容。而“内容”是一个相当广义的概念,不仅仅指常见的文本、图片、视频、音乐等形式,还包括日常工作中所涉及的方案、策划、程序、代码。在人工智能的发展过程中,无论是决策式AI还是生成式AI都需要飞轮效应的推动。
那么,为什么决策式AI之前没有受到太多关注呢?作为从事AI相关研究并在企业中开发应用的人员,我发现决策式AI一直以来的特点是难以呈现。比如,我之前在PayPal、在百度金融使用决策式AI来优化业务,这种优化很难被可视化展示出来。这也在一定程度上解释了为什么决策式AI之前没有引起更多的关注,除非在一些相对细分的领域,如自动驾驶。决策式AI应用通常属于企业后端,可以说是企业的决策大脑,这些领域吸引了大量的研究,因为它们具有成熟的且实体的产品。但普通消费者可能无法很好地理解或看到。
相比之下,生成式AI则可以让人们看到它生成的内容。例如,ChatGPT等生成式AI可以让用户与之简单交互,这也是为什么生成式AI能够吸引更多人的原因之一。
《复旦金融评论》:未来对于算力的竞争是否会成为各国家和地区和平台之间竞争的关键?
丁磊:要训练出真正功能强大的人工智能,处理算力这一重要的资源,还需要数据、模型和业务模式。只有当这四个要素相互促进形成闭环的时候,才能真正训练好人工智能。这是一个复杂的过程,仅仅依靠算力和训练数据的投入是不够的。

AGI有多远
《复旦金融评论》:GPT-4之后的生成式AI模型已经发展到跨模态的阶段。您之前在2020年出版《AI思维》一书中描述当时的人工智能还处于“弱人工智能”的阶段,您觉得目前到了什么阶段?如果我们要迎接AGI(通用人工智能)还需要多久? 
丁磊:ChatGPT的“横空出世”让普罗大众对人工智能的突破有了新的认识。目前的自然语言处理技术和大型语言模型确实展现出了一些AGI的影子,但我认为距离真正的AGI还很远。因为ChatGPT等模型虽然已经具有智能对话、语言翻译、文本生成等使用功能,但它们仍然缺乏某些关键的特征和能力,如跨模态感知、多任务协作以及自我学习与适应、情感理解、超级计算能力等。
第一,跨模态感知。我们将平时接触到的每一个信息来源域称为一个模态,这些来源可以使文字、声音、图像、味觉、触觉等等。随着信息技术和传感器技术的发展,模态的范畴也变得更广。跨模态感知涉及两个或多个感官的信息交互,如最基本的图像检索就是一种从文本到图像的感官转换。反过来,从图像到语言的转换,可以帮助有视觉感官的缺陷的人们,强化感知环境的能力。人类天然具有跨模态感知能力,能够对来自多种感官的信息进行整合和理解。而当前绝大部分的人工智能系统只能单独的运用其中的一项作为传感器来感知世界,对于不同的模态,需要设计不同的专有模型。例如,根据文本生成图像的模型,采用的是将文本和图像进行联合编码的专有模型,这种模型无法适配声音生成等其他任务。各种模型之间无法真正打通是走向AGI的一大痛点。
第二,多任务协作。人类能够同时处理多个任务,并在不同任务之间进行协调与转换。当人们面对机器人时,一句简单的吩咐,比如“请帮我热一下午餐”,这些指令听上去简单,执行时却包括了理解指令、分解任务、规划行走路线、识别物体等一系列动作,针对每一个细分的动作都有专门的系统或模型的设计。这就要求机器人具备多任务协作的能力。
第三,自我学习与适应。人类具有学习和适应能力,能够通过不断的学习和经验积累来提高自己的能力。因此,研究如何让人工智能系统具备自我学习和适应能力也是实现AGI的必要步骤。其中主要包括增量学习、迁移学习和领域自适应三个方向。
《复旦金融评论》:相对于人类的思维方式,人工智能的局限性以及其认知背后的逻辑方面是什么呢?
丁磊:人工智能模仿的是人脑,但又不同于人脑。人类侧重于从经验中学习,而人工智能则依靠模型从数据中学习。 
那么,人工智能的天然优势是什么呢?首先,其优势在于强大的算力支持,使得它的学习能力没有上限。研究表明,即使是勤奋的人每天最多也只能接受2兆容量的信息。此外,人工智能的学习速度非常快,只要有充分的数据和足够的算力,它就可以在短时间内学习接近无限量的数据。其次,人工智能善于掌握“有迹可循”的规律,快速处理规律性强的任务。
而人类的优势是社交智慧、创造力、精细感知和操作能力。社交智慧是人与人交互的技能,包括同理心、谈判能力、社交洞察力等情感能力,对应的职业主要是教师、销售、心理咨询师、管理人员、社工等;创造力指的是原创能力和艺术审美能力,对应的职业主要是艺术家、作家、研发工程师等;精细感知和操作能力指的是手指灵敏度、协调操作能力和应付复杂工作环境的能力,