# 值得深究的问题

# 3.1 加密领域与深度伪造 (Deepfake) 启示录

"一台电脑就能造成这么大的破坏......如果不了解一些基本的真相,我们该如何运作?

- 谷歌前首席执行官埃里克-施密特(Eric Schmidt)致 Chainlink 联合创始人谢尔盖-纳扎罗夫(Sergey Nazarov)

1月23日,一条人工智能生成的语音信息谎称自己是拜登总统 (opens new window),劝阻民主党人不要在 2024 年初选中投票。不到一周后,一名金融工作者因模仿其同事的深度伪造视频通话,损失了2500万美元。与此同时,在X(前身为Twitter)上,人工智能伪造的泰勒·斯威夫特(Taylor Swift)的露骨照片吸引了4500万次浏览,引发了广泛的愤怒。这些事件都发生在2024年的头两个月,它们只是深度伪造在政治、金融和社交媒体领域产生的各种破坏性影响的一个缩影。

# 3.1.1 它们是如何成为问题的?

伪造图像并不是什么新鲜事。1917年,The Strand杂志上刊登了一些被设计成仙女模样的精巧剪纸照片;许多人认为这些照片是超自然力量存在的有力证据。

图一

图 10:《科廷利仙子》照片之一。福尔摩斯的创作者阿瑟-柯南-道尔爵士曾将这些伪造图片作为灵异现象的证据

随着时间的推移,造假变得越来越容易,成本也越来越低,从而大大提高了错误信息的传播速度。例如,在2004年美国总统大选期间,一张经过篡改的照片虚假地显示民主党提名人约翰·克里(John Kerry)与简·方达(Jane Fonda)一起参加抗议活动,简-方达是一位颇具争议的美国活动家。科廷利仙子需要精心布置,用硬纸板剪出儿童读物中的描摹图画,而这次伪造则是用Photoshop完成的简单任务。

图 11:这张照片表明约翰·克里与简·方达在反越战集会上同台。后来发现这是一张伪造的照片,是用Photoshop将两张现有的图片合成的

不过,由于我们学会了如何辨别编辑痕迹,假照片带来的风险已经降低。在“游客小哥 ”的案例中,业余爱好者能够通过观察场景中不同物体的白平衡不一致来识别图片是否经过剪辑。这是公众对虚假信息认识提高的产物;人们已经学会注意图片编辑的痕迹。“Photoshoped”一词已成为通用术语:图像被篡改的迹象已得到普遍认可,照片证据不再被视为不可篡改的证据。

# 3.1.1.1 Deepfake 让造假更容易、更便宜、更好

过去,伪造证件很容易被肉眼识破,但深度伪造技术使制作几乎与真实照片无异的图像变得简单而廉价。例如,OnlyFake网站使用深度伪造技术在几分钟内生成逼真的假身份证照片,只需15美元。这些照片被用来绕过OKX(一家加密货币交易所)的反欺诈保障措施,即所谓的“了解你的客户"(KYC)。在 OKX 的案例中,这些深度伪造的ID骗过了他们的员工,而这些员工都受过识别篡改图片和深度伪造的培训。这凸显出,即使是专业人士,也不再可能通过肉眼发现基于深度伪造的欺诈行为。

由于图像被深度伪造,人们加强了对视频证据的依赖,但深度伪造不久将严重破坏视频证据(的可信度)。德克萨斯大学达拉斯分校的一名研究人员利用免费的深度伪造换脸工具,成功绕过了KYC提供商实施的身份验证功能。这是一个巨大的进步——过去,要生成具有合格水平的视频既昂贵又耗时。

2019 年,有人需要花费两周时间和552美元,才能制作出一段38秒的马克·扎克伯格深度伪造视频,视频中还会出现明显的视觉缺陷。如今,我们可以在几分钟内免费制作出逼真的deepfake视频。

图 12:OnlyFake面板,用于在几分钟内创建自己的假身份证

# 3.1.1.2 视频为何如此重要

在深度伪造技术出现之前,视频曾是可靠的证据。与容易伪造的图像不同,视频在历史上一直是难以伪造的,因此在法庭上被公认为是可靠的证据。这使得视频深度伪造变得尤为危险。

与此同时,深度伪造的出现也可能导致对真实视频的否定,美国总统拜登的一段视频就被错误地称为深度伪造。批评者以拜登眼睛一眨不眨和光线差异为证据,这些说法已被推翻。这就导致了一个问题——“深度伪造”不仅让假的看起来像真的,也让真的看起来像假的,进一步模糊了真实与虚构之间的界限,增加了问责的难度。

我们仍然相信视频,尽管它们现在可以伪造。

深度伪造实现了大规模定向广告。我们可能很快就会看到另一个YouTube,在这个版本中,所说的内容、所说的人以及所说的地点都是针对观众个性化定制的。一个早期的例子是Zomato的本地化广告,广告中演员赫里希克·罗尚(Hrithik Roshan)在观众所在城市的热门餐馆点菜。Zomato生成了不同的深度伪造广告,根据观众不同的GPS位置生成广告内容,介绍观众所在地的餐馆。

# 3.1.2 目前的解决方案有什么不足?

# 3.1.2.1 意识

现在的深度伪造技术已经非常先进,足以骗过训练有素的专家。这使得黑客能够绕过身份验证(KYC/AML)程序,甚至人工审核。这表明,我们无法用眼睛将深度伪造与真实图像区分开来。我们不能仅仅通过对图像持怀疑态度来防范深度伪造:我们需要更多的工具来应对深度伪造的流行。

# 3.1.2.2 平台

如果没有强大的社会压力,社交媒体平台并不愿意有效抑制深度伪造。例如,Meta禁止含有虚假音频的度伪造视视频,但拒绝禁止纯捏造的视频内容。他们违背了自己的监督委员会的建议,没有删除一段显示拜登总统抚摸孙女的深度伪造视频,即纯属捏造的内容。

# 3.1.2.3 政策

我们需要制定法律,有效应对新型深度伪造风险,同时又不限制问题较少的用途,如艺术或教育领域,因为这些用途并不试图欺骗人们。泰勒·斯威夫特(Taylor Swift)深度伪造图片未经同意而被传播等事件,促使立法者通过更严格的法律来打击此类深度伪造行为。针对此类案件,可能有必要在法律上强化在线审核程序,但禁止所有人工智能生成内容的提议引起了电影制作人和数字艺术家的警觉,他们担心这会不公正地限制他们的工作。找到正确的平衡点是关键,否则那些合法的创意应用将被扼杀。

推动立法者提高训练强大模型的准入门槛,大型科技公司可以确保其人工智能垄断地位。这可能会导致权力不可逆转地集中在少数公司手中——例如,涉及人工智能的第 14110号行政命令就建议对拥有大量计算能力的公司提出严格要求。

图 13:美国副总统卡马拉-哈里斯(Kamala Harris)在美国总统乔-拜登(Joe Biden)签署美国首个人工智能行政命令时鼓掌。2023 年 10 月 30 日,华盛顿特区

# 3.1.2.4 技术

直接在人工智能模型中建立防护栏以防止滥用是第一道防线,但这些防护栏不断被破坏。人工智能模型很难审查,因为我们不知如何使用现有低级工具来修改更高维度的行为。此外,训练人工智能模型的公司可以利用实施防护栏作为借口,在其模型中引入不良审查和偏见。这是有问题的,因为大型科技人工智能公司无需对公众意愿负责——公司可以自由地影响其模型,而损害用户的利益。

即使强大人工智能的创造权并未集中在不诚实的公司手中,要想建立一个既有防护措施又不偏不倚的人工智能可能仍然是不可能的。研究人员很难确定什么是滥用,因此很难以中立、平衡的方式处理用户请求的同时防止滥用。如果我们无法定义滥用,似乎就有必要降低防范措施的严格程度,可能导致滥用再次发生。因此,完全禁止滥用人工智能模型是不可能的。

一种解决方案是在恶意深度伪造出现后立即对其进行检测,而不是阻止其产生。但是,深度伪造检测人工智能模型(如OpenAI部署的模型由于不准确,正在变得过时。虽然深度赝品检测方法已经变得越来越复杂,但制造深度赝品的技术却在以更快的速度变得越来越复杂——深度伪造检测器在技术军备竞赛中败下阵来。这使得仅凭媒体很难识别深度假新闻。人工智能已经足够先进,可以制造出逼真到人工智能无法判断其准确性的假镜头。

水印技术能够在深层伪造品上隐蔽地打上标记,无论它们出现在哪里,我们都能识别出来。但是,深度伪造品并不总是带有水印,因为水印必须是刻意添加的。自愿将其伪造图像标出而做出区分的公司(如OpenAI),水印是一个有效的方法。但无论如何,水印都可以用简单易用的工具去除或伪造,从而绕过任何基于水印的防深度伪造解决方案。水印也可能被意外删除:大多数社交媒体平台都会自动删除水印。

最流行的深度伪造水印技术是C2PA(由内容出处和真实性联盟提出)。它旨在通过追踪媒体来源并将此信息存储在媒体元数据中来防止错误信息。该技术得到了Microsoft、Google和Adobe等公司的支持,因此C2PA很有可能会在整个内容供应链中推广,它比起其他同类技术更加受欢迎。

遗憾的是,C2PA也有自己的弱点。由于C2PA会存储图像的完整编辑历史,并使用符合 C2PA标准的编辑软件中所控制的加密密钥,对每次编辑进行验证,因此我们必须信任这些编辑软件。但是,人们很可能会因为有效的C2PA元数据而直接接受经过编辑的图像,而不会考虑是否信任编辑链中的每一方。因此,如果任何编辑软件遭到破坏或能够进行恶意编辑,就有可能让其他人相信伪造或恶意编辑的图像是真实的。

我们需要安全的硬件,否则确保 C2PA 安全的密钥就会被盗。

图 14:包含一连串编辑的符合C2PA标准元数据的图像示例。每个编辑都由不同的可信方签名,但只有最终编辑的图像是公开的。资料来源:真实照片与人工智能生成的艺术:新标准(C2PA)利用 PKI 显示图像的历史

此外,C2PA水印中包含的加密签名和元数据可以与特定用户或设备联系起来。在某些情况下,C2PA元数据可以将您的相机拍摄的所有图像相互连接起来:如果我们知道某张图像来自某人的相机,我们就可以识别来自该相机的所有其他图像。这可帮助举报人在发布照片时匿名化处理。

所有潜在的解决方案都将面临一系列独特的挑战。尽管这些挑战千差万别——包括社会意识的局限性、大型科技公司的缺陷、监管政策的实施难度以及我们的技术局限性。

解决深度伪造错误信息的问题没有万全之策。

# 3.1.3 加密货币能解决这个问题吗?

开源的深度伪造模型已经开始流传。因此,有人可能会说,总有一些方法可以利用深度伪造来滥用他人的肖像;即使这种做法被定为犯罪,有人还是会选择生成不道德的深度伪造内容。不过,我们可以让恶意深度伪造内容退出主流来解决这一问题。我们可以防止人们认为深度伪造的图片是真实的,且能够创建限制深度伪造内容的平台。本节将介绍各种基于加密技术的解决方案,以解决恶意深度伪造传播带来的误导问题,同时强调每种方法的局限性。

# 3.1.3.1 硬件认证

经过硬件认证的相机在拍摄每张照片时都会嵌入一个独特的证明,证明照片是由该相机拍摄的。该证明由相机独有的不可复制、防篡改芯片生成,确保图像的真实性。音频和视频也可以使用类似的程序。

入侵软件的成本更低,但入侵安全芯片的成本却很高。

认证证明告诉我们,图像是由真实相机拍摄的,这意味着我们通常可以相信这是真实物体的照片。我们可以标记没有这种证明的图像。但如果相机拍摄的是伪造场景,而伪造场景的设计看起来就像真实场景,那么这种方法就失效了——你可以直接将相机对准一张伪造的图片。目前,我们可以通过检查捕捉到的图像是否失真来判断照片是否从数字屏幕上拍摄的,但骗子们会找到隐藏这些瑕疵的方法(例如,通过使用更好的屏幕,或通过限制镜头眩光)。最终,即使是人工智能工具也无法识别这种欺诈行为,因为骗子可以找到避免所有这些失真的方法。

硬件认证将减少信任伪造图像的情况,但少数情况下,我们仍然需要额外的工具来防止深度伪造图像在摄像头被入侵或滥用情况下传播。正如我们之前所讨论的,使用经过硬件验证的摄像头仍有可能造成深度伪造内容是真实图像的错误印象,原因比如摄像头被黑客攻击,或相机被用来拍摄电脑屏幕上深度伪造的场景。要解决这个问题,还需要其他工具,比如摄像头黑名单。

相机黑名单将使社交媒体平台和应用程序能够标记来自特定相机的图像,因为已知该相机过去曾生成过误导性图像。黑名单可以无需公开披露可用于追溯相机的信息,如相机 ID 等。

然而,目前还不清楚由谁来维护摄像机黑名单,也不清楚如何防止人们收受贿赂后把举报人的相机也加入黑名单(的报复行为)。

# 3.1.3.2 基于区块链的图像年表

区块链是不可篡改的,因此在互联网上出现图像时,将图像与附加元数据一起添加到带有时间戳的年表中,这样时间戳和元数据就不会被篡改。由于未经编辑的原始图片在恶意编辑扩散之前,就能被诚实的各方以不可更改的方式存储在区块链上,因此访问这样的记录将使我们能够识别恶意编辑并验证原始来源。这项技术已在Polygon区块链网络上实施,作为与福克斯新闻合作开发的事实核查工具 Verify 的一部分。

区块链可以防止人们篡改图片的时间顺序,但无法阻止欺骗性图片的出现。

图 15:Fox 基于区块链的工具 Verify 的用户界面。可以通过 URL 查找艺术品。从 Polygon 区块链获取并显示来源、交易哈希值、签名、时间戳和其他元数据。

# 3.1.3.3 数字身份

如果“深度伪造”(deepfakes)会破坏我们对未经核实的图片和视频的信任,那么可信来源可能会成为避免虚假信息的唯一途径。我们已经依赖可信的媒体来源来核实信息,因为它们采用新闻标准、事实核查流程和编辑监督来确保所发布内容的准确性和可信度。然而,我们需要一种方法来验证我们在网上看到的内容是否来自我们信任的来源。这就是加密签名数据的用处:它可以用数学方法证明某篇内容的作者是谁。

签名是使用数字密钥生成的,由于密钥是由钱包创建和生成的,因此只有拥有相关加密钱包的人才知道。这样我们就能知道谁是数据的作者:您只需检查签名是否与个人加密钱包中的密钥相对应,而该密钥只属于个人。

我们可以利用加密货币钱包,以无缝和用户友好的方式为我们的帖子附加签名。如果我们使用加密货币钱包登录社交媒体平台,就可以利用钱包在社交媒体上创建和验证签名的功能。因此,如果某个帖子的来源不可信,平台将能够向我们发出警告——它将使用自动签名校验来标记错误信息。

此外,zk-KYC基础设施与钱包连接,可将未知钱包与真实身份绑定,而不会损害用户隐私和匿名性。这意味着骗子无法用虚假身份创建虚假账户来兜售虚假信息。

# 3.1.3.4 经济激励措施

"(有了Veracity Bonds),如果你的手在饼干罐里被抓到,你实际上会赔钱,而且,作为读者,我会知道你有多可信"。

- 查尔斯-霍斯金森,卡达诺创始人;以太坊联合创始人

作者可因错误信息而受到惩罚;用户可因识别错误信息而获得奖励。例如,“真实性债券”使媒体机构能够以其出版物的准确性作为赌注,并因错误信息面临经济处罚。因此,“真实性债券”为这些媒体公司提供了一个经济上的理由来确保信息的真实性。

真实性债券将是我们的“真相市场”不可分割的一部分,在这个市场上,不同的系统通过以最高效、最稳健的方式验证内容的真实性来赢得用户的信任。这类似于证明市场,如Succinct Network和=nil Proof Market,但针对的是仅靠密码学还不足以验证真相的模糊问题。智能合约(Smart Contracts)可以作为一种手段,强制实施使这些真相市场发挥作用所需的经济激励措施,因此区块链技术可能会在帮助打击虚假信息方面发挥核心作用。

# 3.1.3.5 声誉评分

"如果我们不解决内容的声誉和认证(问题),事情就会变得非常奇怪"。

- 伊利亚-波罗苏欣,NEAR 联合创始人;《关注就是你所需要的一切》一书的共同作者

我们可以用声誉来代表可信度。例如,我们可以看一个人在推特上有多少粉丝,来判断我们是否应该相信他所说的话。不过,声誉系统也应考虑作者的过往记录,而不仅仅是他们的知名度。我们不能把可信度与影响力混为一谈。

我们不能允许人们无限量地生成匿名身份,否则,他们就可以在名誉受损时抛弃自己的身份,以重置他们的社会可信度。这就要求我们使用无法复制的数字身份,如上一节所述。

我们还可以利用“真相市场”和“硬件认证”中的证据来确定一个人的声誉,因为这些都是追踪其真实记录的可靠方法。声誉系统是迄今为止所有其他解决方案的集大成者,因此也是最稳健、最全面的方法。

图 16:马斯克在 2018 年提出要建立网站对期刊论文、编辑和出版物的可信度评分

# 3.1.4 加密货币解决方案可以扩展吗?

上述区块链解决方案需要快速和高存储量的区块链——否则,我们就无法将所有图像纳入链上可验证的时间逻辑记录中。随着每天发布的在线数据量呈指数级增长,这一点只会变得越来越重要。不过,有一些算法可以以可验证的方式压缩数据。

此外,通过硬件认证生成的签名不适用于图像的编辑版本:必须使用 zk-SNARKs 生成编辑证明。ZK Microphone 是音频校验实现的案例。

# 3.1.5 深度伪造并非天生有害

必须承认,并非所有的深度伪造都是有害的。这项技术也有良性的用途,比如这段人工智能生成的泰勒-斯威夫特(Taylor Swift)教授数学的视频。由于深度伪造的低成本和可访问性,更个性化的体验也成为可能。例如,HeyGen允许用户发送带有人工智能生成的酷似自己人脸的个人信息。深度仿真还通过配音翻译帮助缩小语言差距。

# 3.1.5.1 控制深度伪造并将其货币化的方法

基于深度伪造技术的人工智能“仿真人”服务(AI counterpart services),他们收取高额费用,缺乏问责制和监督。最近,OnlyFans上的头号网红Amouranth发布了自己的数字人服务,粉丝们可以与她私下交流。这些服务,尤其是初创公司,可能会限制甚至关闭访问权限。例如,AI伴侣网站Soulmate关闭后,用户伤心欲绝。

托管在链上的人工智能模型可以为用户提供更有力的保证,确保他们不会失去访问权,并通过透明的利润分享来奖励贡献者。智能合约可以访问这些人工智能模型。这样就可以在智能合约中设置精细的规则,规定如何使用这些模型。不过,这也存在技术挑战。目前,Giza、Modulus Labs 和 EZKL 所使用的一种方法——zkML——会产生高达1000倍的开销。这是一个活跃的研究领域,目前正在探索几种替代方案。例如,HyperOracle正在尝试使用 opML,Aizel正在构建一个基于多方计算(MPC)和可信执行环境(TEE)的解决方案。

# 3.1.6 章节摘要

  • 复杂的深度伪造正在侵蚀政治、金融和社交媒体领域的信任,凸显了建立 "可验证网络 "以维护真相和民主诚信的必要性。
  • 深度伪造曾经是一项昂贵且技术密集型的工作,但随着人工智能的进步,它已变得很容易制作,从而改变了错误信息的格局。
  • 历史背景告诉我们,操纵媒体并不是新的挑战,但人工智能使制造令人信服的假新闻变得更加容易和便宜,因此需要新的解决方案。
  • 视频造假带来了独特的危险,因为它们损害了传统上被认为是可靠的证据,导致社会陷入一种困境,即真实行为可能被当作假的。
  • 现有对策分为意识、平台、政策和技术方法,每种方法在有效打击深度伪造方面都面临挑战。
  • 硬件证明和区块链证明了每张图片的来源,并创建了透明、不可更改的编辑记录,从而提供了前景广阔的解决方案。
  • 加密货币钱包和zk-KYC加强了在线内容的验证和认证,而链上信誉系统和经济激励措施(如 "真实性债券")则为真相提供了一个市场。 在承认深度伪造的积极用途的同时,加密技术还提出了一种将有益的深度伪造列入白名单的方法,从而在创新与诚信之间取得平衡。

# 3.2 苦涩的一课

“从70年的人工智能研究中可以收获的最大教训是,利用通用方法计算最终是最有效的,而且是以很大的优势取胜。”

\– The Bitter Lesson苦涩的一课, Rich Sutton教授

这句话有悖常理,但却是事实。人工智能界拒绝接受定制方法效果不佳的说法,但"苦涩的教训"仍然适用:使用最强的计算能力总能产生最好的结果。

我们必须扩大规模:更多GPU、更多数据中心、更多训练数据。

计算机国际象棋研究人员曾试图利用人类顶尖棋手的经验来构建国际象棋引擎,这就是研究人员弄错了的一个例子。最初的国际象棋程序都是照搬人类的开局策略(使用"开局书")。研究人员希望国际象棋引擎能从强势局面开始,而无需从头开始计算最佳棋步。它们还包含许多"战术启发法"——人类棋手使用的战术,如叉子。简单地说:国际象棋程序是根据人类对如何成功下棋的见解而不是一般的计算方法构建的。

图 17:叉子的一个实例。皇后用于同时攻击两个棋子。
图 18:国际象棋开局顺序示例。

1997年,IBM的DeepBlue结合了巨大的计算能力和基于搜索的技术,击败了国际象棋世界冠军。尽管DeepBlue优于所有"人类设计"的国际象棋引擎,但国际象棋研究人员对其避而远之。他们认为,DeepBlue的成功只是昙花一现,因为它并没有采用国际象棋策略——在他们看来,这是一种粗暴的解决方案。他们错了:从长远来看,将大量计算应用于一般问题的解决方法往往会比定制方法产生更好的结果。这种高计算意识形态催生了成功的围棋引擎(AlphaGo)、改进的语音识别技术,以及更可靠的计算机视觉技术。

高计算人工智能方法的最新成果是OpenAI的ChatGPT。与之前的尝试不同,OpenAI 并没有试图将人类对语言工作原理的理解编码到软件中。相反,他们的模型将来自互联网的大量数据与海量计算结合起来。与其他研究人员不同的是,他们没有干预,也没有在软件中嵌入任何偏见。从长远来看,性能最好的方法总是基于利用大量计算的通用方法。这是历史事实;事实上,我们可能有足够的证据证明这一点永远正确。

从长远来看,将巨大的计算能力与大量数据相结合是最好的方法,其原因在于摩尔定律:随着时间的推移,计算成本将呈指数级下降。在短期内,我们可能无法确定计算带宽的大幅增长,这可能导致研究人员试图通过手动将人类知识和算法嵌入软件来改进他们的技术。这种方法可能会在一段时间内奏效,但从长远来看不会取得成功:将人类知识嵌入底层软件会使软件变得更加复杂,模型也无法根据额外的计算能力进行改进。这使得人工方法变得目光短浅,因此萨顿建议我们忽略人工技术,将重点放在将更多计算能力应用于通用计算技术上。

《苦涩的一课》对我们应该如何构建去中心化的人工智能有着巨大的影响:

构建大型网络: 上述经验教训凸显了开发大型人工智能模型并汇集大量计算资源对其进行训练的紧迫性。这些都是进入人工智能新领域的关键步骤。Akash、GPUNet和 IoNet等公司旨在提供可扩展的基础设施。

图 19:Akash价格与亚马逊AWS等其他供应商的比较

硬件创新: ZKML 方法一直受到批评,因为它们的运行速度比非ZKML方法慢1000倍。这与神经网络面临的批评不谋而合。20世纪90年代,神经网络展现出了巨大的前景。Yann LeCun的CNN模型是一个小型神经网络,能够对手写数字图像进行分类(见下图),并取得了成功。到1998 年,美国有超过10%的银行使用这种技术读取支票。然而,这些CNN模型无法扩展,因此人们对这些神经网络的兴趣急剧下降,计算机视觉研究人员又开始利用人类知识来创建更好的系统。2012年,研究人员利用GPU(一种通常用于生成计算机图形(游戏、CGI 等的流行硬件)的计算效率,开发出一种新的 CNN。这让他们达到了令人难以置信的性能,超过了当时所有其他可用的方法。这个网络被称为 AlexNet,它引发了深度学习革命。

图 20:90 年代的神经网络只能处理低分辨率的数字图像
图 21:2012 年的神经网络(AlexNet)能够处理复杂图像,其性能优于所有其他方法。

人工智能技术的升级是必然的,因为计算成本总是越来越低。用于ZK和FHE等技术的定制硬件将加速进展——Ingonyama等公司和学术界正在铺平道路。从长远来看,我们将通过应用更强的计算能力和提高效率来实现大规模的ZKML。唯一的问题是,我们将如何利用这些技术?

图 22:ZK 证明器硬件进步的一个例子

扩展数据: 随着人工智能模型规模和复杂性的增长,有必要相应地扩展数据集。一般来说,数据集的规模应与模型规模成指数增长,以防止过度拟合并确保性能稳定。对于一个拥有数十亿参数的模型来说,这往往意味着要策划包含数十亿token或示例的数据集。例如,谷歌的BERT模型是在包含超过25亿个单词的整个英文维基百科和包含约8亿个单词的BooksCorpus上进行训练的。而Meta的 LLama则是在1.4万亿个词库的基础上进行训练的。这些数字强调了我们所需的数据集的规模——随着模型向万亿个参数发展,数据集必须进一步扩大。这种扩展可以确保模型能够捕捉到人类语言的细微差别和多样性,因此开发庞大、高质量的数据集与模型本身的架构创新同样重要。Giza、Bittensor、Bagel和FractionAI等公司正在满足这一领域的特殊需求(有关数据领域的挑战,如模型崩溃、对抗性攻击和质量保证方面的挑战,详见第 5 章)。

开发通用方法: 在去中心化人工智能领域,ZKPs和FHE等技术采用针对具体应用的方法是为了追求立竿见影的效率。为特定架构量身定制解决方案可提高性能,但可能会牺牲长期灵活性和可扩展性,从而限制更广泛的系统演进。相反,专注于通用方法提供了一个基础,尽管最初会有效率低下的问题,但具有可扩展性,能够适应各种应用和未来的发展。在摩尔定律等趋势的推动下,随着计算能力的增长和成本的降低,这些方法必将大放异彩。在短期效率和长期适应性之间做出选择至关重要。强调通用方法可以为去中心化人工智能的未来做好准备,使其成为一个稳健、灵活的系统,充分利用计算技术的进步,确保持久的成功和相关性。

# 3.2.1 结论

在产品开发的早期阶段,选择不受规模限制的方法可能至关重要。这对公司和研究人员评估用例和想法都很重要。然而,惨痛的教训告诉我们,从长远来看,我们应该始终牢记优先选择通用的可扩展方法。

这里有一个手动方法被自动、通用微分所取代的例子:在使用TensorFlow和PyTorch等自动微分(autodiff)库之前,梯度通常是通过手动或数值微分来计算的——这种方法效率低、容易出错,而且会产生问题,浪费研究人员的时间,而自动微分则不同。现在 Autodiff已成为不可或缺的工具,因为autodiff库加快了实验速度,简化了模型开发。因此,通用解决方案获胜了——但在autodiff成为成熟可用的解决方案之前,旧的手动方法是进行ML研究的必要条件。

总之,里奇·萨顿的"苦涩的一课"告诉我们,如果我们能最大限度地提高人工智能的计算能力,而不是试图让人工智能去模仿人类所熟知的方法,那么人工智能的进步将会更快。我们必须扩展现有计算能力、扩展数据、创新硬件并开发通用方法——采用这种方法将对去中心化人工智能领域产生诸多影响。尽管"苦涩的一课"不适用于研究的最初阶段,但从长远来看,它可能永远都是正确的。

# 3.3 AI Agents(人工智能代理)将颠覆谷歌和亚马逊

# 3.3.1 谷歌的垄断问题

在线内容创作者通常依赖谷歌来发布他们的内容。反过来,如果允许谷歌索引和展示他们的作品,他们就能获得源源不断的关注和广告收入。然而,这种关系是不平衡的;谷歌拥有垄断地位(超过80%的搜索引擎流量),其市场份额是内容创作者自身无法企及的。因此,内容创作者的收入严重依赖于谷歌和其他科技巨头。谷歌的一个决定就有可能导致个人业务的终结。

谷歌推出的精选片段(Featured Snippets)功能——显示用户查询的答案,而无需点击进入原始网站——突出了这一问题,因为现在无需离开搜索引擎就能获得信息。这打乱了内容创建者赖以生存的规则。作为被谷歌索引其内容的交换条件,内容创建者希望自己的网站能获得推荐流量和眼球。取而代之的是,精选片段(Featured Snippets)功能允许谷歌总结内容,同时将创作者排除在流量之外。内容生产者的分散性使他们基本无力采取集体行动反对谷歌的决定;由于没有统一的声音,单个网站缺乏讨价还价的能力。

图 23:Featured Snippets示例

谷歌通过提供用户查询答案的来源列表进行了进一步试验。下面的示例包含《纽约时报》、维基百科、MLB.com等网站的来源。由于谷歌直接提供了答案,这些网站不会获得那么多流量。

图 24:Featured Snippets中 “来自网络”功能示例

# 3.3.2 OpenAI 的垄断问题

谷歌推出的“精选片段”功能代表了一种令人担忧的趋势——减少原创内容创作者的认可。ChatGPT将这一概念进行了逻辑上的延伸,充当了一个无所不知的信息代理,没有任何链接,也没有对原始材料的引用。

像ChatGPT这样的语言模型可以通过总结从互联网上搜罗的内容来回答几乎任何问题,但它无法引导用户访问原始出版者。相反,该模型将从版权作品中获得的知识积累到一个完全由OpenAI 控制的单一界面中。

这些模型的成功依赖于构成互联网的海量数据,而内容创作者对模型训练的重要投入却得不到任何回报。一些规模较大的出版商设法与OpenAI等公司达成协议,但对于规模较小的内容创作者来说,这样的做法是不可行的。还有一些出版商决定干脆阻止人工智能模型搜索他们的内容,但对于闭源模型来说,这一点无法得到保证。

人工智能公司试图为自己的不赔偿行为辩解,称人工智能系统只是从内容中学习——就像人类从阅读中了解世界一样——但在产出内容时并没有侵犯内容创作者。不过,这种说法值得商榷,因为ChatGPT可以逐字逐句地复制《纽约时报》的整篇文章。Midjourney 和 DALL-E 也能生成受版权保护的内容。 其影响显而易见——大科技公司继续巩固权力,而无关联的内容创作者的影响力却在减弱。这种不对称的关系引发了对谷歌的诉讼,而这种关系只会变得更加极端。老牌出版商,如纽约时报已经采取了法律行动,从数字艺术家到编码员等一系列内容创作者也采取了集体诉讼。

一种建议的解决方案是"检索增强生成"(RAG),它允许语言模型为其答案提供来源。然而,这与”精选片段“存在同样的问题——它根本没有给用户任何访问原始网站的理由。更糟糕的是,科技巨头们可以虚伪地利用RAG作为法律掩护,但同时仍剥夺了创作者的流量和广告收入。

图 25:RAG将链接作为来源,此结果由 Perplexity AI 生成

# 3.3.3 加密领域的潜在解决方案

随着像ChatGPT这样的"信息代理"的出现,大科技公司似乎准备重蹈覆辙,垄断人工智能的生成,尽管它们依赖的是未经认可的创作者内容。但是,现在人工智能正在扰乱市场,我们有机会重新分配权力,建立一个更公平的系统来补偿创作者。本世纪初,政策制定者错失了建立公平模式的机会,导致了今天的分配系统——一个由谷歌垄断的系统。当前人工智能的崛起是一个十字路口,我们是要纠正过去的错误,还是要让历史重演,让 OpenAI 和其他科技巨头获得单方面的控制权?

为了长期激励优质内容的生产,我们必须探索继续为创作者提供公平报酬的方法。正如克里斯-迪克森(Chris Dixon)所言,加密货币通过区块链提供了一种解决方案,即充当集体谈判机器,解决类似的大规模经济协调问题,尤其是在当前权力不对称的情况下。它们的治理可以由创作者和人工智能提供商共同管理。

在人工智能方面,创造者可以利用区块链的能力来编写由软件强制执行的使用条款和规定相关限制。例如,通过设定模型训练等商业应用的条件。然后,智能合约将自动执行归属系统,将人工智能系统产生的部分收入分配给贡献者。(在没有只能合约的情况下)即使目前的人工智能公司想要补偿创作者,但是由于人数太多也不太可行。

区块链的可组合性还将减少对任何单一模式的依赖,从而实现更自由的人工智能市场。这种竞争将为创作者带来更友好的利润分享。面对由公正协议执行的统一条款,人工智能公司要么接受创作者制定的集体协议,要么只能放弃;科技巨头再也不能对个人施加单方面的影响力。

对ChatGPT等信息代理的集中控制也引发了对嵌入式广告等问题的担忧。虽然谷歌在搜索结果的顶部对广告进行了明确划分,但AI agents可以将付费推荐无缝整合到回复中。相比之下,基于加密领域的解决方案允许对AI agents进行审计。

# 3.3.4 人工智能代理(AI Agents)与亚马逊

从像ChatGPT这样回答语言模型自然延伸出来的是可以代表用户采取行动的人工智能程序,即从信息代理到行动代理(简称"代理")的转变。这些系统不仅能为你找到最好的蓝牙音箱,还能直接订购送货到家。依靠OpenAI等公司的闭源代理来完成这些任务,将赋予它们超越内容创作市场的巨大力量,有可能让它们主导 6.3 万亿美元的电子商务市场等行业。OpenAI不仅会成为下一个谷歌,也会成为下一个亚马逊。

如果少数几家大型科技公司拥有功能最强大、应用最广泛的人工智能代理,那么它们将对消费者和各行各业产生巨大的影响力。这些代理将对我们越来越广泛的数字生活——购物、旅行和理财——起到中介作用。如果没有人工智能代理,我们就只能依赖 OpenAI或谷歌这样的公司。它们的闭源代理将成为网络世界的守门人,控制我们对关键服务和信息的访问,而且它们可以修改代理的行为,而无需承担任何责任。

这种专有人工智能的权力集中与谷歌和Facebook等大型科技垄断企业的崛起有相似之处。但是,当人工智能代理可以跨领域无缝地采取行动时,其影响将呈指数级增长。这就是去中心化的区块链替代方案如此重要的原因——它们引入了竞争、用户授权和透明度,能够抵御人工智能代理被大型科技公司垄断的风险。

总之,像ChatGPT这样的人工智能模型为我们提供了信息代理,可以代表我们阅读内容并回答问题。这不仅会颠覆我们消费信息的方式,也会颠覆谷歌的商业模式和创作者赖以生存的规则。在这种颠覆面前,我们有机会建立一个对创作者的工作和贡献更公平地产生回报的新互联网。

能够采取行动人工智能代理(例如在线购买商品)的区块链技术将颠覆电子商务。区块链再次为建立公平的互联网模式提供了机会。我们能否从谷歌和亚马逊时代的错误中吸取教训?

# 3.4 加密领域将加速人工智能的开源技术的发展

# 3.4.1 人工智能现在处于什么阶段?

目前,人工智能已成为21世纪发达社会的主要工具。人工智能的应用范围包括艺术、教育、金融、政治、编程以及更多其他应用。只需有限的提示,它就能在几秒钟内生成逼真的视频和图像。程序员已经开始使用人工智能来开发高效实用的代码,将自己的劳动外包给人工智能。现实世界与科幻小说之间的界限正在随着人工智能在我们社会中的每一次应用而变得越来越模糊。

因此,我们很可能会面临劳动力危机。如果我们能够将大量的智力劳动外包给人工智能,那么从经济角度来看,使用人工智能可能很快就会比使用人类劳动力更有优势。如果人类劳动力被人工智能取代,我们就需要适应劳动力市场的这种新状态。这种适应将导致我们当前经济系统的运作方式发生混乱。本节将讨论人工智能的发展方向,以及通过加密技术解决方案防止此类危机发生的方法。

# 3.4.2 我们为什么要关注开源人工智能?

一般来说,开源软件是开放给任何人使用的软件,通常附有许可证,说明可以使用该软件、和不可以使用该软件做什么。开源人工智能是指人工智能软件开放给任何人使用,并通过许可证提供类似的限制。开源项目在通常采取自由参与产品开发的组织形式。它以社区为中心,社区欢迎代码贡献和错误修正,往往具有协作性质。本节将说明人工智能开源的重要性。

人工智能技术的开源可以用来创造一个更具竞争力的人工智能市场。竞争是件好事,因为在开发产品的过程中,有各种各样的人拥有不同的才能和不同的技术水平。假设有一家公司才济济,但却犯了一个大错误,那么竞争性市场就会鼓励人们去弥补这个错误,从而限制错误造成的损害。开源人工智能降低了人们进入人工智能市场的门槛,任何人都可以使用人工智能软件并做出贡献。由于任何人都可以通过开源人工智能进入市场,这就意味着市场上有了更多的竞争者,使该行业的竞争比现在激烈得多。

通过开源人工智能技术可用于保护行业免受恶意伤害。技术是一种强大的工具,但其本身是中性的。它可以用来造福人类,也可以用来危害人类,这取决于技术掌握在谁的手中。我们更希望有好的行为者来掌握这项技术,尤其是为了对抗那些利用技术来伤害人类的行为者。通过开源可以让更多的好人和人才进入人工智能行业。这样可以有效打击那些希望利用人工智能造成危害的人,减少使用人工智能的邪恶势力将使世界更加安全。

此外,人工智能行业的准入门槛降低,人才和技能库得以释放,会促进行业的进一步发展。人工智能能为我们人类带来进步。我们已经概述了其目前的广泛应用,但其仍由巨大的发展潜力,这对我们人类的进步大有裨益。通过开源人工智能技术可以降低人才进入该行业的门槛,从而加速人工智能的发展。更多的人才意味着我们可以制造出更好的人工智能,在社会中得到更广泛的应用。开源人工智能为我们提供了一个工具,让我们能够获得开发这项技术的人才和能力的源泉。

人工智能技术的开源为开发人员提供了自由空间,他们可以根据自己的需要指定和定制人工智能。人工智能的一个特点是可以为特定目的进行定制。定制的人工智能可以满足特定的需要和需求,从而大大提高产品的质量。由于目前人工智能行业的封闭性,开发者定制人工智能软件的能力往往受到限制。开源的人工智能技术将允许开发者自由定制,使他们的产品达到最佳效果。这种自由将带来更好的市场,也将带来更好的产品。

总结来看,”技术-资本“是一个永久增长的机器。通过市场获得的资本推动技术发展,市场通过技术发展创造更多资本,从而形成良性循环。开源人工智能提供了一个竞争、低门槛、自由和协作的空间,这会促进创新和人工智能技术的传播,从而刺激经济增长和更多市场(需求)。这对行业的发展能力和造福人类都至关重要。

# 3.4.3 OpenAI与开源人工智能

在人工智能行业,领先的公司是OpenAI。自2022年发布ChatGPT以来,OpenAI 已在利润和知识方面领跑人工智能行业。他们拥有Microsoft和大科技公司的支持,因此在人工智能市场根基很深。从目前来看,要让开源人工智能与OpenAI在同一水平线上竞争,似乎是一场艰苦的战斗。然而,我们有充分的理由认为,开源人工智能有望在市场上挑战并击败 OpenAI。

将人工智能技术开源能够规避恐惧的政府对人工智能行业实施的监管。目前,世界各地的政府和监管机构都在争相监管和限制新兴的人工智能产业。这种监管的目标是OpenAI所使用的传统人工智能,即由单一组织集中管理和保存的人工智能。这种监管将限制人工智能行业的发展。然而,开源的人工智能项目具有可以没有管理者的优势,而且是去中心化的。这意味着政府很难对开源的人工智项目能进行监管。这就为其提供了一个优势,即未来不会像OpenAI那样受到法规的限制。

此外,我们还看到,开源的人工智能技术和项目可以从OpenAI中获益,而OpenAI却无法从它们中获益。OpenAI的主要目标是实现自身利益的最大化,这意味着他们将大量模型和数据保密,以防止竞争对手利用这些模型和数据为自己谋利。开源人工智能可以使用许可证来阻止OpenAI从不太规范的开发中获益。OpenAI会发现自己在市场中孤立无援,因为他们只是一家公司,而使用开源的人工智能技术和项目的机构却很多。这将意味着,开源公司可以通过限制OpenAI的访问权限,从OpenAI丰富的数据和知识中获益。不过,可能需要新的许可证才能最终为OpenAI提供这种访问权。

最后,与OpenAI相比,开源的技术很有可能吸引那些热衷于改善人工智能的意识形态人士。这是因为它的准入门槛很低。然而,有人可能会认为,这将导致难以协调和开发产品的情况。然而,这类项目并不需要很多人。Linux的Linus Torvalds 就是这样一个例子,一个人持续不断地为项目做出贡献,就能产生如此巨大的影响。OpenAI的准入门槛较高,因此很难吸引有热情的人加入。

尽管现在看来,OpenAI已经牢牢控制了人工智能行业,但开源的人工智能项目可以依靠几条路线来挑战OpenAI的控制。其灵活性、可访问性以及以社区为中心而非以利润为中心的人工智能方法,意味着它拥有强大的工具,可以通过在不断发展和动态的市场中孤立它们来击败OpenAI。它们有潜力击败OpenAI。

# 3.4.4 人工智能技术开源的问题

然而,开源的人工智能技术要想与大型科技公司和OpenAI抗衡,还必须克服一些障碍。这些障碍可分为三个类。首先,这个领域缺乏人才。其次,这些项目和技术缺乏实际工作所需的计算能力。第三,缺乏可供人工智能自我训练和发展的数据。本节将专门阐述这三个问题。

任何组织要想正常运转,都需要人才来提供开发产品所需的创新理念和工作。开源的人工智能项目面临的一个主要问题是,在这些社区工作没有利润或金钱激励。大多数人工智能工程师在决定在以下领域工作时不得不做出选择,要么在大科技公司从事高薪工作,要么冒险创业。安全的选择,也就是大多数人的选择,是在大科技公司工作并在那里谋生。最优秀的人才都去了OpenAI,而不是在没有金钱激励的开源人工智能社区工作。因此,这个领域无法吸引最优秀的人才,也就无法开发出能够挑战大型科技公司的创新产品。

另一个问题是,开源的人工智能项目缺乏必要的计算能力,无法达到OpenAI所能达到的规模。更大规模的人工智能需要更多的GPU来扩大运行规模。GPU价格昂贵,实际上只有 Nvidia一家公司生产。这些开源项目缺乏资金意味着很难为AI模型提供足够的计算能力,从而与OpenAI的ChatGPT竞争。即使是在软件工程方面拥有高质量标准的Linux,也受限于其程序的计算规模。它们缺乏随意访问超级计算机的能力,因此很难与拥有这种特权的OpenAI竞争。

人工智能模型需要数据来训练。尽管Meta和OpenAI等大型科技公司标榜自己是"开放"或"开源"的,但它们用于训练人工智能的数据都是私有的,只对自己开放。它们只公布完成后的人工智能模型,如ChatGPT。这些数据来自Meta 和OpenAI的海量用户群,质量和数量都很高。开源的人工智能项目劣势在于无法获得大量的高质量数据,因此无法使用最好、最多的数据来训练人工智能模型,从而无法与Meta或OpenAI 竞争。因此无法开发出能与 OpenAI 或 Meta 的产品相抗衡的产品。

这些开源的人工智能技术和项目需要的是克服这三大问题的方法,这三大问题阻碍了它们挑战大型科技公司对人工智能行业控制的潜力。我们认为,加密技术可以解决它们的这些问题。

# 3.4.5 加密领域 (crypto) 的人工智能开源解决方案

我们相信,加密技术可以解决上一节概述的所有三个问题。本节将专门针对每个具体问题提出解决方案。

首先,加密货币可以通过在人工智能领域的开源项目中创建收入/奖励系统来解决人才问题。加密货币可以通过为项目贡献提供内在激励来帮助这些项目运转。这方面的一个例子是AGI Guild,这是一个由意识形态开源开发者组成的团体,他们创造了一个许可证,可以奖励为开源项目做出贡献的开发者。

许可证由AGI代币管理。超过100万美元规模的公司必须获得AGI代币才能使用许可证。然后代币将分配给开源人工智能项目的贡献者。这既是对开发者的金钱奖励,也赋予了代币本身的价值,从而鼓励更多的贡献。此外,还有投票系统供成员集体决定项目的发展方向,在开源人工智能领域鼓励任人唯贤和民主,同时获得从开源人工智能中赚钱的能力。

由于现在有了金钱上的激励,未来和现在的人才将不需要把自己的道路视为要么安全地选择Meta,要么在风险投资上孤注一掷,而是看到了第三条道路,即你可以在开发人工智能的过程中赚钱,而不必受到大型科技公司的专有限制。人才将被开源人工智能项目所吸引,将其视为对抗大型科技公司的可行竞争对手。

其次,加密技术可降低访问服务器门槛来解决计算问题。过去,云厂商可能会拒绝开发人员使用其服务器来开发产品。有了加密技术,现在变得无需许可,这意味着任何人都可以获得他们的项目所需的计算能力。这意味着,使用开源人工智能和加密技术的开发人员现在可以根据自己的需要自由使用尽可能多的计算资源。

加密技术还为开发者和社区提供了与云厂商讨价还价的能力。在过去很短的时间内,云厂商可以提高使用价格,因为开源人工智能开发者需要他们的服务器来运行他们的程序。现在,有了加密技术,我们可以将这一系统去中心化,开始挑战云厂商的价格,为更多想要开发开源人工智能的人敞开大门。 现在,社区有办法也有能力向AWS等云计算公司提出挑战,要求降低价格,从而提高产品质量和工作质量。

最后,加密技术可以解决数据问题,帮助那些为开源人工智能项目生成数据的用户提供奖励。这方面的一个例子是Grass,它有一个浏览器插件,可以在用户浏览互联网时生成代币。这种奖励制度意味着,随着时间的推移,随着加密应用提供更多的数据,开源的人工智能项目就能够获得越来越多的数据。这是以去中心化的方式实现的,这意味着我们不会陷入监管机构或大型科技公司发现这一问题并采取禁止IP地址等措施加以阻止的问题。这种方式无法有效阻止,因为有很多人都在使用这种插件,封禁一个人对其他人获取这些数据几乎没有影响。这样一来,这些开源项目开发者就能获得和大公司一样好的数据。这无疑会提高人工智能模型的训练水平。即使是需要保密的数据,加密技术也能充分保护隐私,而且只要数据所属用户同意,加密技术也能对其进行获取,从而更好地使用人工智能模型。

总之,我们发现加密技术能够在爬取数据时满足数据敏感性要求,同时通过向开源人工智能程序更好地提供训练人工智能模型所需的数据。 我们所追求的理想是,开源人工智能系统打败基于闭源软件的私有系统。