“
原作:Vitalik Buterin
原文:https://vitalik.eth.limo/general/2025/02/28/aihumans.html#4
本期文章由 LXDAO 成员 Yewlne 翻译。
01
译文正文
特别感谢 Devansh Mehta、Davide Crapis 和 Julian Zawistowski 提供的反馈和评论。
如果你询问人们为什么喜欢民主结构,无论是政府、工作场所,还是基于区块链的 DAO 组织,他们通常会给出相似的答案:它们避免了权力的集中,给用户提供了强有力的保证,因为没有哪个人能够凭空改变系统的趋势,同时还能汇集众人的智慧,从而做出更好的决策。
但如果你问人们为什么不喜欢民主结构,他们通常会给出相同的抱怨:普通选民缺乏深度思考,因为每个选民对结果的影响微乎其微,只有少数选民会在决定前认真思考,此外我们通常会看到民主还会导致低参与度(低参与度会使整个系统容易受到攻击)或者大家都倾向于信任并模仿某个意见领袖,从而导致事实上的集权。
本文旨在探讨一种新范式,该范式有望借助 AI 来为我们提供民主结构的有点,同时规避其缺点。“AI 是引擎,人类是方向盘”。该模式下,人类仅需要向系统提供少量信息,或许仅有几百份数据,但每份数据都经过深思熟虑,且质量非常高。然后 AI 将这些数据视为“目标函数(objective function)”,并不断做出大量决策,尽力实现这些目标得以实现。特别地,本文还将探讨一个有趣的问题:我们能否在不将单一 AI 置于核心地位的前提下实现这一点,而是依赖于一个开放竞争的市场,让任何 AI(或人机混合体)都能自由参与其中?
目录
为什么不干脆让一个 AI 来负责呢?
Futarchy
蒸馏人类判断
深度资助 DeepFunding
增加隐私
引擎与方向盘设计的好处
为什么不干脆让一个 AI 来负责呢?
将人类偏好融入到基于 AI 的机制,最简单的方案是构建一个单一的 AI 模型,并以某种方式输入人类的偏好。
有很多简单的做法,譬如:你可以只把包含人类指令的文本文件加入到系统提示(System prompt) 里。接着,利用各种“agentic AI 框架”赋予 AI 访问互联网的能力,并把你组织资产和社交媒体的控制权交给它,就大功告成了。
经过几轮迭代,这种方法对许多应用场景来说可能已经足够,我也深信在不久的将来会出现许多类似的框架,让 AI 们读取一群人所提供的指示(甚至是实时的群聊),然后据此采取行动。
然而,若将这种架构用作机构的长期性治理机制,就并不理想。长期存在的机构通常需要具备的一个宝贵特性,就是“可信中立性(credible neutrality)”。在我介绍这个概念的帖子里,我列出了四项对可信中立性非常重要的属性:
不要将特定的人或特定的结果写进治理机制中。
执行过程应开源并可被公开验证。
保持简单。
不要频繁变动。
无论哪一个 LLM(或 AI Agentic 框架)都达不到上面四项要求中的任一项。模型在训练过程中会不可避免地会学习了大量与特定人或特定结果相关的偏好。这会导致 AI 有时在一些意想不到的问题上表现出偏好。例如,最近有研究显示,一些主流大型语言模型对巴基斯坦人的生命的评价远高于对美国人生命的评价(!!)。即便训练的权重是公开的,也依然算不上真正的“开源”,因为我们并不清楚在模型深处隐藏着怎样的“魔鬼”。与“简单”恰恰相反,一个 LLM 的柯尔莫哥洛夫复杂度(Kolmogorov complexity)高达数百亿比特,和美国所有法律(包含联邦、州与地方)加起来的复杂度大致相当。而且由于 AI 改进速度极快,你可能每隔三个月就必须切换新的模型。
正因如此,我更倾向在许多场景中探索另一种思路:让一个简单的机制成为“游戏规则”,而由 AI 来担任“玩家”。这与市场经济能奏效原理异曲同工:市场的规则其实是一个相对简单落后的产权体系,各种边界情况通过法院系统通过不断积累和调整判例来裁定,而最后呈现的智慧都来自在“边界”试探的企业家们。
具体到每个“游戏参与者”,它可以是 LLM 模型、可以是一群 LLM 相互协作并调用各种互联网服务、也可以是各种 AI + 人类的组合,乃至许多其他形态;作为机制设计者,你并不需要知道究竟参与者是哪种形态。理想情况下,我们希望这个机制能像自动装置那样运行 —— 如果该框架的目标是决定要资助什么项目,那么它应当像比特币或以太坊的区块奖励那样,在运作方式上尽可能地自动化。
这种方法的好处在于:
它避免了将任何单一模型固化到机制之中;相反地,你获得的是一个由不同参与者和架构组成的开放市场,它们各自带着不同的偏见。开源模型也好、闭源模型也好、Agent 集群、人类 AI 混合体、“电子改造人”(cyborgs)、甚至“无限猴子(Infinite monkey theorem)”等等,都可以参与;机制本身并不歧视任何形式。
该机制本身是开源的。
虽然具体的“玩家”并非都开源,但“游戏”是开源的 —— 这是一种已经相当成熟的模式(例如政党和市场经济都如此运作)。
机制足够简单,因而几乎没有多少途径让设计者把他们的偏见塞进设计当中。
机制不会改动,即便构建在其上的 AI 参与者的架构,可能每隔三个月就得重新调整一次,一直到奇点来临也不例外。
该引导机制的目标在于忠实呈现指导委员会的内在目标。只需要提供很少的信息,但这些信息必须是高质量的。
你可以将这个机制理解为利用了“输出答案”与“验证答案”之间的不对称性。
这就像数独(sudoku)很难解,但很容易验证结果对错一样。需要你(i)先创建一个开放的市场,让众多参与者来当“解题者”(ii)然后,只需维护一个由人类管理的机制,完成一个简单得多的工作:验证已有输出的解答是否正确。
Futarchy
Futarchy 最初由 Robin Hanson 提出,其口号是“对价值投票,但对信念下注”。即一个投票机制会选择一组目标(可以是任何东西,但前提是它们必须可量化),并将它们整合成一个指标 M。当你需要做出决策时(为简单起见,我们先以决策仅有“是 / 否”作为例子),就设立条件市场(conditional markets),让人们对以下内容进行下注:(i) 最终选择“是”还是“否”;(ii) 如果选“是”,则 M 的价值是多少(否则为零);(iii) 如果选“否”,则 M 的价值是多少(否则为零)。有了这三项变量,你就可以根据市场的下注情况,推断市场认为 YES 还是 NO 对 M 的数值更有利。
“公司股价”(或者,某加密货币价格)是最常被引用的指标,因为价格直观易懂又便于衡量。不过,这种机制也能支持多种指标:如每月活跃用户数、特定群体自评的幸福感中位数、衡量去中心化程度的某种量化指标等等。
Futarchy 最初是在前 AI 时代被发明的。然而,它与之前所描述的“求解者复杂、验证者简单”范式非常契合,Futarchy 中的交易者也可以是 AI(或人类与 AI 的组合)。在这里,“解答者”(即预测市场交易者)的角色是判断每一个输出方案在未来会如何影响某个指标的数值。这很难。如果判断正确,解答者就能赚钱;如果判断错误,他们就会亏钱。而“验证者”(对度量指标进行投票的人,如果他们发现指标被“操纵”或过时,就会对其进行调整,并在将来某个时刻确定该指标的真实数值)只需要回答一个相对简单的问题:“当前指标的数值是多少?”
蒸馏人类判断(Distilled human judgement)
蒸馏人类判断是一类机制,其运行方式如下:有一个非常庞大的问题集合(想象有一百万道题)需要作答。以下是一些直观的例子:
在这个列表中的每个人,为某项目或某项工作作出了多大贡献,应得到多少额度的认可?
哪些评论违反了某社媒平台(或某衍生社区)的规定?
在这些给到的以太坊地址中,哪些真正代表了独立且真实存在的人类?
下列物理对象中,哪些对周围环境的美学有积极或消极影响?
你可以设置一个“评审团”来回答这些问题,但这需要他们在每个回答上投入大量精力。你只需要让评审团只回答其中极少数的问题(例如,如果问题总数有一百万条,评审团也许只回答其中的一百条)。你甚至可以让评审团回答间接问题:不一定要直接问“Alice 在整体贡献中应占百分之几?”,也可以问“与 Bob 相比,Alice 应获得更多贡献度吗?如果更多,多几倍?” 在设计评审团机制时,你可以借鉴真实世界中成熟的模式,例如拨款委员会、法庭(评定判决的价值)或评估体系等等,当然,评审团成员也完全可以使用各种最新的 AI 研究工具来帮助他们输出答案。
接下来,你允许任何人对整个问题集合提交一个数值回答列表(例如,提供各个参与者应当得到多少贡献度的估计)。我们鼓励参与者使用 AI 来完成这项工作,但他们可以使用任何方法:AI、人类与 AI 的组合、具备互联网搜索能力、雇佣他人、或调用其他 AI 能力的 AI,乃至“机械改造猴子”之类等,都可以。
一旦完整答案列表的提交者和评审团都交出了各自的结果,就会将这些全量答案与评审团的答案进行对比,并从中选出最符合评审团答案的一个或若干个组合,作为最终结果。
蒸馏人类判断虽与 Futarchy 不同,但也存在一些重要的相似点:
在 futarchy 中,“解答者”是在做预测,而这些预测会与“真实数据”相比对(以决定对解答者的奖励或惩罚)。这里的“真实数据”是由评审团所管理的预言机输出的指标。
在蒸馏人类判断中,“解答者”针对海量问题给出答案,而他们的预测同样会与“真实数据”进行对比。不同之处在于,这里的“真实数据”是一部分小规模且高质量的答案,由评审团提供。
蒸馏人类判断在“贡献度分配”中的一个示例可以参见此处的 Python 代码(https://github.com/deepfunding/scoring/blob/main/example.py)。脚本会让你扮演评审团的角色,并且在代码中已经预先包含了部分由 AI(以及人类)生成的完整答案列表。该机制会找出哪种全量答案的线性组合与陪审团的答案最为匹配。在这一示例中,最终胜出的组合是 0.199×Claude + 0.801 × Deepseek,这一组合比任意单个模型的回答都更能贴合评审团的结果。这些系数同时也代表会分配给提交者的奖励比例。
在“打败索伦(defeating Sauron)”这个示例中,“人类作为方向盘”体现在两个方面。首先,每个具体问题都需要高质量的人类判断,虽然这仍然依赖于陪审团作为“技术官僚”来评估表现。同时还存在一种隐含的投票机制,用于决定“打败索伦”是否真的是一个合理的目标(也许我们应该选择与他结盟,或者割让某条关键河流以东的土地来换取和平等等)。另外,还有许多采用蒸馏人类判断的用例,其评审团任务会更加直接地涉及价值判断:比如,可以想象一个去中心化的社交媒体平台(或衍生社区),评审团的工作就是对随机抽取的帖子进行标记,判断它是否遵守社区规则。
蒸馏人类判断(Distilled Human Judgement)范式中的一些未定因素:
如何进行抽样?全量答案提交者负责提供大量答案输出,而评审团的角色是提供高质量答案。因此,我们需要合理选择评审团成员,并合理分配评审团需要评估的问题,使得模型与评审团答案的匹配度尽可能准确地反映其整体表现。在这一过程中,需要考虑以下因素:
专业性与偏见的权衡(Expertise vs bias tradeoff)经验丰富的评审团成员通常在其专业领域内具备更高的判断力,因此让他们自主选择要评估的内容,可能会带来更高质量的输入。然而,赋予评审团过多的裁定权可能会导致两种问题:过多的选择可能引入偏见(例如,陪审员可能偏爱与自己有联系的内容),或导致采样存在漏洞(某些内容可能会系统性地被忽略)。
反“古德哈特定律”策略(Anti-Goodharting)在 AI 系统中,总会存在试图“操纵”评分机制的内容,例如:某些仓库可能有大量看似精美但实际无用的代码,以博取更高评价。这意味着,评审团可能可以察觉到这些欺骗行为,而静态 AI 模型往往无法做到,除非进行了额外的优化。一种可能的解决方案是引入挑战机制(challenge mechanism),允许个体举报疑似操纵行为,并确保评审团会对这些举报内容进行评估。(从而激励 AI 开发者确保能正确识别这些问题)。如果陪审团认同标记者的观点,举报者将获得奖励;反之,则会面临处罚。
使用什么评分函数?在当前的深度资助(deep funding)试点中,一个正在使用的方法是让评审团回答:“A 和 B 之中,谁应该获得更多的贡献度?如果更多,应该是几倍?”对于评分函数,当前的一个计算方式是:
score(x) = sum((log(x[B]) - log(x[A]) - log(juror_ratio)) ** 2 for (A, B, juror_ratio) in jury_answers)
也就是说,对于每个陪审团提供的答案,该函数衡量全量答案中 A 和 B 的比值与陪审团给定的比值之间的偏差(在对数空间中),并以偏差平方作为差距惩罚。这表明评分函数的设计空间非常广泛,而具体使用哪种评分函数,与评审团被问及的具体问题密切相关。
如何奖励完整答案列表提交者?在理想情况下,希望让多个参与者都能获得非零奖励,以避免机制被单个提交者垄断。同时,我们还希望确保:一个参与者不能通过提交相同(或稍作修改)的答案多次来增加自己的奖励。一个有设计前景的方法是:直接计算最佳符合评审团答案的完整答案列表的线性组合,要求其系数非负且总和为 1,然后按照这些系数来分配奖励。此外,也可以探索其他方法。
总体而言,该机制的目标是:利用那些已被证明有效、能最大限度减少偏见并经受住时间考验的人类判断机制(例如:法庭的对抗结构——诉讼双方掌握大量信息却可能偏颇,而法官则信息有限但通常公正),并借助一个开放的 AI 市场,作为这些机制的高保真且低成本的预测器(这类似于大语言模型“蒸馏”的过程)。
深度资助(Deep Funding)
深度资助是一种蒸馏人类判断(Distilled Human Judgement, DHJ)的应用,专门用于计算图结构中边的权重,即“X 的贡献中有多少百分比归因于 Y?”
最简单的方式是通过示例来说明:
两级深度资助示例:以太坊的思想起源(Python 代码示例可参考这里 https://github.com/deepfunding/scoring/blob/main/example2.py)
在这个示例中,目标是分配对以太坊哲学贡献的归属。以下是一个计算过程示例:
模拟的深度资助轮次显示,赛博朋克运动(Cypherpunk Movement)获得了 20.5% 的贡献度,而技术进步主义(Techno-Progressivism)获得了 9.2%。
在每个节点内部,我们需要进一步问:这部分贡献有多少是原创的(即其自身应获得贡献度)?有多少是对上游影响的重新组合?例如,在赛博朋克运动(Cypherpunk Movement)中,有 40% 是新的原创贡献,而 60% 来自上游影响。
然后可以继续追溯这些节点的上游影响:自由意志主义的最小政府(Libertarian minarchism)与无政府主义(anarchism)贡献了 17.3% 给赛博朋克运动。瑞士直接民主(Swiss direct democracy)贡献了 5%。
值得注意的是,自由意志主义最小政府(Libertarian Minarchism)和无政府主义(Anarchism)不仅影响了赛博朋克运动(Cypherpunk Movement),还直接影响了比特币的货币哲学(Bitcoin’s monetary philosophy)。因此,它们通过两条路径间接影响了以太坊的哲学思想。
要计算自由意志主义最小政府和无政府主义对以太坊的总贡献,需要沿着每条路径计算权重,并将两条路径的贡献值相加:
这意味着,如果你打算捐赠 $100 来奖励那些为以太坊哲学做出贡献的人,那么根据这一模拟的深度资助轮次,自由意志主义最小政府和无政府主义的贡献份额为 4.66 美元。
这种方法适用于那些工作建立在先前成果之上的领域,并且其结构清晰可追溯。两个自然的应用场景包括:学术界(类似于引用图谱,Citation Graphs)、开源软件(类似于库依赖关系和分叉机制,Library Dependencies & Forking)
一个运行良好的深度资助系统,其目标是创建和维护一个全球贡献图(Global Contribution Graph)。在这个系统中:资助者(Funder) 可以向某个具体的项目节点发送资金。资金会根据图中的分支权重,自动传递到其依赖项(Dependencies),并且递归地继续分配到更上游的贡献者。这样,贡献者能够持续获得激励,而不仅仅依赖于一次性捐赠或早期奖励。
你可以想象一个去中心化协议,通过内置的深度资助机制(deep funding gadget)来发行其代币。在这个过程中,协议内的去中心化治理将选出一个评审团,该评审团负责运行深度资助机制,而协议会自动发行代币并将其存入与自身对应的节点。通过这种方式,协议能够以程序化的方式奖励其所有直接和间接贡献者,这类似于比特币或以太坊的区块奖励机制,它们曾奖励过某一特定类型的贡献者(矿工)。此外,评审团可以通过调整边的权重来持续定义其所认可的贡献类型。该机制可作为一种去中心化且可持续的长期方案,替代传统的挖矿、代币销售或一次性空投模式。
增加隐私保护
在许多情况下,做出合理判断往往需要访问私密信息,例如组织的内部聊天记录、社区成员私下提交的信息等。对于较小规模的场景来说,“仅使用单个 AI” 的一个显著优势在于,相较于将信息公开给所有人来说,让一个 AI 访问这些数据更容易被接受。
为了在这些场景中实现提炼的人类判断或深度资助机制,我们可以尝试使用密码学技术,让 AI 在安全的前提下访问私密信息。具体而言,可以利用多方计算(MPC)、全同态加密(FHE)、可信执行环境(TEEs)等技术机制,使私密信息能被 AI 实用,但仅限于那些其唯一输出是“完整答案列表提交”,并将私密信息直接纳入机制处理的系统。
如果采取这种方法,那么需要将可访问私密信息的对象严格限定为 AI 模型,而不能包括人类或“AI + 人类”的组合,因为人类无法直接接触这些数据。此外,这些 AI 模型必须运行在特定的计算环境中,例如多方计算(MPC)、全同态加密(FHE)或可信硬件(trusted hardware)。当前的一个重要研究方向是探索在现实条件下可行的实用方案。
“引擎 + 方向盘” 设计的优势
这种设计方案带来了许多有前景的优势。其中最重要的一点是,它能够构建一人类投票者负责设定总体方向,但不需要处理过多繁琐的决策的 DAO。它找到了一个皆大欢喜的平衡点,个人无需直接做 N 个决策,但同时他们拥有的权力也不局限于仅仅做出一个决策(传统委托方式通常仅要求做出一项决策),而且这种方式更能激发出那些难以直接表达的内在偏好。
此外,这类机制似乎还具备激励均衡(incentive smoothing)的特性。这里的“激励均衡”指的是以下两个因素的结合:
扩散性(Diffusion):投票机制的任何单一决策都不会对某个特定个体的利益造成过大的影响。
混淆性(Confusion):投票决策与其对各方利益的影响之间的关联更加复杂,难以被精确计算或预测。
“混淆(Confusion)”和“扩散(Diffusion)”这两个术语借鉴自密码学,都是加密算法和哈希函数安全性的关键属性。
一个现实世界中激励均衡的典型例子是法治(rule of law)。政府的顶层决策者不会直接做出类似于“给 Alice 的公司拨款 2 亿美元”或“对 Bob 的公司罚款 1 亿美元”这样的具体决定,而是制定对广泛主体一视同仁的规则,这些规则再由独立的执行机构进行解释和实施。当这种机制运作良好时,它能大幅降低贿赂和腐败的驱动力,而一旦规则被破坏(如现实中经常发生的情况),这些问题便会迅速恶化。
AI 显然将会在未来占据重要的位置,而这也必然会成为未来治理的重要组成部分。然而,如果将 AI 纳入治理也会存在明显的风险:AI 存在偏见,在训练过程中可能会被恶意篡改,而且 AI 技术发展如此迅猛,“让 AI 掌舵”实际上可能就意味着“让负责升级 AI 的人掌舵”。蒸馏人类判断则提供了一条替代路径,让我们能够以开放的自由市场方式利用 AI 的力量,同时依然保持由人类主导的民主治理。
如果你有兴趣更深入地探索和参与这些机制,强烈建议你查看当前正在进行的深度资助回合,详情请访问:
https://cryptopond.xyz/modelfactory/detail/2564617。
·END·
编译 | Yewlne
编辑 & 排版 | Yewlne、环环
设计 | Daisy
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。