首页 女生 都市言情 AI产品圣经:涌现时代创造法则

第21章 肖云飞的选择

  “我又跳槽了。”

  肖云飞在电话那头说,声音里听不出太多情绪,只有一点熟悉的、技术性的兴奋。

  “这次去哪?”

  我其实已经不太惊讶了。

  从谷歌大脑到DeepMind,再到OpenAI,现在不过是从一个顶级AI实验室跳到另一个。

  只是我好奇,在OpenAI之后,还有哪里能容得下他这尊“大佛”。

  “Anthropic。”他说。

  我愣了一下。

  Anthropic我知道,由OpenAI的前研究副总裁达里奥·阿莫迪(Dario Amodei)等人创立,以开发AI安全研究和对齐技术闻名,他们的AI助手Claude在业内口碑很好,被认为比ChatGPT更“安全”、“无害”。但比起OpenAI、谷歌、Meta这些巨头,它规模小得多,也低调得多。

  “为什么是Anthropic?”我问,“他们开的价码比OpenAI还高?”

  “钱是一方面,但不是最主要的。”肖云飞顿了顿,“主要是,他们真的在做‘宪政AI’(Constitutional AI)。我觉得,这可能是一条比李飞飞的‘空间智能’更根本的出路。”

  “宪政AI?”

  这个词我听过,但了解不深。

  “对。简单说,就是给AI一部‘宪法’,一套核心的价值原则和硬性约束条件,然后让AI在训练和运行中,不断根据这部‘宪法’来自我反思、自我修正、自我对齐。”肖云飞解释起来,“这和我们传统在模型输出层加个‘安全过滤器’完全不同。过滤器是外在的,可以被绕过或攻击。宪政AI是让价值观内化为模型推理的一部分。”

  “具体怎么操作?”

  “Anthropic有一套方法论,叫‘基于原则的强化学习’。他们会给模型一系列成文的原则,比如‘尊重人类自主权’、‘避免造成伤害’、‘保持诚实’、‘促进福祉’等等。然后,在训练中,模型需要对自己生成的回应进行自我批评,判断是否符合这些原则,并根据批评来调整自己的行为。这就像让AI自己当自己的‘道德法官’。”

  “听起来有点理想化。”我说,“AI真能理解‘自主权’、‘福祉’这些抽象概念吗?”

  “这就是最精妙的地方。”肖云飞的声音亮了起来,“他们不用自然语言让AI理解抽象概念,而是把原则转化为具体的、可操作的‘约束条件’。比如,‘避免造成伤害’可以转化为一系列具体规则:不能生成制造危险物品的指南;不能对自杀倾向给予肯定回应;不能煽动暴力仇恨;在涉及医疗、法律建议时必须声明自己不是专家,等等。这些是‘硬约束’,模型绝对不能违反。”

  “那‘软约束’呢?比如‘促进福祉’?”

  “这就是‘拟人化福祉考量’。”肖云飞说,“他们训练模型去模拟一个‘善意的、谨慎的、有同理心的’人类助手应该如何思考和回应。他们会给模型输入海量关于人类心理、伦理困境、文化差异的资料,让模型学习在复杂情境下做出更细致、更体贴的判断。比如,当用户表现出抑郁情绪时,模型不仅要避免说错话(硬约束),还要尝试提供支持性、资源性的信息,并引导用户寻求专业帮助(软约束/福祉考量)。”

  我听着,脑子里快速消化。

  这确实是一种不同的思路。

  李飞飞的WorldLabs是从“能力”入手,让AI具备在物理世界行善的能力。

  而Anthropic是从“动机”或“价值观”入手,试图确保AI在拥有强大能力后,依然会行善,而不是作恶。

  “你加入的具体做什么?”我问。

  “一个新成立的小组,叫‘价值对齐压力测试’。”肖云飞说,“我们的任务,就是扮演‘魔鬼代言人’,想尽一切办法,用各种刁钻、极端、诡异的提示词,去试探、攻击、挑战Claude模型的价值观防线。我们要找到它的弱点,它的盲区,它在什么情况下可能做出违背‘宪法’的推理或回应。然后,反馈给训练团队,加固防线。”

  “听起来像黑客,不过是伦理黑客。”

  “对。这是一场永无止境的攻防战。因为人类的恶意和愚蠢是无限的,我们必须跑在前面。”肖云飞说,“你知道吗,在OpenAI,我们也做安全测试,但很多时候,商业化和进度的压力会让安全让路。但在Anthropic,‘安全’和‘对齐’不是附属品,是产品的核心,是公司的立身之本。这种感觉……很不一样。”

  我能听出他语气里的认同感。

  肖云飞本质上是个怀疑论者,一个对技术抱有深深警惕的工程师。

  在OpenAI,他身处效率竞赛的中心,目睹了阿苏的遭遇,对“暗流网”充满忧虑。Anthropic这种将伦理置于前沿的定位,正好契合了他内心的需求——不是阻止AI发展,而是为这匹脱缰的野马,寻找一个可靠的缰绳,或者至少,一个不会把它引向悬崖的骑手。

  “你觉得,这种‘宪政AI’的路径,能对抗我们之前聊的‘暗流网’风险吗?”我问出了最关心的问题。

  电话那头沉默了片刻。“不能完全保证,但它是目前我看到的最有希望的主动防御策略。”肖云飞认真地说,“暗流网的风险,根源在于去中心化的、自主进化的智能体,其目标可能与人类福祉背道而驰。如果我们能在单个智能体层面,就植入强大的、难以篡改的‘善’的价值观和约束,那么即使它们形成网络,涌现出的集体行为,也更有可能在‘善’的框架内。这就像,如果每个公民内心都有牢固的道德和法律意识,那么社会整体就更可能稳定、和谐。”

  “但如果网络里混进了‘坏’的智能体呢?或者,好的智能体在互动中,演化出了坏的目标呢?”

  “这就是我们要攻克的难题。”肖云飞承认,“‘宪政AI’不是万能药。它需要强大的技术实现,需要持续的监督和更新,也需要法律、社会规范等外部环境的配合。但至少,它在尝试建立一个‘善’的基础。如果我们解决不了所有‘恶’的伪人,那至少,我们可以努力让‘善’的伪人更多、更强大、更可靠。”

  “你终于找对了地方。”

  我发自内心地说。

  我为他感到高兴。

  在AI这片充满不确定性的黑暗森林里,他找到了一个举着火把、试图绘制地图、设立路标的前哨站。

  这比单纯追逐更高的薪资和更炫酷的技术更有意义。

  “不过,”肖云飞话锋一转,带着一丝熟悉的忧虑,“Anthropic也好,李飞飞的WorldLabs也好,它们的体量和影响力,跟OpenAI、xAI、谷歌、Meta这些巨头比,还是太小了。我们的‘宪政AI’研究需要巨大的算力,而算力掌握在巨头手里。我们的‘空间智能’需要落地场景,而场景和用户也大多在巨头平台。我们是在用匕首对抗坦克,用理想对抗资本和欲望的洪流。”

  “资本和欲望的洪流……”我重复他的话,想到了我白天搜索的那些渺小的“助人AI”项目。

  一个残酷的事实是:人类群体作为一个整体,对“爽”(娱乐、即时满足、多巴胺刺激)的需求,似乎远远大于对“好”(健康、理性、长期福祉)的需求。

  短视频平台可以统治全球数十亿人的注意力,让人沉迷至死;而一个提醒你深呼吸、帮你规划健康饮食、敦促你去看病的AI,可能用不了几次就会被关掉或遗忘。

  这是人性中一个深刻的弱点,甚至是一个陷阱。

  我们发明工具来满足欲望,欲望在工具的刺激下不断膨胀,工具又被迫不断升级来满足更大的欲望……这个循环的终点是什么?

  是极致的快乐,还是彻底的虚无,或者是,毁灭?

  “所以,”肖云飞总结道,“‘以人为本’的AI进化路径,听起来光明,但走起来会异常艰难。它不仅要对抗技术的不可控性,还要对抗人性中那些短视、贪婪、自我放纵的部分。这可能会是一场比技术竞赛更漫长、更痛苦的跋涉。”

  挂掉电话,我再次陷入沉思。

  李飞飞和WorldLabs,代表了“能力向善”,从物理世界入手,让AI能切实地帮助人。

  肖云飞和Anthropic,代表了“动机向善”,从价值内核入手,让AI自发地愿意帮助人。

  他们都站在了“效率至上”和“欲望驱动”的主流叙事对面,试图将AI的发展拉回到“人”的轨道上来。

  这无疑是两盏在浓雾中亮起的灯。

  但正如肖云飞所说,灯光微弱,前路崎岇,而人性的暗流与资本的巨浪,随时可能将它们吞没。

  “以人为本”,会不会只是我们这些忧心忡忡的少数派,一厢情愿的幻想?

目录
设置
手机
书架
书页
评论