【SCIENTIFIC AMERICAN】 人工智能最终让我们可以与动物交流

【SCIENTIFIC AMERICAN】人工智能最终让我们可以与动物交流

——人工智能即将彻底改变我们对动物交流的理解

在南太平洋的一个偏远岛屿上，茂密的森林树冠下，一只新喀里多尼亚乌鸦从栖木上凝视着，黑色的眼睛闪闪发光。这只鸟小心翼翼地拿走一根树枝，用嘴巴剥去不需要的叶子，然后用木头制作一个钩子。这只乌鸦是一位完美主义者：如果它犯了一个错误，就会放弃整个工作重新开始。当它满意时，它将制成的工具插入树中的一个裂缝，然后钓出一只蠕动的幼虫。

新喀里多尼亚乌鸦是众所周知的少数几种能够制造工具的鸟类之一，这一技能曾经被认为是人类独有的。克里斯蒂安·鲁茨（Christian Rutz）是苏格兰圣安德鲁斯大学的行为生态学家，他的职业生涯中大部分时间都用来研究这种乌鸦的能力。鲁茨所见到的杰出智慧改变了他对鸟类能力的理解。他开始想知道是否还存在其他被忽视的动物能力。这些乌鸦生活在复杂的社会群体中，可能会将制造工具的技巧传给它们的后代。实验还表明，岛上不同的乌鸦群体有着不同的语音表达方式。鲁茨想知道这些方言是否可以帮助解释各群体在制造工具方面的文化差异。

由人工智能支持的新技术正准备提供这些洞察力。动物是否以我们能够理解的方式相互沟通，一直是一个引人入胜的问题。尽管许多土著文化中的人长期以来一直认为动物可以有意识地进行交流，但西方科学家传统上一直回避研究涉及模糊了人类和其他动物之间界限的领域，以免被指责为拟人主义。但是随着人工智能的最新突破，“人们意识到我们即将在理解动物的交流行为方面取得相当重要的进展，”鲁茨说。

除了创建能够迷倒人们的聊天机器人和制作赢得美术比赛的艺术品之外，机器学习很快可能会使解读像乌鸦的鸣叫这样的事情成为可能，这是非营利性的Earth Species Project的创始人之一Aza Raskin说的。该组织的人工智能科学家、生物学家和保护专家正在收集各种物种的大量数据，并建立机器学习模型来分析这些数据。其他组织，如Project Cetacean Translation Initiative（CETI），专注于试图理解特定物种，比如抹香鲸。

解码动物的声音可能有助于保护和福祉工作。它还可能对我们产生惊人的影响。Raskin将即将到来的革命与望远镜的发明相比较。他说：“我们望向宇宙，发现地球不是中心。”他认为，人工智能改变我们对动物的理解的力量将产生类似的影响。“这些工具将改变我们看待自己与一切关系的方式。”

Shane Gero在进行了一天的野外工作后，从多米尼克的研究船上下来时兴奋不已。他研究的抹香鲸有复杂的社会群体，而在这一天，一只熟悉的年轻雄性抹香鲸回到了它的家庭，为Gero和他的同事提供了一个记录这个群体鸣叫的机会，因为它们重新团聚。

在近20年的时间里，Gero，作为渥太华卡尔顿大学的驻地科学家，详细记录了加勒比海碧绿的海水中两支抹香鲸部落的情况，捕捉了它们的点击声音以及它们在发出这些声音时的行为。他发现这些鲸鱼似乎使用特定的声音模式，称为编码，来识别彼此。它们学习这些编码的方式很像幼儿学习单词和名字，通过模仿周围成年鲸鱼发出的声音。

在手动解码了其中一些编码后，Gero和他的同事开始想知道是否可以使用人工智能来加速翻译过程。作为概念验证，该团队向神经网络输入了Gero的一些录音，神经网络是一种通过分析数据来学习技能的算法。它能够以99%的准确率正确识别出从编码中的一小部分鲸鱼。接下来，该团队制定了一个雄心勃勃的新目标：聆听大片海洋，希望训练计算机学会与鲸鱼交流。由Gero担任首席生物学家的Project CETI计划部署一个连接到浮标上的水下麦克风，全天候记录多米尼克的常驻鲸鱼的声音。

随着传感器价格降低和水声传感器、生物记录仪、无人机等技术的改进，动物数据量激增。对于生物学家来说，现在有太多数据需要高效地手工筛选。然而，人工智能擅长处理大量信息。大型语言模型如ChatGPT必须摄取大量文本数据才能学会如何回应提示：ChatGPT-3是在大约45TB的文本数据上进行训练的，这相当于整个国会图书馆的一部分。早期的模型需要人类为这些数据添加标签。换句话说，人们必须教会机器什么是重要的。但下一代模型学会了如何进行“自我监督”，自动学习什么是重要的，并独立创建一个算法，以预测序列中接下来的单词。

2017年，有两个研究小组发现了一种在不需要罗塞塔石的情况下进行人类语言翻译的方法。这一发现依赖于将单词之间的语义关系转化为几何关系。机器学习模型现在能够通过调整它们的形状来在未知的人类语言之间进行翻译，比如使用诸如“母亲”和“女儿”等词汇在彼此附近出现的频率，以准确预测接下来会出现什么。Raskin说：“似乎有这种隐藏的基本结构将我们所有人联系在一起。”“已经打开了使用机器学习解码我们不知道如何解码的语言的大门。”

2020年，自然语言处理开始能够“将一切都视为一种语言”，Raskin解释道，该领域取得了另一个里程碑。以DALL-E 2为例，它是能够根据口头描述生成逼真图像的人工智能系统之一。它以非常高的精度将表示文本的形状映射到表示图像的形状，这正是动物交流翻译可能需要的“多模态”分析。

多动物同时使用不同的交流方式，就像人类在说话时使用身体语言和手势一样。在发出声音之前、期间或之后立即采取的任何行动都可能为理解动物试图传达的信息提供重要背景。传统上，研究人员将这些行为编目列为一种称为ethogram的列表。通过适当的训练，机器学习模型可以帮助解析这些行为，也许还可以在数据中发现新的模式。例如，去年发表在《自然通讯》杂志上的科学家们报告说，一个模型发现了斑胸草雀歌曲中以前未被认识到的差异，这些差异是雌鸟在选择配偶时关注的。雌鸟更喜欢那些唱得像雌鸟在幼年时长大的鸟类的伴侣。

你已经可以使用一种基于AI的分析方法，这是康奈尔鸟类学实验室免费提供的Merlin应用程序，可以识别鸟类物种。为了通过声音来识别鸟类，Merlin接受用户的录音并将其转换成频谱图——一种显示鸟类叫声的音量、音调和长度的可视化。该模型经过康奈尔大学音频库的训练，它将用户的录音与库中的数据进行比对以预测物种识别。然后，它将这个猜测与康奈尔大学的eBird全球观察数据库进行比对，以确保这是用户所在地区可以预期找到的物种。Merlin可以以非常高的准确度识别超过1,000种鸟类的叫声。

这些工具不仅正在改变研究，而且还具有实际价值。如果科学家能够翻译动物的声音，他们可能能够帮助受威胁物种。夏威夷乌鸦，当地称为“Alalā”，在21世纪初已经在野外灭绝。最后的乌鸦被送入圈养以启动保护繁育计划。在他与新喀里多尼亚乌鸦的研究基础上，Rutz现在正在与Earth Species Project合作，研究夏威夷乌鸦的词汇。他说：“这个物种已经很长时间被从其自然环境中移除了。”他正在制定目前被囚禁的鸟类所使用的所有叫声清单。他将把这与最后一批野生夏威夷乌鸦的历史录音进行比对，以确定它们的叫声库是否在圈养中发生了变化。他想知道它们是否可能丧失了重要的叫声，比如与捕食者或求偶有关的叫声，这可能有助于解释为什么重新引入乌鸦到野外如此困难。

机器学习模型可能有朝一日可以帮助我们理解我们的宠物。长期以来，动物行为学家并没有太关注家养宠物，Con Slobodchikoff说，他是《追寻杜立德医生：学习动物语言》一书的作者。当他开始研究草原犬时，他迅速欣赏到它们复杂的叫声，可以描述捕食者的大小和形状。这一经验有助于他后来作为行为顾问来研究行为不端的狗。他发现，许多客户完全误解了他们的狗试图传达的信息。当我们的宠物尝试与我们沟通时，它们通常使用多模态信号，例如与体态相结合的吠声。然而，“我们过于专注于声音是唯一有效的沟通元素，以至于我们忽略了许多其他信号”，他说。

现在，Slobodchikoff正在开发一个旨在为宠物狗的主人翻译狗的面部表情和吠声的AI模型。他毫不怀疑，随着研究人员将研究扩展到家养动物，机器学习的进展将揭示宠物的令人惊讶的能力。“动物有思想、希望，也许有自己的梦想，”他说。

养殖动物也可能从这种深入的理解中受益。哥本哈根大学动物行为学副教授Elodie F. Briefer已经证明，根据动物的声音可以评估它们的情感状态。她最近创建了一个基于成千上万头猪声音的算法，使用机器学习来预测动物是否经历积极或消极的情感。Briefer表示，更好地理解动物如何体验情感可能会推动改善它们福祉的努力。

尽管语言模型擅长找到模式，但它们实际上并没有解读含义，而且它们并不总是正确的。即使是人工智能专家也经常不理解算法是如何得出结论的，这使得验证它们变得更加困难。曾参与开发Merlin应用程序并加入Earth Species Project的Benjamin Hoffman表示，科学家现在面临的最大挑战之一是如何从这些模型所发现的内容中学习。

“在机器学习方面做出的选择会影响我们可以提出什么样的科学问题，”Hoffman说。他解释说，Merlin Sound ID可以帮助检测出哪些鸟类存在，这对生态研究很有用。然而，它无法回答关于行为的问题，比如个体鸟在与潜在伴侣互动时会发出什么类型的叫声。在试图解释不同类型的动物交流时，Hoffman表示研究人员还必须“了解计算机在学习如何做到这一点时正在做什么”。

马萨诸塞理工学院计算机科学与人工智能实验室主任Daniela Rus坐在她的办公室的扶手椅上，周围堆满了书和文件。她渴望探索机器学习为研究动物交流所开辟的新可能性。Rus以前曾设计远程控制机器人来收集鲸类行为研究数据，与生物学家Roger Payne合作，他在上世纪70年代录制的座头鲸歌曲帮助推动了拯救座头鲸运动的普及。现在，Rus将她的编程经验带到了CETI项目中。用于水下监测的传感器迅速取得了进展，提供了捕捉动物声音和行为所需的设备。而能够分析这些数据的人工智能模型也得到了显著改进。但直到最近，这两个领域还没有结合在一起。

在Project CETI，Rus的第一个任务是从海洋领域的背景噪音中分离出抹香鲸的齿音。与二进制代码相比，抹香鲸的声音表示信息的方式要更复杂。但它们比这更复杂。在她开发出准确的声学测量后，Rus使用机器学习来分析这些齿音如何组合成编码，寻找模式和序列。“一旦具备了这个基本能力，”她说，“那么我们就可以开始研究语言的一些基本组成部分是什么。”Rus表示，团队将直接解决这个问题，“分析（抹香鲸）词汇是否具有语言的属性”。

但理解语言的结构不是说话的先决条件——至少不再是。现在，AI可以接受三秒钟的人类语音，然后用完全模仿的模式和语调长时间发言。Raskin预测，在接下来的一两年中，“我们将能够为动物交流构建这种技术。”Earth Species Project已经在开发模拟各种物种的AI模型，旨在与动物“交流”。他说，双向交流将使研究人员更容易推断动物声音的含义。

与外部生物学家合作，Earth Species Project计划进行回放实验，在实验室环境中播放人工生成的叫声给斑胸草雀，然后观察这些鸟的反应。Raskin断言说，很快“我们将能够通过斑胸草雀、乌鸦或鲸鱼图灵测试”，这指的是动物将无法分辨他们正在与机器还是与同类进行对话的时刻。“情节反转在于，在我们理解之前，我们将能够进行交流。”

这一成就的前景引发了伦理关切。数字创新研究员、《生活的声音：数字技术如何让我们更接近动植物世界》一书的作者Karen Bakker解释说，可能会产生意想不到的后果。商业行业可能会利用AI来进行精确捕鱼，通过听取目标物种或其捕食者的声音来定位它们的鱼群；偷猎者可能会利用这些技术来找到濒危动物并模仿它们的叫声以引诱它们靠近。对于座头鲸等声音可以在海洋中迅速传播的动物来说，制作合成歌曲可能会带来“向世界人口注入病毒式迷因”的后果，而这些后果的社会影响尚不明确，Bakker说。

到目前为止，领先进行动物交流研究的组织都是像Earth Species Project这样致力于开源共享数据和模型，并由充满激情的科学家组成，他们热衷于研究的动物。但这个领域未必会一直保持这种状态——以盈利为目标的参与者可能会滥用这项技术。在最近的一篇发表在《Science》杂志上的文章中，Rutz和他的合著者指出，“迫切需要最佳实践指南和适当的立法框架”。Raskin警告说：“仅仅制造技术还不够。每次你发明一项技术，你也在发明一项责任。”

设计一个“鲸鱼聊天机器人”，正如Project CETI所希望的那样，不仅仅是弄清楚如何复制抹香鲸的齿音和哨声；它还需要我们想象动物的体验。尽管在身体结构上有很大的差异，但人类实际上与其他动物分享许多基本的交流形式。考虑父母与后代之间的互动。例如，哺乳动物婴儿的哭声可以非常相似，以至于白尾鹿会对哭声做出反应，无论是土拨鼠、人类还是海豹发出的。不同物种的声音表达方式也可以类似地发展。与人类婴儿一样，港湾海豹幼崽学会改变音调以瞄准父母的鼓膜。而幼年鸟类和人类幼儿都会发出咿咿呀呀的声音——马里兰大学大脑与行为计划的研究科学家Johnathan Fritz解释说，这是一种“从导师那里学来的复杂音节序列”。

然而，关于动物的表达与人类语言在传达内容方面是否可比的问题仍然存在深刻的分歧。“有些人会坚称，语言在本质上是以使人类成为唯一具有语言能力的动物的方式来定义的，”Bakker说，带有语法和句法规则。怀疑者担心将动物交流视为语言，或试图翻译它，可能会扭曲其含义。

Raskin对这些担忧不以为然。他怀疑动物不会说“递给我香蕉”，但他怀疑我们将发现一些在共同经验中进行交流的基础。“如果我们发现跨物种的‘悲伤’、‘母亲’或‘饥饿’的表达方式，我不会感到惊讶，”他说。毕竟，化石记录显示，座头鲸等生物已经有数千万年在发声。“为了能够长时间生存，它必须编码一些非常深刻而真实的东西。”

最终，真正的翻译可能不仅需要新的工具，还需要超越我们自己的偏见和期望的能力。去年，当我家后面的积雪退却时，一对丹顶鹤开始在荆棘丛中觅食。一个求偶行为进展顺利，雄鸟体贴而整洁。很快，每天早上，一只鸟独自飞走觅食，而另一只留下来照顾它们的蛋。我和这些鸟建立了一种日常：当太阳越过山顶时，我一直朝窗外看，数着日子，想象着细胞分裂，新的翅膀在温暖、羊水般的黑暗中形成。

然后，有一天早上，一切都结束了。在房子后面某个地方，鸟类开始哭泣，他们的声音交织在一起，变成了尖锐的哭声，突然间，我看到它们俩都朝着山坡跑去，然后陷入了跌跌撞撞的飞行之中。它们绕了一圈，然后消失了。我等了好几天，但再也没有见到它们。

我想知道它们是不是在哀悼一个失败的巢穴，或者是我对它们的行为读入了太多的东西，于是我联系了George Happ和Christy Yuncker，他们是退休的科学家，在阿拉斯加的一个池塘与一对野生的丹顶鹤共度了两十年，并给它们取了个绰号叫做米莉和罗伊。他们向我保证，他们也曾看到鸟类对死亡做出反应。在米莉和罗伊的一个小鹿去世后，罗伊开始拾起草叶并将它们扔在他的幼仔尸体附近。那天晚上，太阳向地平线下沉，这个家庭开始跳舞。存活下来的小鹿加入了它的父母，它们转动和跃跃起，将它们的长脖子扬向天空。

Happ知道批评者可能会反对他们将鸟类行为解释为悲伤，因为“我们无法精确指定其潜在的生理相关性”。但基于研究人员对丹顶鹤夫妇的近十年的密切观察，他写道，将这些引人注目的反应解释为没有情感“与证据相悖”。

每个人最终都能理解失去所爱之人的痛苦。这是一个值得翻译的时刻。

也许任何语言的真正价值在于它帮助我们与他人建立联系，并通过这种方式使我们摆脱了我们自己思想的局限。每年春天，当光芒再次洒满Yuncker和Happ的家时，他们等待着米莉和罗伊的归来。2017年，他们等待得徒劳无功。其他丹顶鹤争夺着这个领土。这两位科学家错过了看着小鹿孵化和成长的机会。但去年夏天，一对新的丹顶鹤建了一个巢。不久，它们的小鹿在高草中窥视，乞求食物，并学会了跳舞。生活开始了新的循环。“我们总是在关注自然，”Yuncker说，“而实际上，我们是它的一部分。”

本文最初发表在《科学美国人》杂志2023年10月第329卷第3期，标题为《与动物交流》