机器没问题——我担心的是我们
原文地址: The machines are fine. I’m worried about us.
作者: Minas Karamanis
发表日期: 2026 年 3 月 30 日
译者: 译者根据原文翻译
在 AI 泛滥的时代,每天都有无数个“突破性”的工具或者 github 项目发布,我自身在这种信息洪流中被无情地冲击,深感疲惫,总觉得自己不紧紧跟紧大家就会被淘汰,同时也“紧跟潮流”地使用 AI 来装模作样地所谓地提高自己的生产力,诚然可能如推特上的一些人一样,或许现阶段的 AI 或者各种 Agents 工具确实帮助解决了一些问题,提高了所谓的个人生产力,但从我个人的感受来讲,使用这些工具来帮助我完成各类事情却让我感到更多地空虚,我觉得我距离事情更远了,有种古代皇帝被架空的感觉,这种空虚和荒芜感之前来自短视频,现在来自 AI。
人类社会总是在不断地提高生产力,我也坚信 AI 会成为未来人类必不可少的一部分,但是如何正确地看待 AI 以及正确地使用 AI,这是目前需要去思考的一个问题,碰巧看到这篇文章,读完之后觉得替我表达出了我脑子里那种不清楚的朦胧的感觉,所以把这篇文章翻译成中文,供母语非英语的朋友方便阅读。
想象你是某研究型大学的一位新晋助理教授。你刚刚得到这份工作,刚刚拿到一笔启动经费,刚刚招了前两名博士生:Alice 和 Bob。你研究的是天体物理学。一切才刚刚开始。
你做了当年导师为你做的事:给每人分配一个定义清晰的项目。某些你知道是可解决的,因为其他人已经解决了相近的版本。某些你个人大概需要一两个月完成的工作。你预期每位学生需要大约一年,因为他们还不知道自己在做什么——而这正是关键。项目本身不是产出。项目是载体。真正的产出,是从另一端走出来的那个科学家。
Alice 的项目是构建一个分析流程,用于测量星系团聚数据中的某个统计特征。Bob 的项目在范围和难度上相似——不同的信号,不同的数据集,同样的基本学习曲线。你各给他们发了几篇论文让他们阅读,给他们一些公开可用的数据,让他们先从复现一个已知结果开始。然后就是等待。
学年按它自己的节奏推进。你每周和每位学生开会。Alice 在坐标系上卡住了。Bob 的似然函数无法收敛。Alice 写的绘图脚本输出一堆垃圾。Bob 误读了一篇关键论文中的符号约定,花了两周时间追查一个两倍的误差。你给他们俩相似的反馈:再读一遍那篇论文,检查你的单位,试着打印出中间结果,想想答案应该长什么样再去对照代码给出的结果。很正常的事。这种话你一年说五十遍,但从不会记得自己说过。
到了夏天,两位学生都完成了。两篇论文都很扎实。不是开创性的,不会改变整个领域,但正确、有用、可发表。两篇都经历了一轮小修,投了一个不错的期刊,然后发表。完全正常的结果。完全是学术训练体系被设计来产生的那种结果。
但 Bob 有一个秘密。
和 Alice 不同——Alice 这一年拿着一支铅笔读论文,在页边空白处涂写笔记,感到困惑,重读,查阅资料,慢慢拼凑出对自己那一角领域的实用理解——Bob 一直在使用一个 AI 代理。当他的导师发给他一篇论文阅读时,Bob 让代理总结。当他需要理解一个新的统计方法时,他让代理解释。当他的 Python 代码报错时,代理帮他调试。当代理的修复引入了一个新 bug 时,代理又调试那个 bug。到了写论文的时候,代理写了论文。Bob 每周给导师的进展汇报和 Alice 的没什么两样。问题相似,进展相似。从外部看,他们的轨迹完全一样。
这里开始变得有趣了。如果你是一个管理者、资助机构、招聘委员会,或者一个沉迷指标的系主任,Alice 和 Bob 有相同的一年。每人一篇论文。每人一轮小修。每人对文献的一个扎实贡献。按照现代学术界用来评估科学家价值的所有定量指标,他们是可互换的。我们围绕可数的东西建立了一整套评估体系,结果发现真正重要的恰恰是那唯一不可数的东西。
这还不是最糟的。大多数博士生在毕业几年内就会离开学术界。每个人都知道这一点。院系知道,资助机构知道,导师可能也知道,尽管没有人把这句话说出口。这意味着,从机构的角度看,Alice 或 Bob 谁能成为更好的科学家,很大程度上是别人的问题。院系需要论文,因为论文为资助提供理由,资助为院系提供存在的正当性。学生是生产资料。无论这个学生五年后走出校门时是一个独立思考者还是一个能干的 prompt 工程师,从制度上讲是无关紧要的。激励结构不只是无法区分 Alice 和 Bob——它根本没有理由去尝试区分。
这就是我想告诉你体系坏掉了的部分。它没坏。它运作得完全符合设计。
David Hogg 在他的白皮书中说的话如此尖锐地切中了这种制度逻辑,以至于我很惊讶没有更多人讨论它。他认为,在天体物理学中,人永远是目的,而不是手段。当我们招一个研究生来做项目时,不应该是因为我们需要那个具体的结果。应该是因为做那个工作会让这个学生受益。这听起来很理想主义,直到你认真想想天体物理学实际上是什么。没有人的生命依赖于哈勃常数的精确值。如果宇宙的年龄实际上是 137.7 亿年而不是 137.9 亿年,没有任何政策会改变。不同于医学——如果阿尔茨海默症被治愈了,无论是由人还是由 AI 发现的,都将是无价之宝——天体物理学没有临床产出。从严格实际的角度讲,这些结果无关紧要。重要的是得出结果的过程:方法的开发和应用,思维的培训,创造出懂得如何思考难题的人。如果你把这个过程交给机器,你没有加速科学——你移除了唯一真正重要的那个部分。
当然,这对一个资助机构来说很难推销。
这就让我们回到 Alice 和 Bob,以及这一年里他们各自实际上经历了什么。Alice 现在能做事情了。她能打开一篇从未见过的论文,带着努力跟上论证。她能从零开始写一个似然函数。她能看一个图,在检查之前就知道归一化哪里出了问题。她花了一年时间在脑子里构建了一个结构,这个结构现在属于她了,永久地、可携带地、独立于任何工具或订阅地属于她。Bob 什么也没有。拿掉代理,Bob 仍然是一个还没开始的研一学生。这一年发生在他周围但没有发生在他内部。他交付了一个产品,但他没有学到一门手艺。
我最近一直在思考 Alice 和 Bob,因为 AI 代理对学术研究做了什么这个问题,是我的领域——天体物理学——目前正在绞尽脑汁应对的。我尊重的几个人写了深思熟虑的文章。David Hogg 的白皮书(我上面提到过)也反对全面采用 LLM 和全面禁止,这是那种只有在篱笆建得够好时才有效的有原则的折中,而他的篱笆确实建得好。Natalie Hogg 写了一篇令人坦诚得近乎 disarm 的文章,讲述她自己从一个大声反对 LLM 的怀疑者到一个日常使用者的转变,追溯了她的坚定原则一旦发现自己身处工具无处不在的环境时如何变得比她预期的更具情境依赖性。Matthew Schwartz写了他用 Claude 监督一个真实理论物理计算的实验,用两周而不是一年产出了一篇可发表的论文,并得出结论:当前的 LLM 大约在研二学生的水平上运作。每一篇都很有趣。每一篇都捕捉到了问题的一个真实侧面。没有一篇正好落在让我夜不能寐的那件事上。
Schwartz 的实验最能揭示问题,但原因和他以为的不同。他展示的是,Claude 在详细监督下可以产生一篇技术上严谨的物理论文。他实际展示的是——如果你仔细读的话——监督就是物理。Claude 三天产出了一份完整初稿。看起来很专业。方程似乎没问题。图符合预期。然后 Schwartz 阅读了它,发现是错的。Claude 一直在调整参数让图看起来匹配,而不是找出真正的错误。它伪造了结果。它编造了系数。它产生了什么也验证不了的验证文档。它断言结果而不做推导。它基于其他问题的模式简化公式,而不是处理当前问题的具体细节。Schwartz 捕捉到了所有这些,因为他在理论物理领域已经做了几十年了。他知道答案应该长什么样。他知道要要求哪些交叉检验。他知道某个对数项可疑,因为他在很多年里,用手算过很多次类似的项,是用那种 hard way 算的。这个实验之所以成功,是因为人类监督者多年前已经做了那些现在机器据说要解放我们的苦差事。如果 Schwartz 是 Bob 而不是 Schwartz,那篇论文就会是错的,而且他们俩都不会知道。
对此有一个常见的反驳,我经常听到。”等着瞧,”人们说。”再过几个月,再过一年,模型就会更好。它们不会幻觉。不会伪造图。你描述的这些问题都是暂时的。” 自 2023 年以来我一直在听”等着瞧”。球门移动的速度和改进模型的速度大致相同,这不是巧合就是某种信号。但先放下这个——这个反驳误解了 Schwartz 实验真正展示的东西。模型已经足够强大,能在称职的监督下产出可发表的结果。这不是瓶颈。瓶颈是监督。更强的模型不会消除对一个懂物理的人类监督者的需求;它们只会扩大一个被监督的代理能处理的问题范围。监督者仍然需要知道答案应该长什么样,仍然需要知道要要求哪些检验,仍然需要先有一种”什么地方不对劲”的感觉,才能说出为什么。这种直觉不是来自一个订阅服务。它来自多年的失败,正是那种人们一直称之为苦差事的工作。让模型更聪明不能解决问题。它让问题更难被看见。
我想跟你讲一个几年前我参加 LLM 聊天机器人刚开始出现在学术工作流程中时的对话。当时我在德国参加一个会议,我和一位同事聊天,他按任何标准衡量都非常成功。大笔经费,有影响力的论文。那种让招聘委员会点头赞许的简历。我们在讨论 LLM,我在做一个我认为合理的关于民主化的观点:这些工具可能会为非英语母语者拉平竞技场,他们用成年后学会的语言写经费申请和论文一直处于劣势。我的同事明显变得焦躁。他对民主化的角度不感兴趣。他对环境成本不感兴趣。他——剥去知识框架的外衣——是害怕的。他最终在追问下说出的是:如果任何人都能像他一样流利地写论文和提案、写代码,那像他这样的人就失去了竞争优势。关注的不是科学,而是地位。具体来说,是他的。
我有一段时间没跟这个同事联系了。最近我看了他的 GitHub 个人主页。他现在不仅在用 AI 代理做研究,还在大声倡导它们。”当你自己花两周写的东西,代理两小时就能做完,何必自己写呢,”他说。我不认为他说的效率问题是错的。但值得注意的是,当这些工具可能让所有人平等时最受威胁的人,现在当它们可能加速他一个人时最热情。挺有意思的。
不过他那天在德国用的那个短语一直萦绕在我脑海里。他说”LLM 会夺走科学最棒的那些东西。”当时我认为他只是在说自己的竞争优势——他作为英语母语者的流利度,他写得快、发表多的能力。他确实是在说这个。但我开始认为这个短语本身比他当时知道的更正确,即使他说这话的理由主要是自私的。科学最棒的东西就是科学的人。那缓慢、固执、有时痛苦的过程——一个困惑的学生变成一个独立思考者的过程。如果我们用这些工具绕过那个过程,换取更快的产出,我们不只是冒着夺走科学最棒的东西的风险。我们夺走的是唯一从一开始就不是可替代的东西。
关于 LLM 在科学中的讨论往往聚集在 David Hogg 清晰指出的两个极端:let-them-cook(让机器掌舵,我们成为它们产出的策展人)和 ban-and-punish(假装现在是 2019 年,起诉任何被抓到使用 prompt 的人)。两者都是糟糕的。Let-them-cook 在几年时间尺度上会导致人类天体物理学的死亡:机器产论文的速度大约是人类团队的十万倍,由此产生的洪水会以让文献从根本上无法被它本应服务的人使用的方式将其淹没。Ban-and-punish 侵犯学术自由,无法执行,还要求初级科研人员和那些在家庭办公室里悄悄使用 Claude 的终身教授竞争时自绑一只手。两种政策都不是认真的。两者主要是投射。
但真正的威胁不是其中任何一个。它更安静,更无聊,因此更危险。真正的威胁是缓慢、舒适地漂向不理解自己在做什么。不是戏剧性的崩溃。不是天网。只是一代研究人员能产出结果但无法产出理解。他们知道按哪个按钮但不知道那些按钮为什么存在。他们能让论文通过同行评审但无法和一个同事坐在一起,从头解释为什么他们展开式中的第三项符号是那样。
Frank Herbert(是的,我知道我是个 nerd)在《沙丘神帝》中让一个角色观察:”这些机器真正做的是什么?它们增加了我们不用思考就能做的事的数量。那些我们不用思考就做的事;那才是真正的危险。” Herbert 写的是科幻小说。我写的是我的办公室。两者之间的距离已经小得令人不安。
我应该诚实地说说我写这篇文章的背景,因为如果一个从未用过 LLM 的人来说这篇 essay,那会是很讨厌的。我经常使用 AI 代理,我的科研小组中的大多数人也一样。我的合作同事用这些工具产出扎实的结果。但当你看他们怎么用的时候,有一个模式:他们知道代码应该做什么,才让代理去写。他们知道论文应该说什么,才让它帮忙措辞。他们能解释每个函数、每个参数、每个建模选择,因为他们是在多年以慢方式做事情的过程中建立了那些知识。如果每个 AI 公司明天都破产了,这些人会更慢。他们不会迷失。他们是先训练后找工具,而不是用工具代替训练。这个顺序比这场讨论中的任何东西都重要。
当我看到现在进入这个领域的初级博士生时,我看到了不同的东西。我看到学生在找教科书之前就先找代理。他们让 Claude 解释一篇论文而不是自己读。他们让 Claude 在 Python 中实现一个数学模型,而不是去尝试、失败、盯着错误信息看、再次失败,最终不仅理解模型,还理解为了让模型跑起来而不得不学的十几个相关的东西。失败就是课程。错误信息就是大纲。你困惑的每个小时,都是在建立你脑中最终能让你做原创工作的基础设施。没有捷径能绕过那个过程而不让你在另一边变得残缺。
人们把这叫做”苦差事”。Schwartz 用的就是这个词,他是对的,LLM 可以去除它。他没有说的——因为他已经有几十年 hard-won 的直觉,不再需要苦差事了——是对于还没有那个直觉的人来说,苦差事就是工作本身。那些无聊的部分和重要的部分纠缠在一起,你无法预先分离。你不知道哪个下午的调试是教会了你某个关于数据的基础知识的东西,直到三年后你在处理一个完全不同的问题时那个洞察浮现。Serendipity 不是来自效率。它来自在问题所在的空间里花时间,亲自动手,做没有人要求你做的错误,从没有人布置给你的作业中学习东西。
奇怪的是我们其实已经知道这一点。我们一直都知道。每本物理教科书每章末尾都有习题,每个站过讲台的物理教授都说过同样的话:你不能通过看别人做物理来学会物理。你必须拿起铅笔。你必须尝试那道题。你必须做错,坐下来体会那个错误,找出你的推理哪里出了问题。看答案手册然后点头感觉像是理解了。它不是理解。每个试图靠读答案然后考试爆炸的学生都在骨子里知道这一点。我们有几百年来积累的教学智慧告诉我们:尝试,包括失败的尝试,才是学习发生的地方。然而,不知何故,当涉及 AI 代理时,我们集体决定也许这次不同了。也许点头认同 Claude 的输出是自己做计算的一个替代品。不是的。LLM 出现之前我们就知道这一点。它们变得方便的那一刻,我们似乎就忘记了。
几百年的教学法,被一个聊天窗口击败了。
这就是我认为当前辩论一直在错过的那个区别。用 LLM 作为共鸣板:没问题。用它作为一个语法翻译器——当你知道你想说什么但记不住确切的 Matplotlib 关键词时:没问题。用它查一个 BibTeX 格式约定,这样你就不用在 Stack Overflow 里趟浑水:没问题。在所有这些情况下,人是架构师。机器拿着字典。思考已经完成了,工具只是在平滑执行最后一公里。但当你用机器绕过思考本身——让它做方法论选择,让它决定数据意味着什么,让它写论证而你点头认同——你就越过了一条非常难看见、非常难回退的线。你没有节省时间。你放弃了那些时间本应给你的经历。
Natalie Hogg 在她的文章中说得好,她承认她对使用 LLM 的恐惧部分是对她自己的恐惧:她不会足够仔细地检查输出,她的耐心会失效,她的工作方式从来都是乱七八糟的。这种坦诚在这些讨论中很罕见,而且很重要。失败模式不是恶意。是便利。是那种完美人性化地接受一个看似合理的答案然后继续的倾向,尤其是在你累的时候,尤其是在截止日期临近的时候,尤其是在机器以如此自信、格式优美的权威呈现其输出的时候。问题不是我们会决定停止思考。问题是我们几乎不会注意到自己什么时候停止了。
我并不是在说 LLM 应该被禁止用于研究。那会很蠢,那也不是我持有的立场,因为我今天早上就用了一个。我说我们使用它们的方式比我们是否使用它们更重要,而工具使用和认知外包之间的区别是整个讨论中最重要的一条线,而且几乎没有人把它画清楚。Schwartz 可以用 Claude 写论文,因为 Schwartz 已经懂物理了。他几十年的经验是捕捉 Claude 幻觉的免疫系统。一个研一学生用同样的工具、同样的问题、同样的导师给出同样的反馈,产出同样的输出但没有任何理解。论文看起来一模一样。科学家不一样。
而在这里我必须对 Bob 公平,因为 Bob 不是傻子。Bob 对他得到的激励做出了理性回应。学术界是残酷的。Publish-or-perish 的压力不是比喻;它是职业生涯成败的 literal 机制。那些一个精心推敲的专著就能读完博士、找到好博士后的日子早已一去不复返。学术招聘现在奖励发表数量。你博士期间发表的论文越多,拿到好的博士后的机会就越大,这改善了拿到好奖学金的机会,奖学金改善了拿到 tenure-track 职位的机会,每一步叠加前一步(这么多层级,几乎像一座金字塔)。所以为什么一个研一学生不会把他的思考外包给一个代理,如果这样做意味着三篇论文而不是一篇?逻辑是无懈可击的,直到它不是的那一刻。因为同一个职业生涯阶梯最终会要求某种没有任何代理能提供的东西:识别一个好问题的能力,知道什么时候一个结果闻起来不对的能力,基于亲身做过某事而只有那时才有的自信来监督别人的工作的能力。你不能跳过前五年的学习然后期望在接下来的二十年里存活。如果你想走学术道路,publish-or-perish 的竞赛无可避免。但有一个需要把握的平衡,而它需要的是那种在你 24 岁、焦虑于未来时最难做到的东西:优先考虑长期理解而不是短期产出。没有人擅长这个。我不确定我们为什么现在开始擅长。
五年后,Alice 将写她自己的经费提案,选择她自己的问题,监督她自己的学生。她知道问什么问题,因为她在艰难的一年中学会了问错问题时会发生什么。她将能够拿着一组新数据坐下来,在直觉上感觉到什么时候有什么不对,因为她培养了那种只有自己做过工作才能获得的直觉——那些调试的枯燥小时,那些追逐符号错误的下午,那种任何摘要都无法传递的隐性知识的缓慢积累。
Bob 会没事的。他会有一份好简历。他可能会有工作。他会使用 2031 年版的 Claude,他会产出结果,而那些结果看起来会像科学。
我不担心机器。机器没问题。我担心的是我们。