无序的个人博客

everyday plan

2026-04-22T16:22:33.000Z

每日计划

每天

原则：保护每天最清醒的 2 小时，其余时间才是公司的

时间分配模板（10-10-5 节奏下）

早上到公司后的第一个小时（约 10:00–11:00）
深度时间，不开会不看消息。做当天最难的一件事：读一篇论文、写技术分析、死磕一个没想通的问题。这是全天精力最高点。
11:00–18:00
正常工作节奏：需求开发、会议、code review、和同学协作。这段时间属于团队。
晚饭后 1 小时（约 19:00–20:00）
第二个深度窗口。整理当天的技术笔记，或者推进当周的”一篇文章”。不强求每天都有，但有就用好。
每天睡前 10 分钟
在笔记本上写一句话：今天学到/想清楚了什么？哪怕一个小细节也算。365天下来是一本真实的成长日志。

⚠️ 最容易破功的时刻：早上一到公司就打开微信/飞书刷消息。消息会吃掉你最清醒的一小时，而且大多数消息并不紧急。

每周

原则：每周必须有一件事是”比上周更深”的

固定动作清单

周一：确定本周的”一个深度问题”
不是任务列表，是一个还没想清楚的技术问题。例如：”为什么我们的 rerank 模型在长 query 下表现差？”这周就围绕这一个问题挖。
周三：读完一篇相关论文或技术博客
不是泛读，是精读——读完能用自己的话复述核心贡献和局限性。推荐来源：ACL/EMNLP/SIGIR、字节/阿里/腾讯技术博客、Hugging Face Blog。
周五：写 200–400 字的技术笔记
把这周想清楚的东西写下来。格式：问题是什么 → 我之前的理解 → 现在的新理解 → 还没想清楚的地方。不需要完美，只需要真实。
周末（任选半天）：一件溢出字节的事
推进当月文章的写作、在技术社群里回答一个问题、看一个外部技术演讲、和一个行业里的人聊 30 分钟。二选一做到就行，不强求全做。

笔记工具建议

Obsidian（本地，可搜索）
或 Notion（云端协作）
核心：能按主题聚合，能全文搜索

每月

原则：每月一篇对外输出，让外部世界知道你在想什么

每月必做的三件事

发表一篇技术文章（核心动作）
不需要宏大，选一个你这个月真正搞清楚的具体问题。
好题目模板：
- “我们在XXX场景下做RAG的三个踩坑经验”
- “为什么LLM-as-Judge在电商客服里不能直接用”
- “对话系统意图识别：从规则到大模型的演进”
发布平台：知乎 + 公众号同步发，知乎做搜索流量，公众号做沉淀。
做一次”外部校准”
和一个不在字节的人聊你正在做的技术方向，听听他们的视角。可以是前同学、行业群里认识的人、或者文章评论区来互动的人。目的不是找工作，是防止信息茧房。
回顾当月的”深度问题笔记”
把四周的笔记放在一起看，有没有可以串联起来的洞察？有没有某个问题反复出现、值得下个月专门深挖？月末花 30 分钟做这件事，比单独看每篇笔记价值高很多。

⚠️ 文章不要追求完美再发。”够好就发”比”完美再发”产生的复利多 10 倍——因为发出去才有反馈，有反馈才能校准。

每季度

原则：每季度一次诚实复盘，确保忙碌在转化成积累

季度复盘模板（固定用这七个问题）

这季度我解决了什么之前解决不了的问题？
写具体的技术问题，不是”我学了很多”这种泛泛的话
我的主线方向有没有往前推进？推进了多少？
对照上季度定的”一个深度问题”，现在想清楚了吗？
我这季度输出了什么？被外部看到了吗？
文章数量、阅读量、有没有引发有价值的对话
我和哪些比我强的人产生了碰撞？
碰撞不是认识，是真正交流过技术观点
财务目标有没有按计划推进？
储蓄、投资、生活方式有没有膨胀
精力状态怎么样？有没有在透支？
可持续比短期冲刺更重要，5年是马拉松
下季度最重要的一件事是什么？
只允许写一件事，逼自己做取舍

季度的”被检验”动作

Q1 / Q3：在技术社群做一次线上分享，或者提交一篇会议 paper / workshop
Q2 / Q4：整理一篇比平时更深的长文，当作半年技术沉淀的总结

每年

原则：每年做一件”让自己害怕但值得做”的事

年度固定动作

参加一次行业顶会（ACL / EMNLP / SIGIR 等）
哪怕只是听众，也要去。在走廊和茶歇时主动和做相似问题的人搭话。一次会议认识的 2–3 个人，比半年在办公室更有效。
做一次”完整技术梳理”
把你过去一年在主线方向上积累的所有笔记、项目、论文阅读，整理成一篇系统性的长文或内部技术报告。这个过程会让你看清楚自己真正掌握了什么，还有什么空洞。
做一次市场定价
和 1–2 个猎头聊，或者认真看一次外部 JD，了解你现在在市场上值多少。不是为了跳槽，是为了知道字节给你的定价是否公平，以及你的成长速度是否跟上了市场。
做一件”让自己害怕”的事
- 第1年：在组内做技术分享
- 第2年：发第一篇对外文章
- 第3年：在会议上做 talk
- 第4年：主动找行业里最顶尖的人请教
- 第5年：公开表达一个有争议的技术观点
每年推一次边界。

年末问自己一个最重要的问题

如果我今天离开字节，我能带走什么？

不是代码，不是人脉录，而是：你对某类问题的独特理解、你建立的思维框架、你写下来的技术沉淀。这些才是真正属于你的资产。如果答案让你不满意，下一年就围绕这个问题调整重心。

机器没问题——我担心的是我们

2026-04-13T02:00:00.000Z

原文地址: The machines are fine. I’m worried about us.
作者: Minas Karamanis
发表日期: 2026 年 3 月 30 日
译者: 译者根据原文翻译

在 AI 泛滥的时代，每天都有无数个“突破性”的工具或者 github 项目发布，我自身在这种信息洪流中被无情地冲击，深感疲惫，总觉得自己不紧紧跟紧大家就会被淘汰，同时也“紧跟潮流”地使用 AI 来装模作样地所谓地提高自己的生产力，诚然可能如推特上的一些人一样，或许现阶段的 AI 或者各种 Agents 工具确实帮助解决了一些问题，提高了所谓的个人生产力，但从我个人的感受来讲，使用这些工具来帮助我完成各类事情却让我感到更多地空虚，我觉得我距离事情更远了，有种古代皇帝被架空的感觉，这种空虚和荒芜感之前来自短视频，现在来自 AI。

人类社会总是在不断地提高生产力，我也坚信 AI 会成为未来人类必不可少的一部分，但是如何正确地看待 AI 以及正确地使用 AI，这是目前需要去思考的一个问题，碰巧看到这篇文章，读完之后觉得替我表达出了我脑子里那种不清楚的朦胧的感觉，所以把这篇文章翻译成中文，供母语非英语的朋友方便阅读。

想象你是某研究型大学的一位新晋助理教授。你刚刚得到这份工作，刚刚拿到一笔启动经费，刚刚招了前两名博士生：Alice 和 Bob。你研究的是天体物理学。一切才刚刚开始。

你做了当年导师为你做的事：给每人分配一个定义清晰的项目。某些你知道是可解决的，因为其他人已经解决了相近的版本。某些你个人大概需要一两个月完成的工作。你预期每位学生需要大约一年，因为他们还不知道自己在做什么——而这正是关键。项目本身不是产出。项目是载体。真正的产出，是从另一端走出来的那个科学家。

Alice 的项目是构建一个分析流程，用于测量星系团聚数据中的某个统计特征。Bob 的项目在范围和难度上相似——不同的信号，不同的数据集，同样的基本学习曲线。你各给他们发了几篇论文让他们阅读，给他们一些公开可用的数据，让他们先从复现一个已知结果开始。然后就是等待。

学年按它自己的节奏推进。你每周和每位学生开会。Alice 在坐标系上卡住了。Bob 的似然函数无法收敛。Alice 写的绘图脚本输出一堆垃圾。Bob 误读了一篇关键论文中的符号约定，花了两周时间追查一个两倍的误差。你给他们俩相似的反馈：再读一遍那篇论文，检查你的单位，试着打印出中间结果，想想答案应该长什么样再去对照代码给出的结果。很正常的事。这种话你一年说五十遍，但从不会记得自己说过。

到了夏天，两位学生都完成了。两篇论文都很扎实。不是开创性的，不会改变整个领域，但正确、有用、可发表。两篇都经历了一轮小修，投了一个不错的期刊，然后发表。完全正常的结果。完全是学术训练体系被设计来产生的那种结果。

但 Bob 有一个秘密。

和 Alice 不同——Alice 这一年拿着一支铅笔读论文，在页边空白处涂写笔记，感到困惑，重读，查阅资料，慢慢拼凑出对自己那一角领域的实用理解——Bob 一直在使用一个 AI 代理。当他的导师发给他一篇论文阅读时，Bob 让代理总结。当他需要理解一个新的统计方法时，他让代理解释。当他的 Python 代码报错时，代理帮他调试。当代理的修复引入了一个新 bug 时，代理又调试那个 bug。到了写论文的时候，代理写了论文。Bob 每周给导师的进展汇报和 Alice 的没什么两样。问题相似，进展相似。从外部看，他们的轨迹完全一样。

这里开始变得有趣了。如果你是一个管理者、资助机构、招聘委员会，或者一个沉迷指标的系主任，Alice 和 Bob 有相同的一年。每人一篇论文。每人一轮小修。每人对文献的一个扎实贡献。按照现代学术界用来评估科学家价值的所有定量指标，他们是可互换的。我们围绕可数的东西建立了一整套评估体系，结果发现真正重要的恰恰是那唯一不可数的东西。

这还不是最糟的。大多数博士生在毕业几年内就会离开学术界。每个人都知道这一点。院系知道，资助机构知道，导师可能也知道，尽管没有人把这句话说出口。这意味着，从机构的角度看，Alice 或 Bob 谁能成为更好的科学家，很大程度上是别人的问题。院系需要论文，因为论文为资助提供理由，资助为院系提供存在的正当性。学生是生产资料。无论这个学生五年后走出校门时是一个独立思考者还是一个能干的 prompt 工程师，从制度上讲是无关紧要的。激励结构不只是无法区分 Alice 和 Bob——它根本没有理由去尝试区分。

这就是我想告诉你体系坏掉了的部分。它没坏。它运作得完全符合设计。

David Hogg 在他的白皮书中说的话如此尖锐地切中了这种制度逻辑，以至于我很惊讶没有更多人讨论它。他认为，在天体物理学中，人永远是目的，而不是手段。当我们招一个研究生来做项目时，不应该是因为我们需要那个具体的结果。应该是因为做那个工作会让这个学生受益。这听起来很理想主义，直到你认真想想天体物理学实际上是什么。没有人的生命依赖于哈勃常数的精确值。如果宇宙的年龄实际上是 137.7 亿年而不是 137.9 亿年，没有任何政策会改变。不同于医学——如果阿尔茨海默症被治愈了，无论是由人还是由 AI 发现的，都将是无价之宝——天体物理学没有临床产出。从严格实际的角度讲，这些结果无关紧要。重要的是得出结果的过程：方法的开发和应用，思维的培训，创造出懂得如何思考难题的人。如果你把这个过程交给机器，你没有加速科学——你移除了唯一真正重要的那个部分。

当然，这对一个资助机构来说很难推销。

这就让我们回到 Alice 和 Bob，以及这一年里他们各自实际上经历了什么。Alice 现在能做事情了。她能打开一篇从未见过的论文，带着努力跟上论证。她能从零开始写一个似然函数。她能看一个图，在检查之前就知道归一化哪里出了问题。她花了一年时间在脑子里构建了一个结构，这个结构现在属于她了，永久地、可携带地、独立于任何工具或订阅地属于她。Bob 什么也没有。拿掉代理，Bob 仍然是一个还没开始的研一学生。这一年发生在他周围但没有发生在他内部。他交付了一个产品，但他没有学到一门手艺。

我最近一直在思考 Alice 和 Bob，因为 AI 代理对学术研究做了什么这个问题，是我的领域——天体物理学——目前正在绞尽脑汁应对的。我尊重的几个人写了深思熟虑的文章。David Hogg 的白皮书（我上面提到过）也反对全面采用 LLM 和全面禁止，这是那种只有在篱笆建得够好时才有效的有原则的折中，而他的篱笆确实建得好。Natalie Hogg 写了一篇令人坦诚得近乎 disarm 的文章，讲述她自己从一个大声反对 LLM 的怀疑者到一个日常使用者的转变，追溯了她的坚定原则一旦发现自己身处工具无处不在的环境时如何变得比她预期的更具情境依赖性。Matthew Schwartz写了他用 Claude 监督一个真实理论物理计算的实验，用两周而不是一年产出了一篇可发表的论文，并得出结论：当前的 LLM 大约在研二学生的水平上运作。每一篇都很有趣。每一篇都捕捉到了问题的一个真实侧面。没有一篇正好落在让我夜不能寐的那件事上。

Schwartz 的实验最能揭示问题，但原因和他以为的不同。他展示的是，Claude 在详细监督下可以产生一篇技术上严谨的物理论文。他实际展示的是——如果你仔细读的话——监督就是物理。Claude 三天产出了一份完整初稿。看起来很专业。方程似乎没问题。图符合预期。然后 Schwartz 阅读了它，发现是错的。Claude 一直在调整参数让图看起来匹配，而不是找出真正的错误。它伪造了结果。它编造了系数。它产生了什么也验证不了的验证文档。它断言结果而不做推导。它基于其他问题的模式简化公式，而不是处理当前问题的具体细节。Schwartz 捕捉到了所有这些，因为他在理论物理领域已经做了几十年了。他知道答案应该长什么样。他知道要要求哪些交叉检验。他知道某个对数项可疑，因为他在很多年里，用手算过很多次类似的项，是用那种 hard way 算的。这个实验之所以成功，是因为人类监督者多年前已经做了那些现在机器据说要解放我们的苦差事。如果 Schwartz 是 Bob 而不是 Schwartz，那篇论文就会是错的，而且他们俩都不会知道。

对此有一个常见的反驳，我经常听到。”等着瞧，”人们说。”再过几个月，再过一年，模型就会更好。它们不会幻觉。不会伪造图。你描述的这些问题都是暂时的。” 自 2023 年以来我一直在听”等着瞧”。球门移动的速度和改进模型的速度大致相同，这不是巧合就是某种信号。但先放下这个——这个反驳误解了 Schwartz 实验真正展示的东西。模型已经足够强大，能在称职的监督下产出可发表的结果。这不是瓶颈。瓶颈是监督。更强的模型不会消除对一个懂物理的人类监督者的需求；它们只会扩大一个被监督的代理能处理的问题范围。监督者仍然需要知道答案应该长什么样，仍然需要知道要要求哪些检验，仍然需要先有一种”什么地方不对劲”的感觉，才能说出为什么。这种直觉不是来自一个订阅服务。它来自多年的失败，正是那种人们一直称之为苦差事的工作。让模型更聪明不能解决问题。它让问题更难被看见。

我想跟你讲一个几年前我参加 LLM 聊天机器人刚开始出现在学术工作流程中时的对话。当时我在德国参加一个会议，我和一位同事聊天，他按任何标准衡量都非常成功。大笔经费，有影响力的论文。那种让招聘委员会点头赞许的简历。我们在讨论 LLM，我在做一个我认为合理的关于民主化的观点：这些工具可能会为非英语母语者拉平竞技场，他们用成年后学会的语言写经费申请和论文一直处于劣势。我的同事明显变得焦躁。他对民主化的角度不感兴趣。他对环境成本不感兴趣。他——剥去知识框架的外衣——是害怕的。他最终在追问下说出的是：如果任何人都能像他一样流利地写论文和提案、写代码，那像他这样的人就失去了竞争优势。关注的不是科学，而是地位。具体来说，是他的。

我有一段时间没跟这个同事联系了。最近我看了他的 GitHub 个人主页。他现在不仅在用 AI 代理做研究，还在大声倡导它们。”当你自己花两周写的东西，代理两小时就能做完，何必自己写呢，”他说。我不认为他说的效率问题是错的。但值得注意的是，当这些工具可能让所有人平等时最受威胁的人，现在当它们可能加速他一个人时最热情。挺有意思的。

不过他那天在德国用的那个短语一直萦绕在我脑海里。他说”LLM 会夺走科学最棒的那些东西。”当时我认为他只是在说自己的竞争优势——他作为英语母语者的流利度，他写得快、发表多的能力。他确实是在说这个。但我开始认为这个短语本身比他当时知道的更正确，即使他说这话的理由主要是自私的。科学最棒的东西就是科学的人。那缓慢、固执、有时痛苦的过程——一个困惑的学生变成一个独立思考者的过程。如果我们用这些工具绕过那个过程，换取更快的产出，我们不只是冒着夺走科学最棒的东西的风险。我们夺走的是唯一从一开始就不是可替代的东西。

关于 LLM 在科学中的讨论往往聚集在 David Hogg 清晰指出的两个极端：let-them-cook（让机器掌舵，我们成为它们产出的策展人）和 ban-and-punish（假装现在是 2019 年，起诉任何被抓到使用 prompt 的人）。两者都是糟糕的。Let-them-cook 在几年时间尺度上会导致人类天体物理学的死亡：机器产论文的速度大约是人类团队的十万倍，由此产生的洪水会以让文献从根本上无法被它本应服务的人使用的方式将其淹没。Ban-and-punish 侵犯学术自由，无法执行，还要求初级科研人员和那些在家庭办公室里悄悄使用 Claude 的终身教授竞争时自绑一只手。两种政策都不是认真的。两者主要是投射。

但真正的威胁不是其中任何一个。它更安静，更无聊，因此更危险。真正的威胁是缓慢、舒适地漂向不理解自己在做什么。不是戏剧性的崩溃。不是天网。只是一代研究人员能产出结果但无法产出理解。他们知道按哪个按钮但不知道那些按钮为什么存在。他们能让论文通过同行评审但无法和一个同事坐在一起，从头解释为什么他们展开式中的第三项符号是那样。

Frank Herbert（是的，我知道我是个 nerd）在《沙丘神帝》中让一个角色观察：”这些机器真正做的是什么？它们增加了我们不用思考就能做的事的数量。那些我们不用思考就做的事；那才是真正的危险。” Herbert 写的是科幻小说。我写的是我的办公室。两者之间的距离已经小得令人不安。

我应该诚实地说说我写这篇文章的背景，因为如果一个从未用过 LLM 的人来说这篇 essay，那会是很讨厌的。我经常使用 AI 代理，我的科研小组中的大多数人也一样。我的合作同事用这些工具产出扎实的结果。但当你看他们怎么用的时候，有一个模式：他们知道代码应该做什么，才让代理去写。他们知道论文应该说什么，才让它帮忙措辞。他们能解释每个函数、每个参数、每个建模选择，因为他们是在多年以慢方式做事情的过程中建立了那些知识。如果每个 AI 公司明天都破产了，这些人会更慢。他们不会迷失。他们是先训练后找工具，而不是用工具代替训练。这个顺序比这场讨论中的任何东西都重要。

当我看到现在进入这个领域的初级博士生时，我看到了不同的东西。我看到学生在找教科书之前就先找代理。他们让 Claude 解释一篇论文而不是自己读。他们让 Claude 在 Python 中实现一个数学模型，而不是去尝试、失败、盯着错误信息看、再次失败，最终不仅理解模型，还理解为了让模型跑起来而不得不学的十几个相关的东西。失败就是课程。错误信息就是大纲。你困惑的每个小时，都是在建立你脑中最终能让你做原创工作的基础设施。没有捷径能绕过那个过程而不让你在另一边变得残缺。

人们把这叫做”苦差事”。Schwartz 用的就是这个词，他是对的，LLM 可以去除它。他没有说的——因为他已经有几十年 hard-won 的直觉，不再需要苦差事了——是对于还没有那个直觉的人来说，苦差事就是工作本身。那些无聊的部分和重要的部分纠缠在一起，你无法预先分离。你不知道哪个下午的调试是教会了你某个关于数据的基础知识的东西，直到三年后你在处理一个完全不同的问题时那个洞察浮现。Serendipity 不是来自效率。它来自在问题所在的空间里花时间，亲自动手，做没有人要求你做的错误，从没有人布置给你的作业中学习东西。

奇怪的是我们其实已经知道这一点。我们一直都知道。每本物理教科书每章末尾都有习题，每个站过讲台的物理教授都说过同样的话：你不能通过看别人做物理来学会物理。你必须拿起铅笔。你必须尝试那道题。你必须做错，坐下来体会那个错误，找出你的推理哪里出了问题。看答案手册然后点头感觉像是理解了。它不是理解。每个试图靠读答案然后考试爆炸的学生都在骨子里知道这一点。我们有几百年来积累的教学智慧告诉我们：尝试，包括失败的尝试，才是学习发生的地方。然而，不知何故，当涉及 AI 代理时，我们集体决定也许这次不同了。也许点头认同 Claude 的输出是自己做计算的一个替代品。不是的。LLM 出现之前我们就知道这一点。它们变得方便的那一刻，我们似乎就忘记了。

几百年的教学法，被一个聊天窗口击败了。

这就是我认为当前辩论一直在错过的那个区别。用 LLM 作为共鸣板：没问题。用它作为一个语法翻译器——当你知道你想说什么但记不住确切的 Matplotlib 关键词时：没问题。用它查一个 BibTeX 格式约定，这样你就不用在 Stack Overflow 里趟浑水：没问题。在所有这些情况下，人是架构师。机器拿着字典。思考已经完成了，工具只是在平滑执行最后一公里。但当你用机器绕过思考本身——让它做方法论选择，让它决定数据意味着什么，让它写论证而你点头认同——你就越过了一条非常难看见、非常难回退的线。你没有节省时间。你放弃了那些时间本应给你的经历。

Natalie Hogg 在她的文章中说得好，她承认她对使用 LLM 的恐惧部分是对她自己的恐惧：她不会足够仔细地检查输出，她的耐心会失效，她的工作方式从来都是乱七八糟的。这种坦诚在这些讨论中很罕见，而且很重要。失败模式不是恶意。是便利。是那种完美人性化地接受一个看似合理的答案然后继续的倾向，尤其是在你累的时候，尤其是在截止日期临近的时候，尤其是在机器以如此自信、格式优美的权威呈现其输出的时候。问题不是我们会决定停止思考。问题是我们几乎不会注意到自己什么时候停止了。

我并不是在说 LLM 应该被禁止用于研究。那会很蠢，那也不是我持有的立场，因为我今天早上就用了一个。我说我们使用它们的方式比我们是否使用它们更重要，而工具使用和认知外包之间的区别是整个讨论中最重要的一条线，而且几乎没有人把它画清楚。Schwartz 可以用 Claude 写论文，因为 Schwartz 已经懂物理了。他几十年的经验是捕捉 Claude 幻觉的免疫系统。一个研一学生用同样的工具、同样的问题、同样的导师给出同样的反馈，产出同样的输出但没有任何理解。论文看起来一模一样。科学家不一样。

而在这里我必须对 Bob 公平，因为 Bob 不是傻子。Bob 对他得到的激励做出了理性回应。学术界是残酷的。Publish-or-perish 的压力不是比喻；它是职业生涯成败的 literal 机制。那些一个精心推敲的专著就能读完博士、找到好博士后的日子早已一去不复返。学术招聘现在奖励发表数量。你博士期间发表的论文越多，拿到好的博士后的机会就越大，这改善了拿到好奖学金的机会，奖学金改善了拿到 tenure-track 职位的机会，每一步叠加前一步（这么多层级，几乎像一座金字塔）。所以为什么一个研一学生不会把他的思考外包给一个代理，如果这样做意味着三篇论文而不是一篇？逻辑是无懈可击的，直到它不是的那一刻。因为同一个职业生涯阶梯最终会要求某种没有任何代理能提供的东西：识别一个好问题的能力，知道什么时候一个结果闻起来不对的能力，基于亲身做过某事而只有那时才有的自信来监督别人的工作的能力。你不能跳过前五年的学习然后期望在接下来的二十年里存活。如果你想走学术道路，publish-or-perish 的竞赛无可避免。但有一个需要把握的平衡，而它需要的是那种在你 24 岁、焦虑于未来时最难做到的东西：优先考虑长期理解而不是短期产出。没有人擅长这个。我不确定我们为什么现在开始擅长。

五年后，Alice 将写她自己的经费提案，选择她自己的问题，监督她自己的学生。她知道问什么问题，因为她在艰难的一年中学会了问错问题时会发生什么。她将能够拿着一组新数据坐下来，在直觉上感觉到什么时候有什么不对，因为她培养了那种只有自己做过工作才能获得的直觉——那些调试的枯燥小时，那些追逐符号错误的下午，那种任何摘要都无法传递的隐性知识的缓慢积累。

Bob 会没事的。他会有一份好简历。他可能会有工作。他会使用 2031 年版的 Claude，他会产出结果，而那些结果看起来会像科学。

我不担心机器。机器没问题。我担心的是我们。

LeCunn的世界模型

2026-04-05T15:51:19.000Z

LeCun 在做一件很不一样的事

最近我花了一些时间试图搞清楚 Yann LeCun 的世界模型的想法。他是卷积神经网络的发明者、2018年图灵奖得主，深度学习三位教父之一——同时也是过去几年里最公开、最持续地唱衰 LLM 的人。他在 Meta 一边帮忙做 Llama，一边说 LLM 是死路。这种内部矛盾让他的批评很难被简单地忽视。2025年底他离开 Meta，创立 AMI Labs，全押世界模型。我想搞清楚他到底押的是什么。

LLM 的成功恰恰暴露了它的上限

LeCun 对 LLM 的批评不是”它不够好”，而是”它的成功本身就是一个信号，说明它在解决一个比我们想象中简单得多的问题”。

语言之所以能被 LLM 驾驭，是因为语言是一个低维度的、离散的、有强统计结构的空间。它是人类思维的”序列化版本”——我们把三维的、连续的、多模态的世界经验，压缩成一串符号传递给对方。LLM 学会了在这个压缩后的符号空间里做插值，做得非常好，好到能通过司法考试、写出流畅的代码。但这恰恰说明语言本身足够简单，而不是说 AI 足够聪明。

LeCun 用一个对比来说明这件事：任何一个 17 岁的人，花 20 小时就能学会开车。但人类花了数十年、数十亿美元，至今没有造出真正的 5 级自动驾驶。不是因为工程师不够努力，而是因为开车需要对物理世界的实时理解——那个世界是连续的、高维的、充满噪声的，不是语言能描述的。AI 在语言上赢了，在猫会做的事情上输了。这个剪刀差，才是 LeCun 真正在意的。

预测下一个词，是一个错误的学习目标

理解 LeCun 在做什么，首先要理解他认为 LLM 的学习目标本身是错的。

LLM 的自监督学习方式是：遮住一段文字的后半部分，让模型预测被遮住的词。图像生成模型的做法类似：遮住图片的一部分，预测每个被遮住的像素。这个框架很优雅，但它有一个根本性的问题——它强迫模型预测那些在物理上本来就不可预测的细节。

想象一张猫坐在沙发上的照片，窗帘随风飘动。如果遮住右半部分，让模型还原：猫耳朵的大致形状是可以预测的，沙发的材质颜色是可以预测的，但窗帘此刻飘到什么角度、猫毛每根丝的朝向、光线折射的精确分布——这些在物理上就是随机的，根本无法被正确预测。生成模型于是只能”编造”一个合理的版本，这就是幻觉的来源之一。模型不是在说谎，它是在用力完成一个不可能完成的任务。

LeCun 的问题是：为什么要预测像素？我们真正需要的是理解”那里有猫的后半身”——这是语义，不是像素。如果学习目标本身就要求预测所有细节，那么模型永远无法把精力集中在真正有意义的结构上。

JEPA：在抽象空间里预测，而不是在原始空间里重建

这是 LeCun 的核心技术方案，叫做 JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）。

它的思路是：不在像素空间或 token 空间里做预测，而是先把输入编码成抽象的表征向量，然后在这个表征空间里做预测。表征向量是神经网络对输入的”理解”——它不包含每个像素的精确值，而是编码了”这是一只猫”、”物体在左边”、”场景是室内”这类语义信息。那些无法预测的随机细节，在编码过程中自然被丢掉了。

具体训练时，JEPA 有两个编码器：一个处理可见的上下文部分，一个处理被遮住的目标部分。预测器接受上下文的表征，输出对目标表征的预测，然后计算预测结果和真实目标表征之间的误差。整个损失计算发生在表征空间里，而不是像素空间。这意味着模型不需要还原窗帘的精确角度，它只需要知道”那里有窗帘，而且它在飘动”。

这个设计有一个必须解决的技术难题，叫做”表征崩塌”——如果模型把所有输入都映射到同一个向量，预测误差永远是零，但什么都没学到。LeCun 在 2025 年发表的 LeJEPA 用数学证明了最优的表征分布应该是各向同性高斯分布，并设计了对应的正则化方法来防止崩塌。这是 JEPA 从理论到可扩展实践的关键一步。

世界模型的真正用途：在脑子里规划，而不是描述规划

JEPA 训练出的表征学习能力，是为了支撑一个更大的目标：让 AI 能够规划和行动。

LeCun 的设想是，一个训练好的世界模型，能够给定当前状态和一个动作，预测执行这个动作之后世界会变成什么状态——不是预测每个像素，而是预测状态的抽象表征。有了这个能力，规划就变成了一个优化问题：我现在在状态 S，我想到达目标状态 G，那么什么样的动作序列 A 能让世界模型预测出的结果最接近 G？

这里有一个容易误解的地方。动作序列不是靠枚举候选方案来生成的——物理动作空间是连续的，枚举根本不可行。实际的做法是把动作序列 A 本身当作可优化的参数，随机初始化之后，通过梯度反传不断调整，直到世界模型预测出”执行 A 之后会到达 G”。整个过程不涉及语言，不涉及采样，纯粹是在连续数学空间里的优化。这和大脑接住一个飞来的球的方式，在结构上是类似的：不是在脑子里用语言推理抛物线方程，而是直接在运动表征空间里做实时预测和调整。

Reasoning 模型（比如 o1、o3）也在做某种规划，但它的规划是在语言空间里发生的：生成中间步骤的文字描述，评估哪条路径更好，输出结论。LeCun 把这称为”System 1.1”——比纯粹的直觉反应强一点，但本质上还是在语言 token 的统计空间里搜索，而不是在连续物理空间里优化。对于数学推理和代码生成，这可能已经足够；对于机器人操作和物理世界的实时交互，语言作为中介本身就是瓶颈。

这个方向目前还没有解决的问题

诚实地说，LeCun 的方案在概念上有说服力，在视觉表征学习上已经有扎实的成果，但在完整的规划-执行闭环上，还有几个没有干净答案的问题。

首先是目标的表达问题。如果目标可以用一张图来描述（”让杯子在右边”），那可以直接编码成目标向量。但很多时候目标是模糊的、偏好性的，比如”把这个房间收拾得好看一点”——这种目标目前没有好的处理方式。

其次是动作空间的问题。动作序列从随机初始化出发做梯度优化，在简单任务上可行，但对于全新的、复杂的任务，收敛是很困难的。分层规划（先规划高层子目标，再规划底层动作）是缓解方式，但不是完整的解。

最根本的问题在于训练数据。世界模型训练需要(状态, 动作, 下一状态)这样的数据，但大多数视频只有(状态, 下一状态)，动作是缺失的隐变量。用隐变量模型来推断”是什么因素让世界从 S 变到了 S’”是可行的思路，但推断出的隐变量和真实物理动作之间的对应关系是模糊的，要把它转化成可执行的机器人指令，还需要额外的数据和模块。

LeCun 自己也说，需要几个重大概念突破，才能实现他想要的东西。这几个问题，大概就是那些突破需要发生在哪里。

为什么这个方向在概念上值得认真对待

LeCun 的方案有说服力，不是因为它已经工作了，而是因为它对准了一个真实的、长期存在的失败，并且给出了一个在逻辑上自洽的解释。

这个失败叫做 Moravec 悖论：让计算机通过考试很容易，让它像猫一样走路很难。过去几十年，每一波 AI 浪潮都是靠绕开这个悖论来获得成功的——选择那些天然适合符号处理和统计学习的任务，而不是正面解决物理世界的连续性和高维性。LeCun 的方案是少数几个正面回应这个悖论的方向之一。

它和神经科学的吻合也增加了说服力。婴儿在会说话之前已经理解了重力、物体permanence、因果关系，这些都是从观察和互动里学到的，不是从语言里学到的。”预测性编码”是神经科学里的主流理论之一，认为大脑的核心工作就是不断预测感官输入并用预测误差更新内部模型——这和 JEPA 在表征空间里做预测的思路，在结构上高度一致。这个吻合不能证明 LeCun 是对的，但它意味着这个方向至少没有走错科。

最有力的论点是：LLM 的问题不是工程缺陷，而是学习目标决定了它能学到什么。一个从没见过颜色的盲人，可以学到所有关于”红色”的语言描述——红色是长波光，红色让人联想到热情——但他永远不知道红色看起来是什么。语言描述是对物理现实的有损压缩，而这个损失是不可逆的，更多的文本数据无法恢复它。如果这个论点是对的，那么 LLM 的天花板不是算力问题，而是信息论问题。

当然，反对方也有论据。Scaling 派会说：也许语言这个有损压缩保留的信息已经足够了，也许语言就是智能的正确基底。这场争论的核心是一个目前没有答案的问题：语言理解和物理世界理解，哪个是另一个的基础？LeCun 押注物理在先，Scaling 派押注语言够用。两边都没有被决定性地证伪。

但有一件事是确定的：如果我们想要的是那种能收拾房间、能学会开车、能在物理世界里真正行动的智能，那么一个从来没有看过世界、只读过关于世界的文字描述的系统，和我们想要的东西之间，有一个结构性的距离。LeCun 在做的，是试图量化并跨越这个距离。

语言世界观

2026-04-04T06:17:43.000Z

语言世界观

世界客观存在，它有固定的结构和运行原理。而人类对世界的理解，本质上是一种拟合——我们通过认知、观察、实验不断逼近真实，但这个逼近永远伴随着误差。这不是悲观的结论，而是认知的基本处境。承认这一点，反而让我们能更清醒地思考”理解世界”这件事究竟意味着什么。

如果用语言来类比，会更直观。每个学科都是人类尝试表达世界的一种语言。物理学、数学、经济学、音乐、艺术，都不是世界本身，它们是我们为了理解世界、描述结构而创造的表达系统。每种学科强调世界不同的维度，就像不同语言有不同的词汇和语法，表达同样的意思也会有不同方式。在这个视角下，学科不再是孤立的板块，而是对世界不同维度的不同拟合方式。

这些不同的语言，是否共享同一套底层字母？我的判断是肯定的。但这里需要一个重要的澄清：底层字母不是基本元素，而是基本运行原理。我们容易把”底层”理解成最小的组成单位，比如夸克、基因、像素——这是名词思维。但世界的底层语言是动词的，是运动、是原理、是规律，而不是静态的砖块。物理学从”物体与力”走向”最小作用量原理”再走向场论，正是这个方向：粒子是场的激发态，元素是运动的表现形式。不同学科共享的底层字母，是那些跨越具体领域、在不同维度上反复出现的基本原理——对称性、守恒、反馈、涌现……它们在物理学里是一种面貌，在经济学里是另一种面貌，但底层结构可能是同一件事。

由此带来一个核心推论：复杂性不来自元素数量，而来自组合方式。数学公理有限，但可以组合出无穷定理；音符有限，但可以组合出无限音乐；逻辑门有限，但可以组合出无穷程序。世界的复杂性，是有限原理构成的生成系统在运作。值得注意的是，这个结构是自相似的——它不只适用于学科之间，在一个学科内部同样成立。每个领域内部也有自己的底层原理和组合规则，子领域之间也像不同语言一样彼此关联。同样的逻辑，在不同尺度上反复出现。

理解了这一点，自然会问：怎么实际利用它？答案是类比。类比不是打比方，不是修辞手段，而是认知的底层机制——用一种语言的结构来理解另一种语言，或者发现两种语言在描述同一件事。侯世达在《表象与本质》里的核心论点正是如此：类比不是思维的装饰，而是思维本身。但类比有好坏之分。表面相似的类比只是隐喻，有用但不深。真正有力的类比，是两个领域在底层结构上真正同构——不只是描述上相似，而是能用A领域的逻辑，推导出B领域里你原本不知道的东西，然后去验证它。香农把”信息”用数学严格定义之后，信息论可以直接应用在生物学、物理学、经济学里，这不是隐喻，而是结构真的是同一件事。能产生新的可验证推论的类比，就不只是理解工具，而是发现工具。

在这个框架下，创新也有了更清晰的分类。最根本的创新，是发现新的底层原理，拓展我们的字母表，让我们能够表达之前触及不到的结构。这类创新改变整个表达系统的边界，带来范式级突破。另一类创新，是在已有字母表上进行新的组合，形成新的结构或模式。两类创新都不容易——把两个字母有机地组合到一起，逻辑自洽地把一个领域的思想应用到另一个领域的问题上，本身就是一件极难的事。发现一个新字母，则更难。现实中这两类创新交织存在，但它们的难度和意义是不同量级的。

认知不是线性进步的，这也是这套框架必须正视的一个现实。每一种语言在深入使用的过程中都会积累误差——不是因为语言错了，而是因为任何语言都有边界，越深入越接近边界，误差越大，直到不得不引入新的语言来填补，乃至整个框架的崩溃与重构。这个节奏在科学史上反复出现：19世纪末的物理学家面对黑体辐射问题，很多人以为只是计算不够精细，继续在经典框架内修补，但普朗克最终发现是底层假设出了问题——能量不是连续的。这里有一个关键判断需要做：误差到底来自哪里？如果是底层假设失效，需要换语言或扩展语言；如果只是复杂度不够，在同一语言内部精细化就够了。误判来源，就会在错误的方向上耗费大量资源。遇到困难时，元认知的第一步，是先诊断误差的性质，再决定用力的方向。

最后，跨学科探索的价值也在这个框架下有了新的理解。通常我们认为跨学科是为了”覆盖更多维度”，用更多语言拟合世界，让理解更全面。但还有另一层价值往往被忽视：互相纠偏。每一种语言都自带认知偏移，用一种语言越深入，就越容易被这种语言的框架所塑造，看到的问题形状会被工具本身扭曲。切换语言，不只是获得新视角，也是校正当前语言带来的系统性偏差。这意味着，跨学科能力的核心不是”我掌握了很多字母”，而是能主动跳出当前语言，从外部审视它——看到它的边界，看到它的预设，看到它开始失真的地方。这种能力，比单纯积累学科知识要难培养得多，但也更根本。

这套认知框架本身，也是一种语言，有自己的假设和边界。边界在哪里，现在还不知道——边界往往是用出来的，不是想出来的。它的价值不在于给出终极答案，而在于提供一条路径：理解世界的关键不在于记住规则，而在于掌握组合的能力，培养跳出语言审视语言的元认知，并在实践中不断扩展和校正自己的底层表达单位。

三分类理论

2026-04-03T16:48:27.000Z

三段创造

我发现任何有点难度的工作，尤其是科研或高科技领域，都能分成三个阶段：0→1、1→99、99→100。这不是什么严谨的理论，就是个帮我自己理解世界的框架。

0→1

从学术上没人提过的想法，到写成论文、实验上严格证明出来。起点是空白，终点是一个可被复现的原理验证。

这个阶段的核心问题是“这事能不能成”。做这件事的人需要容忍模糊、不怕试错、有点叛逆。让他们去搞流程管理或者跑渠道推广，基本是折磨。

1→99

原理有了，但还不稳定、不靠谱。1→99就是把它变成稳定、可规模化、可交付的东西。对一首歌来说，是编曲、录音、混音、母带。对一项技术来说，是把实验室里动不动就坏的原型变成一条能稳定运行的生产线。

这个阶段的核心问题是“怎么能一直稳定地做成”。需要的是系统思维、耐心、项目管理能力。数字“1到99”只是个代号，不代表具体的进度值。

99→100

这是最容易被误解的一段。99→100不是把产品做到完美无瑕，而是让需要它的人能够通过便捷的渠道轻易找到并使用。

拿音乐举例。灵感是0→1，编曲制作是1→99。一首歌做完锁在硬盘里，永远到不了100。上了流媒体、进了歌单、能被抖音刷到、在街上也能无意听到——这才算到了100。不是说每个人都得喜欢它，而是想听的人不费劲就能听到。

很多好东西死在这个阶段，不是因为不够好，而是别人找不到、用不上。

三个阶段的区别

	0→1	1→99	99→100
核心问题	能不能做成？	怎么能稳定做成？	怎么能让人轻易用到？
典型行动	试错、质疑、实验	优化、标准化、流程化	渠道、降低门槛、用户触达
所需能力	发散、容忍模糊	系统思维、耐心	用户洞察、沟通、运营

关于分工

一个人不适合同时做三个阶段。不是绝对不行，而是人的精力、性格、能力天然冲突。让一个0→1型的科研人员去跑渠道做推广，消耗的是他的才气。反过来，让一个99→100型的运营去决定核心技术路线，也大概率翻车。

一个人最多擅长相邻的两个阶段。正常情况，专注一个阶段就够了。如果你发现自己想包揽三段，可能是在勉强自己。

串行还是并行

理论上三段是串行的：先0→1，再1→99，最后99→100。实际中你会发现，在1→99时可能发现当初那个0→1是错的，那就退回去重新找一个对的0→1。这不破坏三段本身的划分。

同一段时间里，你也可以今天做0→1的事，明天做1→99的事。关键是你清楚自己做的每一件事属于哪一类。

这是个认知工具，不是物理定律

别拿它去跟现实死磕。纯数学没有“大众用户”的概念，那就只取前两段用。独立开发者同时写新算法、重构代码、发推特，你看他做的那件事的本质属于哪一类就行，不用按时间比例算。

不同人对同一件事的归类可以不同。这本来就是帮你理解自己工作的，不需要外部证明。

有什么用

这套东西帮我回答过几个实际问题：

我现在卡在哪了？——有时候发现不是自己能力不行，而是这个阶段本身就烦人。
我需要什么样的人合作？——如果我在做0→1，就别找一个满脑子流程优化的工程师来管我。
我是不是在强迫自己做不适合的事？——一个0→1型的人被逼着做99→100，会痛苦而且做不好。

如果你用着也觉得顺手，就拿去用。如果觉得哪里不对，就按你自己的改。

fotran2cpp

2026-03-31T16:00:00.000Z

Automatic Fortran to C++ conversion

1. 安装fable环境

Pre-requisites:

Please have a Linux environment, bash shell.
Please create a working directory
1
2
export WORK=
cd ${WORK}

Download source code:

1 2	wget https://raw.githubusercontent.com/cctbx/cctbx_project/master/libtbx/auto_build/bootstrap.py --no-check-certificate python bootstrap.py hot update --builder=cctbx

Create and configure a conda environment:

wget https://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64.sh --no-check-certificate
chmod u+x Miniconda2-latest-Linux-x86_64.sh
./Miniconda2-latest-Linux-x86_64.sh # tested with conda 4.5.11
     # please install in directory ${WORK}/miniconda2
     # no, do not prepend Miniconda2 to .bashrc

source miniconda2/etc/profile.d/conda.sh
conda create -y --name fable36 python=3.6
conda activate fable36
conda install six future

Create and configure FABLE:

mkdir build36
cd ${WORK}/build36
python ../modules/cctbx_project/libtbx/configure.py fable
# python ../modules/cctbx_project/libtbx/configure.py --enable_cxx11 fable # support C++11 standard
source ${WORK}/build36/setpaths.sh
cd ${WORK}/build36; make; cd ${WORK}
cd ${WORK}/build36; make; cd ${WORK}

source miniconda2/etc/profile.d/conda.sh
conda activate fable36
source ${WORK}/build36/setpaths.sh
mkdir test36; cd test36
libtbx.run_tests_parallel module=fable nproc=Auto

[!NOTE]
Not yet tested with MacOSX
Also works with Python 2.7 (change 3.6 to 2.7)

2. 使用fable

[!IMPORTANT]
fable comes with the C++ fem Fortran EMulation library. The entire fem library is inlined and therefore very easy to use: simply add -I/actual/path/fable or similar to the compilation command.

先启动上面创建好的python环境

1
2
3

source miniconda2/etc/profile.d/conda.sh
conda activate fable36
source ${WORK}/build36/setpaths.sh

之后开始转换代码

1	fable.cout your_fortran_code.f --namespace=example > example.cpp

编译新生成的C++代码

1	g++ example.cpp -I ${WORK}/fable -I ${WORK}/fable/modules/cctbx_project

[!NOTE]
其他问题可以参阅 https://cci.lbl.gov/fable/

断网GPU服务器Claude_Code配置指南

2026-03-11T07:50:17.000Z

断网 GPU 服务器使用 Claude Code 指南

适用场景：本地 macOS + SSH 密码登录 + 服务器完全断网

原理

1	服务器 → SSH 反向隧道 → 本地电脑（Clash/pproxy）→ 互联网 → Anthropic API

方案选择

场景	推荐方案
本地使用 Clash 代理上网	方案一：直接转发 Clash 端口（推荐）
本地直连外网，无代理工具	方案二：pproxy 自建代理

方案一：转发 Clash 端口（推荐）

如果本地使用 Clash/Clashy 上网，直接把 Clash 的代理端口通过 SSH 隧道转发给服务器，流量完全走 Clash 的规则，VPN 分流等策略全部生效。

第一步：确认 Clash 代理端口

在 Clashy 界面查看 HTTP 代理端口，默认为 7890。

第二步：建立 SSH 反向隧道（终端1）

1	ssh -R 2081:localhost:7890 -N -p 30513 root@10.8.128.123

替换 30513、root、10.8.128.123 为你自己的 SSH 端口、用户名、服务器 IP。

⚠️ 输入密码后无任何输出属于正常现象，此终端保持运行，不要关闭。

第三步：SSH 登录服务器并设置代理（终端2）

1	ssh root@10.8.128.123 -p 30513

登录后设置代理环境变量：

1
2
3

export HTTP_PROXY=http://127.0.0.1:2081
export HTTPS_PROXY=http://127.0.0.1:2081
export ALL_PROXY=http://127.0.0.1:2081

💡 可以把这三行写入 ~/.bashrc，之后每次登录自动生效。

第四步：验证网络连通性

1	curl --proxy http://127.0.0.1:2081 https://ifconfig.me

返回的 IP 与本地 Clash 出口 IP 一致即表示成功。

第五步：安装并运行 Claude Code

1 2	npm install -g @anthropic-ai/claude-code claude

方案二：pproxy 自建代理

如果本地没有 Clash，用 pproxy 在本地起一个代理。

第一步：本地安装并启动 pproxy（终端1）

1 2	pip3 install pproxy python3 -m pproxy -l socks5://0.0.0.0:1080 -l http://0.0.0.0:1081

⚠️ 此终端保持运行，不要关闭。

第二步：建立 SSH 反向隧道（终端2）

1	ssh -R 2080:localhost:1080 -R 2081:localhost:1081 -N -p 30513 root@10.8.128.123

⚠️ 输入密码后无任何输出属于正常现象，此终端同样保持运行。

第三步：SSH 登录服务器并设置代理（终端3）

1	ssh root@10.8.128.123 -p 30513

登录后设置代理环境变量：

1
2
3

export HTTP_PROXY=http://127.0.0.1:2081
export HTTPS_PROXY=http://127.0.0.1:2081
export ALL_PROXY=http://127.0.0.1:2081

第四步：验证网络连通性

1	curl --socks5-hostname 127.0.0.1:2080 https://ifconfig.me

返回一个 IP 地址即表示成功。

第五步：安装并运行 Claude Code

1 2	npm install -g @anthropic-ai/claude-code claude

安装其他软件包

设置好环境变量后，pip、npm、claude 均可直接使用。apt 需一次性写入代理配置：

1 2	echo 'Acquire::http::Proxy "http://127.0.0.1:2081";' > /etc/apt/apt.conf.d/proxy.conf echo 'Acquire::https::Proxy "http://127.0.0.1:2081";' >> /etc/apt/apt.conf.d/proxy.conf

之后各工具直接使用：

工具	命令
pip	`pip install 包名`
apt	`apt install 包名`
npm	`npm install 包名`
claude	`claude`

常见问题

错误信息	原因	解决方法
`connection to proxy closed`	本地代理未启动	确认 pproxy 或 Clash 正在运行
`Could not resolve host`	DNS 未走代理	改用 `--proxy` 或 `--socks5-hostname` 参数
`Protocol socks5h not supported`	服务器 curl 版本太旧	改用 `--socks5-hostname` 参数
`Missing dependencies for SOCKS`	pip 缺少 SOCKS 支持	改用 HTTP 代理端口 2081
`channel 2: open failed`	GatewayPorts 未开启	服务器执行 `echo "GatewayPorts yes" >> /etc/ssh/sshd_config && systemctl restart sshd`
服务器能联网但未走 VPN	Clash 分流模式未覆盖 pproxy 流量	改用方案一直接转发 Clash 端口

失恋和爱情

2025-02-20T16:00:00.000Z

曾经沧海难为水，除却巫山不是云

终有弱水替沧海，再无相思寄巫山

深爱之人藏心不挂嘴，久爱之人在梦不在眼

相遇就像你特别喜欢可乐，喝的时候爽到了就是意义；重点不是结局在不在一起，而是共同创造了独属于你们的时间线。

“如果有一天我不来找你，你会怎么办？”
“我会试着不期望你来。”

他说:
“九叶重楼二两，
冬至蝉蜕一钱。
煎入隔年雪煮沸，
可医世人相思疾苦。”
我又问:
“可重楼七叶一花，
冬日何来蝉蜕
雪又怎能隔年
相思又怎可解。”
大夫说:
“孰不知，夏枯即为九重楼，
掘地三尺寒蝉现，
除夕子时雪，落地已隔年，
过了离别时，相思亦可解！”
——
吾悲叹:“可奈何，
夏枯辛苦深寒，
寒蝉体小声微，
面拂寒夜风，隔年雪冻人。
相思虽可解，但寒苦卑弥已入喉，肠已断，泪难收，回首白头亦乃无解。”

没有什么一成不变，要学着允许一切发生。

当你凌晨睡不着突然意识到自己曾经最想共度一生的人居然变成了人生中的一个教训时

你根本没做错什么我们都一样爱就是会消散

“她满脸厌恶的求我放过她，我忽然愣住了，想起很久以前她小心翼翼的问我，你会离开我吗”

爱情不是一个强烈的感觉, 你以为我fall in love, 那个人, 我对他朝思暮想, 盘踞我的脑海, 盘踞我的心灵, 然后呢昼思夜想, 你觉得你这个叫做爱, 我错了, 爱不是感觉, 爱是一种意志, 是一种许诺, 因此他跟你的人格息息相关, 也因此爱必须经过学习

你要光靠感觉去维系爱情, 注定失败, 你对于你喜欢的对象, 你其实应该可以学习, 慢慢的客观的真正的去了解他, 而不是一定要他改头换面, 变成你喜欢的样子, 你才要爱他, 那这种爱都是这就不是真正的爱, 因为你只是爱上你自己的投影, 邻人之间也一样好, 等到发现什么, 你不是我想象中的样子好, 就是say goodbye

因为误会而结合, 然后因为了解而分开, 为什么我们总是落入这样这样的苛臼里面, 就应该要照他原来的样子去接受它

那我们现代人向往的一种爱情形态, 就是一见钟情, 因为我们相信直觉, 我们相信直觉超越了任何的永恒量, 超越了很多的思考, 强大的一种感性所选择的那个对象, 我你们觉得这才是最纯粹, 最没有任何杂质的一种爱情, 真的是这样吗, 有太多的形态是因为物误会而结合, 因为了解而分开, 一见钟情的情强度固然让我们感到一种震撼, 但是震撼过后请恢复理性, 你要追求的是终其一生, 细水长流的真实的爱情好

所以所谓的love就是你的心灵状态, 它不应该涉及到任何其他欲望的成分, 欲望就是欲望, 爱就是爱

可是婚姻是生活, 不是只有爱就能够支撑, 你要光靠感觉去维系爱情哦, 注定失败了, 爱情没有你所想象的可以那样子, 无坚不摧, 我们这个时代的好处在于说, 就因为这个对象是我选的, 所以以后不管信或不信人, 一定要学会自己去对你的人生做出选择, 然后选择你所爱的, 接下来也学习爱你所选择的欢乐的全都有

你应该是先建立一个深刻的相互的了解, 甚至彼此有共同的兴趣, 因此将来可以无限的延伸, 然后结了婚之后, 那就是一种意志跟承诺, 在这个意志跟承诺之下, 创造性的态度转向对方, 我可以帮助你配合你, 同样的, 当双方都是这样想的时候, 他们的情感就会越来越深厚

爱不只是说很强烈的吸引而已, 强烈的东西它会消退的, 会弱化的, 可是当你这个爱里面, 结合了NE的时候, 你会感谢对方对你的好, 你会愿意付出, 你不会觉得这个付出是一种压力, 所以我也应该对你好, 这是人跟人之间最好的一种互动, 通过对对方的爱好, 你因此也爱世界, 也爱自己

爱情应该就是要跟品德人格结合在一起的, 每一个人必须审视自己, 交给自己生命的意义, 有些东西并非需要发现, 而是必须加以铸造

你在后天去思考, 做一个人怎样才有价值, 于是你认识到这个价值之后, 你去打造你的性格, 所以性格是千锤百炼出来的, 是在你在一个价值的领导之下去努力追寻的, 它不是唾手可得, 不是只要你的生命, 你的自然是什么样子就可以得到的, 当你在铸造生命的意义的时候, 你甚至很有可能是在违背你的生理, 跟你的本能的那个程序

好看的外表是上天慷慨给予的礼物, 我们应该感谢并且珍惜, 但是绝对不应该把这份礼物变成是, 潘朵拉的盒子, 在华丽的表面下装满丑陋的欲望, 那就算是金玉其外, 败絮其中了, 长得好看的人未必就会风流花心, 而外表老实的人也很可能一肚子坏水, 人不可貌相, 有一句谚语说, Beauty is only in deep, 美丽呀只是一张皮肤的程度, 这等于中国人所说的肤浅, 看穿美貌的浅薄与虚假, 而守住珍贵的灵魂, 年华易逝, 所谓的红颜弹指老, 刹那芳华, 他只不过是很短暂的梦幻泡影而已, 而一旦内在装的是败絮, 那么这个人其实连毁灭也就不远了, 一个人最重要的是真心, 外表只不过是一张薄薄的皮而已, 看透它吧, 你反而能够得到真实而美好的人生

当时我们都太年轻了，还不懂得如何去爱

无论我们最后生疏成什么样子，曾经对你的好都是真的。就算终有一散，也别辜负相遇。希望你不后悔认识我，也是真的快乐过。如果能回到从前，我会选择不认识你，不是我后悔，是我不能面对现在的结局

“只要你观察一个人足够仔细，就会爱上这个人”

红酥手，黄縢酒，满城春色宫墙柳。东风恶，欢情薄。一怀愁绪，几年离索。错、错、错。

春如旧，人空瘦，泪痕红浥鲛绡透。桃花落，闲池阁。山盟虽在，锦书难托。莫、莫、莫！

世情薄，人情恶，雨送黄昏花易落。晓风干，泪痕残，欲笺心事，独语斜阑。难，难，难！

人成各，今非昨，病魂常似秋千索。角声寒，夜阑珊，怕人寻问，咽泪装欢。瞒，瞒，瞒！

大模型算法实习八股

2025-02-15T16:00:00.000Z

一般来说，开发岗位的算法面试是不会出题要求面试者临时设计一个数据结构来解决某个问题，大多数时候只是要求面试者能够熟练掌握常见的数据结构及其实现、能够说出这种数据结构的优缺点即可。

大模型架构

原始 Transformer

分词方式

字节对编码 BPE

本质上是subword作为词表，只不过是优先合并出现频率高的字符，直到词表大小合适或者最高词频为1

注意力机制

注意力评分函数

加性注意力评分函数
$$
a(q,k)=w^T_vtanh(W_qq+W_kk)
$$
加性注意力评分函数可以看作，将查询和键连结起来后输入到一个多层感知机（MLP）中，感知机包含一个隐藏层，其隐藏单元数是一个超参数ℎ。通过使用tanh作为激活函数，并且禁用偏置项，
缩放点积注意力评分函数
$$
a(q,k)=\frac{QK^T}{\sqrt{d}}
$$
为确保无论向量长度如何，点积的方差在不考虑向量长度的情况下仍然是1，将点积除以$$\sqrt{d}$$

Summary:

加性注意力和缩放点积注意力计算复杂度接近，但矩阵乘法有非常成熟的加速实现，所以缩放点积注意力的计算效率更高。
在d(注意力矩阵的维度)较小时，加性和缩放点积注意力效果接近，但随着d的增大，加性注意力开始显著超越缩放点积。原因是极大的点积值将整个 softmax 推向梯度平缓区，使得收敛困难，所以缩放点积注意力需要除以$$\sqrt{d}$$。

多头注意力机制 MHA

QKV 三部分有相同数量的头，且一一对应。每次做 Attention，head_i 的 QKV 做好自己的运算就可以，输出时各个头加起来就行

多查询注意力机制 MQA

让 Q 仍然保持原来的头数，但 K 和 V 只有一个头，相当于所有的 Q 头共享一组 K 和 V 头，所以叫做 Multi-Query 了。

分组查询注意力机制 GQA

是 MHA 和 MQA 的折衷方案，既不想损失性能太多，又想获得 MQA 带来的推理加速好处。具体思想：不是所有 Q 头共享一组 KV，而是进行分组，一定头数 Q 共享一组 KV

Multi-Head Latent Attention

MLA是为了解决在推理时KV Cache占据空间过大的问题

Normalization

Batch Norm
同一个位置token下，同一批batch下不同条数据进行标准化
Layer Norm（pre Norm (用的更多，训练起来更方便，但是没有post Norm上限高)and post Norm）
同一条数据中，不同位置token进行标准化
RMS Norm
RMSNorm和LayerNorm的主要区别在于RMSNorm不需要同时计算均值和方差两个统计量，而只需要计算均方根 Root Mean Square 这一个统计量，RMS Norm认为，Layer Norm成功的原因是re-scaling，因为方差Var计算的过程中使用了均值Mean，因此RMS Norm不再使用均值Mean，而是构造了一个特殊的统计量RMS代替方差Var。

为什么 LN 比 BN 更适用于 Transformer 类模型呢，这是因为 transformer 模型是基于相似度的，把序列中的每个 token 的特征向量进行归一化有利于模型学习语义，第一步调整均值方差时，相当于对把各个 token 的特征向量缩放到统一的尺度，第二步施加 $$\pmb{\gamma, \beta}$$ 时，相当于对所有 token 的特征向量进行了统一的 transfer，这不会破坏 token 特征向量间的相对角度，因此不会破坏学到的语义信息。与之相对的，BN 沿着特征维度进行归一化，这时对序列中各个 token 施加的 transfer 是不同的，破坏了 token 特征向量间的相对角度关系

pre-norm 和 post-norm的区别

pre-norm：训练更加稳定，在训练稳定和收敛性方面有明显的优势

post-norm：训练不稳定，但是潜在效果会更好，对训练不稳定，梯度容易爆炸，学习率敏感，初始化权重敏感，收敛困难。好处是有潜在效果上的优

归一化 | 标准化的概念区分

归一化
$$
x’=\frac {x-min(x)} {max(x)-min(x)}
$$
均值归一化
$$
x’=\frac{x-mean(x)}{max(x)-min(x)}
$$
标准化
$$
x’=\frac{x-mean(x)}{\sigma(x)}
$$
单位化
$$
x’=\frac{x}{||x||}
$$

RoPE 位置编码

绝对位置编码

训练式位置编码
sin位置编码

绝对位置编码的缺陷在于无法长度外推

RoPE 是相对位置编码，本质上通过让高维向量旋转的方式将相对位置信息加入到词向量中，具体做法是词向量乘以一个旋转矩阵，旋转矩阵中有相对位置信息
$$
\begin{pmatrix}
\cos m\theta_0 & -\sin m\theta_0 & 0 & 0 & \cdots & 0 & 0 \
\sin m\theta_0 & \cos m\theta_0 & 0 & 0 & \cdots & 0 & 0 \
0 & 0 & \cos m\theta_1 & -\sin m\theta_1 & \cdots & 0 & 0 \
0 & 0 & \sin m\theta_1 & \cos m\theta_1 & \cdots & 0 & 0 \
\vdots & \vdots & \vdots & \vdots & \ddots & \vdots & \vdots \
0 & 0 & 0 & 0 & \cdots & \cos m\theta_{d/2-1} & -\sin m\theta_{d/2-1} \
0 & 0 & 0 & 0 & \cdots & \sin m\theta_{d/2-1} & \cos m\theta_{d/2-1}
\end{pmatrix}

\begin{pmatrix}
q_0 \
q_1 \
q_2 \
q_3 \
\vdots \
q_{d-2} \
q_{d-1}
\end{pmatrix}
$$

激活函数

SoftMax

softmax一般用于多分类的结果，一般和one-hot的真实标签值配合使用，大多数用于网络的最后一层
$$
Softmax(X)=\frac{e^x}{\sum_{j=1}^ne^{x_j}}
$$

Sigmoid

sigmoid是原本一种隐层之间的激活函数，但是因为效果比其他激活函数差，目前一般也只会出现在二分类的输出层中，与0 1真实标签配合使用
$$
Sigmoid(x)=\frac{1}{1+e^{-x}}
$$

ReLU

线性整流函数（ReLU函数）的特点：

当输入为正时，不存在梯度饱和问题。
计算速度快得多。ReLU 函数中只存在线性关系，因此它的计算速度比Sigmoid函数和tanh函数更快。
Dead ReLU问题。当输入为负时，ReLU完全失效，在正向传播过程中，这不是问题。有些区域很敏感，有些则不敏感。但是在反向传播过程中，如果输入负数，则梯度将完全为零，Sigmoid函数和tanh函数也具有相同的问题
ReLU函数的输出为0或正数，这意味着ReLU函数不是以0为中心的函数。

$$
ReLU(x)=max(0,x)
$$

Silu

$$
f(x)=x\cdot\sigma(x)
$$

SwiGLU 激活函数是Shazeer 在文献中提出，并在PaLM等模中进行了广泛应用，并且取得了不错的效果，相较于ReLU 函数在大部分评测中都有不少提升。可以看做是平滑的ReLU激活函数。

Tanh

双曲正切函数是双曲函数的一种。双曲正切函数在数学语言上一般写作tanh ⁡ \tanhtanh。它解决了Sigmoid函数的不以0为中心输出问题，然而，梯度消失的问题和幂运算的问题仍然存在

$$
tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}
$$

损失函数

KL散度

KL散度度量的是同一个随机变量的两个单独分布之间的距离，而非针对不同随机变量的

交叉熵损失函数

分类为什么用交叉熵而不用MSE？

MSE作为损失函数有梯度消失的问题

L1和L2正则化约束

L1是参数绝对值之和加到loss上，L2是平方和加到loss上

优化器

Adam

SGD

文本大模型

Llama3 架构

残差网络的优点：

防止梯度消失
特征重用
能够让模型的层数变得很多

为什么decoder only架构成为主流？

首先淘汰encoder only的结构，因为masked language model预训练方式不擅长做生成任务

decoder only在工程上有更高的效率性，可以KV-cache，并且zero-shot的能力要更强

在理论上是因为Encoder的双向注意力会存在低秩问题，这可能会削弱模型表达能力，就生成任务而言，引入双向注意力并无实质好处。而Encoder-Decoder架构之所以能够在某些场景下表现更好，大概只是因为它多了一倍参数。所以，在同等参数量、同等推理成本下，Decoder-only架构就是最优选择了。

FFN层为什么先升维再降维

升维。其主要作用是拟合一个更高维的映射空间，从而提升模型的表达能力和拟合精度。

降维。其主要作用是还原维度，限制计算复杂度。

多模态大模型

Vit架构

Patch Embedding的作用是将一个CV问题通过切块和展平转化为一个NLP问题

总体架构

Vision Mapping 就是用图片token将占位符给替换掉

MOE架构

Gate网络和专家选择机制

计算匹配得分
Gate 网络通过线性变换计算每个 token 与所有路由专家的兼容性得分。得分反映了 token 与各专家“契合”的程度。
选择 Top-K 专家
基于得分，Gate 网络为每个 token 选择 Top-K 个最合适的路由专家。在 DeepSeek‐V3 中，每个 token 通常选择 8 个路由专家（在一些实现中还可能对跨节点路由做限制，如最多路由到 4 个不同节点），从而只激活极少数专家进行计算。
专家处理与加权聚合
被选中的专家各自对 token 进行独立处理（一般采用一个轻量级的前馈网络，类似于 Transformer 中的 FFN 模块），产生各自的输出。最终，这些专家的输出会根据 Gate 网络给出的权重进行加权聚合，再与共享专家的输出进行融合，形成当前 MoE 层的最终输出表示。

大模型微调

SFT微调算法

LORA

A矩阵参数初始化为正态分布，B矩阵参数初始化为0

如果B和A全部初始化为零矩阵，缺点是很容易导致梯度消失。
如果B和A全部正态分布初始化，那么在模型训练开始时，就会容易得到一个过大的偏移值△W,从而引起太多噪声，导致难以收敛。

QLORA

在反向传播过程中，QLoRA 将预训练的权重量化为 4-bit，并使用分页优化器来处理内存峰值。

Prompt-Tuning

Prompt Tuning设计了一种prefix prompt方法，即在模型输入的token序列前添加前缀prompt token，而这个前缀prompt token的embedding是由网络学到。

Prompt Tuning可以看做token已经确定，但是embedding是可以学的。它相当于仅用prompt token的embedding去适应下游任务，相比手工设计或挑选prompt，它是一种Soft的prompt(软提示)，

Prefix-tuning

Prefix tuning为ll层的Transformer Layer的每层多头注意力的键和值都配置了可学习的prefix vectors.

Prefix-Tuning可以算是Promot Tuning的一个特例（Promot Tuning只在输入侧加入可学习的Prefix Prompt Token）

P-Tuning

Prefix Tuning 是将额外的 embedding 加在开头，看起来更像是模仿 Instruction 指令；而 P-Tuning 的位置则不固定。
Prefix Tuning 通过在每个 Attention 层都加入 Prefix Embedding 来增加额外的参数，通过 MLP 来初始化；而 P-Tuning 只是在输入的时候加入 Embedding，并通过 LSTM+MLP 来初始化。

P-Tuning V2

相比 Prompt Tuning 和 P-tuning 的方法， P-tuning v2 方法在多层加入了 Prompts tokens 作为输入

Adapter Tuning

Adapter Tuning试图在Transformer Layer的Self-Attetion+FFN之后插入一个先降维再升维的MLP（以及一层残差和LayerNormalization）来学习模型微调的知识。Adapter即插入的FF up + FF Down（其实就是一个MLP）

缺点：需要修改原有模型结构，同时还会增加模型参数量。

微调框架

Deepspeed

显存=模型参数+梯度+优化器状态+中间激活值

zero-0: 不采用任何内存优化方案，也就是普通DDP

zero-1：将optimer需要存储的值切分到各个显卡上

zero-2：将优化器状态和梯度都划分到不同的设备上

zero-3：将模型参数、优化器状态和梯度都分到不同设备上

Megatron-LM

数据并行
张量并行
流水线并行

大模型蒸馏

白盒蒸馏

黑盒蒸馏

大模型强化学习微调

为什么RLHF有效

多样性假设：对于同一个指令或者问题，模型应该能够产生多种多样的答案，而不是仅仅局限于SFT数据中对应的那一句回答
负样本均衡问题：对于SFT阶段，所有的数据都是精挑细选的高质量数据，也就是所谓的正样本，而我们都知道，训练模型时正负样本均衡才更有助于模型的泛化性，而SFT阶段没有向模型展示过任何负样本，而RLHF允许我们向模型展示负样本
RLHF有助于解决模型幻觉

RLHF

强化学习微调需要用到四个模型，Actor模型、Reference模型、Critic模型、Reward模型

其中Actor模型是要微调的大模型，Reference模型是参数冻结的Base大模型，与Actor模型初始参数相同，Critic模型是用来评估Actor模型生成回答的整体好坏性，Reward模型是用来产生即时奖励的模型，初始的Critic模型与Reward模型是同一个模型，只不过Critc模型会与Actor模型一起进行参数更新，而Ref模型和Reward模型的参数是全程冻结的，Ref模型参数冻结是因为需要Ref模型的输出来作为一个参考，防止Actor模型跑偏。Reward模型在人类偏好训练完成之后便保持了与人类偏好一致，所以参数不能更新，否则将无法使Actor模型的输出与人类偏好对齐。Critic模型输出的奖励值一开始与Rewar模型一致，但是Critic模型需要不断估计在不同状态下Actor模型输出的好坏，所以需要随着数据不断进行参数更新，使自身对价值的估计与状态相契合。

参数更新需要用到loss, Actor模型的loss来自于其他三个模型，首先Ref模型将提供一个限制Actor模型跑偏的loss,Reward模型将提供一个一个token生成时的即时奖励loss, Critic模型提供一个当前token生成对未来长远影响的loss,一共三个loss,组成Actor模型的最终loss。这个最终loss的最终目标是想要让Actor模型在生成的意思没有太大变化的同时，使用符合人类偏好的文字来表达。

PPO

$$
Adv_{t} = (R_{t} + \gamma * V_{t+1} - V_{t}) + \gamma * \lambda * Adv_{t+1}
$$

$$
\begin{array}{l}R_{t}=-kl_{ctl} *\left(\log \frac{P\left(A_{t} \mid S_{t}\right)}{P_{\text {ref }}\left(A_{t} \mid S_{t}\right)}\right), t \neq T \ R_{t}=-kl_{c t l} *\left(\log \frac{P\left(A_{t} \mid S_{t}\right)}{P_{\text {ref }}\left(A_{t} \mid S_{t}\right)}\right)+R_{t}, t=T\end{array}.
$$

$$
KL[Actor(X) || Ref(X)] = E_{x\sim Actor(x)}[log\frac{Actor(x)}{Ref(x)}] = log probs - reflogprobs
$$

$$
actor_{loss} =-\min \left(\operatorname{Adv} v_{t} * \frac{P\left(A_{t} \mid S_{t}\right)}{P_{\text {old }}\left(A_{t} \mid S_{t}\right)}, \operatorname{Adv} v_{t} * \operatorname{clip}\left(\frac{P\left(A_{t} \mid S_{t}\right)}{P_{\text {old }}\left(A_{t} \mid S_{t}\right)}, 0.8,1.2\right)\right)
$$

$$
Critic_{loss} =\left(R_{t}+\gamma * V_{t+1}-V_{t}\right)^{2}
$$

DPO

使用DPO数据，同一个问题，一个接受的答案，一个拒绝答案

DPO loss 计算：- Sigmoid（（Actor模型在接受答案的概率-Actor模型在拒绝答案上的概率）- （Ref模型在接受答案上的概率-Ref模型在拒绝答案上的概率））

或者可以说（Actor模型在接受答案的概率-Ref模型在接受答案上的概率）- （Ref模型在拒绝答案上的概率-Actor模型在拒绝答案上的概率）

也就是说 loss 使得Actor模型的生成答案相比较于Ref模型更靠近接受答案，更远离拒绝答案

GRPO

不使用优势，采用多次采样，近似得到baseline

为什么GRPO一开始loss为0？
一开始actor model 和ref model 的KL散度是0，在一开始时损失函数等于$\beta$倍的平均KL散度，所以loss一开始是0
为什么Loss的更新方向是增长方向的，不是（策略）梯度下降吗？
一开始训练的时候，actor mode 参数更新之后，与ref model不一样之后，KL散度开始增加，所以loss变大

GRPO能直接使用在较小参数的模型上训练微调吗？

GRPO 多次采样是同一个输入，采样不同输出

大模型推理

推理常见参数

Greedy Search
Beam Search
tok-k
top-p
temperature：当T=1时，输出分布将与标准softmax输出相同。T的值越大，输出分布就越平滑，T的值越小，输出分布越陡峭
repetition_penalty

通常我们是将 top-k、top-p、Temperature 联合起来使用。使用的先后顺序是 top-k->top-p->Temperature。

LLM出现复读机现象？

原因：

由于贪婪策略，LLM趋向于提高重复先前句子的概率
而且这种现象会愈演愈烈，自我强化

解决办法：

构造伪数据，设计惩罚因子来惩罚训练
解码策略调整，使用惩罚重复参数，beam search、调整温度T参数

推理优化技术

KV Cache

每一步计算注意力分数的时候，只需要新token的Q与以往的的K计算得到注意力分数，然后与之前所有的V进行计算得到最终结果，所以只有新的Q是需要新的token的Q,而K和V之前计算过的可以重复利用，所以在每一步计算的时候将K和V保存下来在下一步计算，便可以减少计算量，达到加速效果。

Flash Attention

动机：Attention机制计算对于长序列不友好

将输入分块计算，然后合并重新计算

https://mp.weixin.qq.com/s/P_21MWC82l945jCWuUAD_A

大模型量化

float16, float32,bfloat16

从左到右分别是，符号位S，指数E，尾数M, R是基数（2或10）
$$
V = (-1)^S * M * R^E
$$

range越大表示范围越大，precision越大表示精度越高

大模型给定参数多少B，计算模型大小多少GB 和显存占用多少GB？

模型大小：1B 约等于 4G 1b=1000M=4000MB=4GB 在float32的情况下因为32bit=4byte

显存占用：总显存=4GB（参数）+4GB（梯度）+8GB（优化器状态）=16GB

AWQ

按照重要性来选择性量化某些值

GPTQ

按照层来选择性量化某些层

思维链推理

o1发布后，国内陆续发布了很多类o1模型，比如deepseek-r1、kimi-math、macro-o1、qwq等等

树搜索派系，主要使用树搜索+multi-agent合成数据
蒸馏派系，主要通过各种jail-break攻破o1的思维链展示限制、爬deepseek-r1以及使用qwen-qwq刷数据蒸馏。

超长上下文扩展

线性位置插值法扩展

通过线性缩小输入位置索引以匹配原始上下文窗口大小，而不是超出训练上下文长度进行外推，这样可以减小注意力机制中相对位置的影响，帮助模型更容易适应扩展后的上下文窗口。

需要重新训练

动态插值法

利用神经正切核 (NTK) 理论，设计非线性位置编码插值方案，改变基数而不是缩放比例，使不同位置可区分，避免线性插值的问题。

Yarn方法

Yarn 方法对不同频率的正弦波进行不同程度的插值：

对高频正弦波几乎不进行插值，保留细微位置信息。
对低频正弦波进行接近线性的插值，保留位置大体信息。
中频正弦波进行渐变的插值。

大模型测评

模型幻觉

产生的原因

大模型对自己的输出缺乏因果关系的判断
LLM内部知识与人类标注的知识的不匹配，LLM内部知识不包含人类标注的知识时，模型就会产生幻觉

解决方案

让模型能够给出自己回答的依据、来源出处等（感觉是Cot的开端
强化学习，因为强化学习在给奖励是只是给出答案1比答案2好，并不给出具体原因和好的程度，所以能够让LLM自己探索出一条属于自己理解的道理

模型融合

Task Vector

TIES

第二步的方向选择上是如何选择的？

TIES-BT

Fuse

不拘泥于必须同一架构，主要融合多个模型的输出vocab概率分布，然后将融合后的概率分布作为target计算loss+clm的loss一起去train模型

Agent技术

面对文本长度超过模型输入长度的情况，该怎么解决？

Prompt工程

Prompt外挂

分解和组合

反馈

Muti-Agent

前瞻性分析

中央执行机构

记忆

多模态

学习

世界模型

效应

2025-01-24T16:00:00.000Z

心理学效应

彼得原理

《彼得原理》(英语:Peter Principle)是管理学家劳伦斯·彼得在1969年出版的一本同名书，里面提出的“彼得原理”是指:在组织或企业的等级制度中，人会因其某种特质或特殊技能，令他被擢升到不能胜任的高阶职位，最终变成组织的障碍物(冗员)及负资产。

孕妇效应

孕妇效应意即偶然因素随着自己的关注而让你觉得是个普遍现象，就是当人怀孕了就更容易发现孕妇，你开了奔驰就更容易看到奔驰，你拎了一个LV就容易发现满大街都是LV。用来形容人们容易把自己的关注点投射在外界，以寻找更多案例来证实内心想法的情况。

梅拉宾法则

梅拉宾法则(The Rule of Mehrabian):梅拉宾在1971年提出:一个人对他人的印象，约有7%取决于谈话的内容，辅助表达的方法如手势、语气等则占了38%，肢体动作所占的比例则高达55%，

鹅卵石法则

今天看到一个说法:人们会时不时把有趣的短视频、图片或者可爱的小故事分享给所爱的人。这种行为叫Pebbling，意为“丢鹅卵石”。据说有一种企鹅喜欢在伴侣的巢穴中留一块鹅卵石，告诉它我来过，我很关心你。

GABA

人类喜欢从故事中得到顿悟。因为顿悟会激发一种叫做GABA的神经递质，它跟缓解焦虑有关。
每个人的大脑中，有两种主要的神经递质:一种是GABA，另一种是谷氨酸。当谷氨酸过多时，它会过度刺激神经细胞，导致焦虑、、紧张等情绪问题. 而GABA则相反

坎贝尔定律和古德哈特定律

坎贝尔定律说，决策当中使用的一项指标越受重视，就越容易被操纵。

好比网络购物，实物我们看不见摸不着，自然就会参考其他买家的评价，于是“刷单”现象也就应运而生了。

古德哈特定律则认为，如果一项指标被人们刻意追逐，那就不（或不再）是一个好的指标。

但在没有更好的替代指标的情况下，就必须确保数据的真实度了，就好像在考试中要不遗余力地打击作弊一样。

写作与思考

比莱斯利·兰波特（LaTeX排版系统的开发者）曾说：如果你不写作，你可能只是在自欺欺人地认为你已经思考了。（注：If you’re thinking without writing, you only think you’re thinking.）

蝴蝶效应

一只南美洲亚马逊河流域热带雨林中的蝴蝶，偶尔扇动了几下翅膀，在两周后可能引起美国得克萨斯州的一场龙卷风暴。在心理学上，蝴蝶效应表现为一种不同于普通的连锁效应的，因果性不明显的情绪反应和行为。

狄德罗效应

18世纪法国一位哲学家丹尼斯.狄德罗，某天友人赠其一件高级睡袍，他非常喜欢。但当他穿上之后，开始觉得家里的一切家具和装饰都显得粗陋庸俗，于是不得不把旧的东西一件件更新，但最终她仍不觉得开心，因为他最终发现，“自己竟然被一条睡袍胁迫”。

一种常见的“愈得愈不足效应”，即在没有得到某种东西时，心里很平稳，而一旦得到了，却不满足。

齐加尼克效应

源于法国心理学家齐加尼克做的一次实验。他将受试者分成两组，分别去完成20项工作。其间，他对其中一组进行干预，使他们的工作不能顺利完成，而让另一组毫无阻碍，顺利完成全部工作。尽管所有受试者接受任务时都非常紧张，但顺利完成任务者紧张状态随之消失，而未能完成任务者，思绪总是被那些任务困扰，紧张状态持续存在。

罗森塔尔效应

古希腊传说中塞浦路斯岛一位年轻的王子皮格马力翁，酷爱艺术，通过锲而不舍的努力终于雕塑了一尊女神像。面对自己的作品他爱不释手，整日深情注视。天长日久，女神竟然奇迹般复活，并成为了他的妻子。这个故事说明，期待是一种力量。

1968年，美国心理学家罗伯.罗森塔尔提出了该项理论。此理论有一个我们最常听到的例子：两个病人同住一家医院，其中一人患了癌症，而另一人并无大碍。但医生把两人的诊断书弄混了。结果那个真正的病患得知后整天心情轻松，开心地在医院住了一段日子便健康地出院了。而那个原本身体无恙的人却终日活在对死亡与病痛的恐惧中，最后真的罹患绝症，在抑郁绝望中死去。

林迪效应

对于某些非易腐事物（如技术、思想、书籍等），其未来的预期寿命与其当前已存在的时间成正比。一个事物存在的时间越长，它未来继续存在的可能性就越大。

阿伦森效应

“阿伦森效应”是指人们最喜欢那些对自己的喜欢、奖励、赞扬不断增加的人或物，最不喜欢那些显得不断减少的人或物。阿伦森是一位著名的心理学家，他认为，人们大都喜欢那些对自己表示赞赏的态度或行为不断增加的人或事，而反感上述态度或行为不断减少的人或事。

峰终定律

根据峰终定律，人们在回忆一段时间内的经历时，更多地依赖于该段经历的高峰（最显著的部分）和结束时的感受，而不是整段经历的平均体验。具体来说，峰终定律认为：高峰效应（Peak Effect）：人们更倾向于记住或强烈关注经历中的高潮或高峰时刻，这些时刻通常是情感上最强烈或者最显著的部分。

中兴-知识工程

2024-07-08T16:00:00.000Z

模型	分数

glm-4-9b-chat-1m_7.csv	53
glm-4-9b-chat-1m_15.csv	64
glm-4-9b-chat-1m_20.csv	63
Yi-9B-chat-15	70
Yi-9B-chat-7	63
Yi-9B-chat-20	53

glm-4-9b-chat-1m_have_kongge_7.csv
glm-4-9b-chat-1m_have_kongge_15.csv	59
glm-4-9b-chat-1m_have_kongge_20.csv	74
glm-4-9b-chat-1m_have_kongge_25.csv	81
glm-4-9b-chat-1m_have_kongge_30.csv	79
glm-4-9b-chat-1m_have_kongge_35.csv	84
glm-4-9b-chat-1m_have_kongge_40.csv	79
glm-4-9b-chat-1m_have_kongge_45.csv	84
glm-4-9b-chat-1m_have_kongge_50.csv	76
glm-4-9b-chat-1m_have_kongge_55.csv	82
glm-4-9b-chat-1m_have_kongge_60.csv	81
glm-4-9b-chat-1m_have_kongge_65.csv	81
glm-4-9b-chat-1m_have_kongge_70.csv	77

glm-4-9b-chat-1m_rerank_30_15	77
glm-4-9b-chat-1m_rerank_70_30	82
glm-4-9b-chat-1m_rerank_80_25	80
glm-4-9b-chat-1m_rerank_80_30	79
glm-4-9b-chat-1m_have_kongge_story_new_45	81
glm-4-9b-chat-1m_have_kongge_story_new_35	83

Yi-9B-chat-7_have_kongge_15	50
Yi-9B-chat-7_have_kongge_16	61
Yi-9B-chat-7_have_kongge_17	58
Yi-9B-chat-7_have_kongge_12	59
Yi-9B-chat-7_have_kongge_13	59
Yi-9B-chat-7_have_kongge_7	52
Yi-9B-chat-7_have_kongge_20	57
qwen2-72B-In-have_kongge_15	68

	57
Yi-9B-chat-7_rerank_30_15	52

数据清洗，去除文档里面的脏数据
切割文档的长度这个参数还可以调
多次答案投票
微软的GraphRAG技术
英文没有空格

prompt_QAC

2024-04-01T16:00:00.000Z

A Controllable Text Generation Framework based Prompt learning for Query Auto-completion

论文思路

研究领域是query自动补全（QAC），对应的显示场景是搜索栏的用户搜索场景，用的研究方法是生成式模型而非召回是模型（该领域常规的方法是先生成候选词，然后对候选词排序）

对于QAC领域，传统的召回式生成query仅仅通过候选词频率进行召回，缺乏对于query语意层面的理解，同时对于unseen 的输入，难以生成高质量的补全，以及召回式的生成难以充分实现个性化的生成

其他生成模型的历史信息的局限性：时间跨度短，数据量比较少，随着NLP领域中NLG模型的发展，transformer系列的自然语言生成式模型在各个领域展现出巨大的潜力，而且像GPT2这样在大量无监督数据上训练的模型，拥有强大的语意理解能力，有越来越多的研究工作研究生成式模型用于QAC,生成式的模型能够有效应对上述的几个问题。（蹭大模型的热度，垂直领域生成模型）

对于GPT模型，我们使用提示学习来对GPT的生成做进一步的控制，来达到用户的个性化需求，通过使用提示学习对GPT进行微调，可以使GPT模型生成的query更加贴近用户偏好习惯，而传统上的提示学习包括hard提示和soft提示都是从自然语言语意层面对GPT的输出进行提示，而用户个人的消费行为习惯可能无法简单的从语言层面展现，而在使用bert模型进行语意理解和语意抽取进而进行下游任务的分类时，bert可以很好地进行高维度的特征表征，所以在本文中我们采用bert模型抽取高维度的用户个人特征表征作为GPT模型的提示，进而使GPT的输出达到个性化的要求。（特别的，bert和GPT使用统一词表来保证两个模型的高维映射空间是一致的）

Abstract

Query auto-completion (QAC) aims at suggesting plausible completions for a given query prefix. The recent QAC methods introduce Natural Language Generation to generate the completions for user input.

However, NLG (Natural Lagnuage Generation) methods ususally output unsense or wrong words without controll. Moreover, A serious drawback of generative methods is that they can produce an ether effect. It severely affected the performance of the generative methods.

We proposed a framework that controls the generation of queries using prompt learning methods, thereby making the generative methods controllable. This framework consists of three parts: the control module, the prompt module, and the generation module. The control module generates a prompt vector endowed with implicit features, then the prompt module ingests the prompt vector and user input into the generation module, and ultimately, the generation module generates the query under control.

We trained and tested our model on the Meituan dataset and the AOL dataset. The outcomes reveal that the framework we proposed can elevate the accuracy of queries while mitigating the incoherence of queries.

The CTGPrompt4QAC Framework

在这一节，我们首先介绍QAC的问题定义，然后介绍我们提出的可控提示框架，最后介绍整个框架是如何训练的。

The QAC task define

Query Auto-completion是利用用户少量的输入，来为用户生成其可能想要的结果，进而节省用户在搜索过程的时间的一种技术。假设$I$表示用户输入，$G$表示补全的结果，$u$表示用户的信息，那么$G=f(I)$，表示完全利用用户的输入来为用户生成结果，而更加个性化的生成是$G_p=g(I,u)$，其中$G_p$表示个性化的生成。

在QAC场景中，我们将问题转换为自然语言处理的问题。因为用户的输入和生成都是自然语言，即$I={i_1,i_2 \cdots i_n}$，$G={g_1,g_2 \cdots g_n}$，其中$i$和$g$都表示具体的字符token，所以$G=f( I )$可以看作一个自回归问题，即$g_n=f( i_1,i_2, \cdots,g_{n-2},g_{n-1})$。

Query Auto-completion is a technology that uses users’ minimal input to generate possible desired results for them, thereby saving them time during the search process. Assuming $I$ represents user input, $G$ represents completed results, and $u$ represents user information, then $G=f(I)$ represents generating results completely utilizing user input, while a more personalized generation is $G_p=g(I,u)$.

In the QAC scenario, we convert the problem into a natural language processing problem. Since both user input and generated results are natural language, namely $I={i_1,i_2 \cdots i_n}$ and $G={g_1,g_2 \cdots g_n}$ where $i$ and $g$ represent specific character tokens, therefore $G=f(I)$ can be regarded as an autoregressive problem, namely $g_n=f(i_1,i_2, \cdots,g_{n-2},g_{n-1})$.

Overview of the framework

首先我们对框架的整体架构进行介绍和解释，框架包括三个部分：生成模块、提示模块和控制模块。生成模块是一个decoder架构，用于预测下一个token，生成模块通常是gpt这样的预训练模型。为了能够对生成模块进行生成效果的控制，我们使用提示学习的方法来进行控制，也就是在生成模块的输入前加入提示向量，提示向量能够对生成模块的模型起到提示作用，这就是提示模块的作用。提示模块中的提示向量是由控制模块产生的，控制模块通过从带有控制目的标签的历史数据中学习得到，生成具有控制效果的提示向量。

First, we introduce and explain the overall architecture of the framework, which includes three parts: the generation module, the prompt module, and the control module. The generation module is a decoder architecture that predicts the next token and generates text. It typically uses a pre-trained model like GPT. To enable control over the generation effect of the generation module, we use prompt learning methods for control. This means adding a prompt vector to the input of the generation module before generating the text. The prompt vector can provide hints to the model, which is the role of the prompt module. The prompt vector generated in the prompt module is produced by the control module through learning from historical data with controlled purpose labels. This generates a prompt vector with controlling effects.

1. Control Module

控制模块的输入是用户的个人特征信息和用户的历史数据，输出是用户是否进行点击行为的概率，用户是否对生成词进行点击代表了该用户的偏好，模型是用了Bert模型，因为Bert模型具有深层次的语义理解能力，能够对用户的历史行为数据进行深层次的语义理解和特征抽取。为了体现控制模块的控制作用，我们在考虑除了令控制模块生成体现用户偏好的高维特征向量之外，我们还考虑了生成式模型有非常严重的马太效应现象，因为生成式模型本质上是一个词概率预测模型，所以生成式模型会以更大概率生成在训练集中频繁出现的token，所以想要用控制模块在起到控制生成符合用户偏好结果之外同时能起到控制生成式模型的马太效应。所以在控制模块的Bert模型输出会输入到两个多层神经网络分类器进行多任务学习，一个分类器是用于区分用户是否进行点击，另一个分类器是用来区分用户是否会更倾向于点击低频词的生成结果。通过对用户个人信息和历史的行为数据进行建模，控制模块能够抽取到表征着用户偏好的特征向量。

The input to the control module is the personal feature information of the user and the user’s historical data, and the output is the probability of the user performing a click behavior. Whether the user clicks on the generated words represents the user’s preferences. The model uses the Bert model because the Bert model has deep semantic understanding capabilities and can perform deep semantic understanding and feature extraction on the user’s historical behavioral data. To reflect the controlling effect of the control module, in addition to letting the control module generate high-dimensional feature vectors reflecting user preferences, we also consider that the generative model has a severe Matthew effect phenomenon. Because the generative model is essentially a word probability prediction model, the generative model will predict tokens that appear frequently in the training set with a higher probability. Therefore, in addition to controlling the generation of user preference-conforming results, the control module can also control the Matthew effect of the generative model.Therefore, the output of the Bert model in the control module will be input to two multi-layer neural network classifiers for multi-task learning. One classifier is used to distinguish whether the user performs a click, and the other classifier is used to distinguish whether the user is more likely to click on the generated results of low-frequency words. By modeling the user’s personal information and historical behavior data, the control module can extract a feature vector representing the user’s preferences.

2. Prompt Module

提示模块主要由一个多层神经网络组成，将Bert抽取出来的高维特征映射到gpt模型的文本embedding空间中，并将控制模块生成的特征向量进行resize，并将特征向量作为提示与用户的输入embedding合并，之后一起输入到生成模块中。

3. Generation Module

生成模块的输入是提示模块的提示向量与用户的输入文本的向量，本文中生成模块的模型是GPT2，GPT2根据提示向量对用户输入文本进行结果补全，因为提示向量中蕴含的用户偏好特征情况下，GPT2模型能够生成更加符合用户偏好的结果，并且能够减少那些不热衷于高频商家的用户的马太效应。

Training Strategy

训练阶段分为两个个阶段：预训练、微调

预训练阶段分为两个部分：第一部分是对控制模块进行预训练，第二部分是对生成模块进行预训练

对控制模块预训练实际上是对预训练的Bert模型进行下游任务微调，将用户的用户特征和用户历史的输入和生成的item作为Bert模型的输入

微调阶段只要针对生成模块和提示模块，微调分为两个阶段：第一阶段只微调提示模块，生成模块的参数是冻结的；第二阶段是微调提示模块和生成模块。

Experiments

Experiment Settings

dataset

美团数据

AOL数据

Evaluation

BLEU-1、BLEU-2、BLEU-3、BLEU-4

基尼指数

Baselines

Implementation Details

Experimental Results

第一，在传统经典的生成式模型中，生成效果比较好的是Transformer模型，相比较与传统的RNN、CNN系列的生成模型，Transformer模型在自然语言建模上效果更好，所以在同样的数据集上进行训练，Transformer效果更好。甚至，Transformer模型的效果也要比不经过微调的GPT-2模型的效果要好，但是在UCTG框架下经过微调后的模型效果要好于其他所有模型

第二，与hard prompt 和 soft prompt 相比，在UTCG框架下微调的模型效果是更好的，从结果来看，hard prompt效果好于soft prompt，这是不符合常规逻辑的，但是综合QAC的具体场景和基于的底座模型来考虑，对于GPT-2这种参数量不大的底座模型，soft prompt的微调方法很难发挥出其特点，因为微调方法是依赖于底座模型的能力，如果底座模型的参数量越大，效果越好，那么经过soft prompt微调之后效果也会更好，相反，对于底座模型参数量小的情况，soft prompt可能会起到相反的作用。hard prompt的效果略好与未经微调的模型，这是因为hard prompt中有用户历史的点击item，能够对GPT-2起到一定的提示作用

第三，从基尼指数效果来看，经过UTCG(多任务)的提示微调的基尼指数要远远小于正常训练得到的模型，而且Transformer模型的基尼指数最高，这也说明Transformer模型非常依赖于token之间的关联度，其他的生成模型都不同程度的增强了生成的马太效应，而经过UTCG框架微调之后的模型基尼指数明显降低也证明了UTCG框架中控制模块抽取的embedding的有效性，并且可以看出，在经过多任务UTCG框架微调的GPT-2模型虽然在基尼指数上效果明显，但是在文本准确度上有所下降，这可能是因为控制模块生成的提示向量在信息容量不变的前提下无法做到将两种提示高维特征整合或者控制模块在多任务学习时更多地学习到了对马太效应的控制特征。

总的来说，经过UTCG框架微调过后的GPT-2模型能够在控制模块的定向提示下进行相应的文本控制，并且效果有明显地提升

原始的AOL查询日志包含用户输入的一系列查询以及时间戳详细信息。我们首先通过将所有查询转换为小写，删除重复和单个字符的查询，并删除具有占主导地位（>50%）的非字母数字字符的查询来预处理数据集。为了训练和评估QAC模型，大多数先前的工作从公共查询日志数据集中构建前缀-查询对作为正样本，通过拆分用户输入的完整查询，然后随机从候选池中选择一些查询构建负样本。这些数据集不包含任何真实的前缀到查询点击行为，但在实际的工业开发中，工程师通常使用前缀-查询对训练学习排序模型，其中包括用户输入的前缀和用户点击的完成查询作为正样本，其他对作为负样本。

原始的AOL quert log数据集只包含了用户的输入、用户是否有点击行为以及时间戳的信息，这些数据并无法直接表征出用户的输入、系统的query候选词、用户对系统query候选词的行为三者的关系，所以我们需要对AOL数据集进行一定的数据处理。我们首先将所有的用户真实输入全部转换为小写，删除重复和单个字符查询，并删除以非字母数字字符为主要输入的用户输入。之后对于每个用户的真实输入，随机取前几位作为用户的模拟输入，使用完整的用户输入作为模拟query，并随机从数据集中选择一些用户完整输入作为负样本，这样就构造出了包含用户输入、query候选词以及用户行为反馈的数据集。

Tables 3展示了模型在Meituan Query Log和AOL Query Log两个数据集上的指标效果

各个模型在AOL数据集上的效果趋势与在Meituan数据集上的大致相似，在传统生成模型中，Transformer在两个数据集上的效果都是最好的，与没有微调之前的GPT-2模型和freeze方式进行微调的GPT-2模型的效果差距很小，这说明了在两组实验上模型效果的一致性。在UTCG框架下微调之后的GPT-2模型，在Meituan数据集和AOL数据集市上都表现出了最好的效果，这说明了UTCG框架在不同数据集上的泛化性，证明了UTCG框架的有效性不是只出现在某个数据集上的，是具有普世性的。同时可以观察到，在Meituan数据集上UTCG框架微调的效果提升要明显高于在AOL数据集上的提升，这是因为Meituan数据集是垂直领域的数据集，文本数据都属于商品领域的数据，而AOL数据集的数据分布则要更为广泛，这导致UTCG在进行prompt生成的时候无法很好地生成符合控制条件的prompt。

Figure 1展示了UTCG框架不同微调和改变生成模块模型大小在不同测试数据量下的文本生成效果，通过控制其他模块不变，只改变生成模块GPT-2模型的大小，可以看出base大小下的UTCG整个的文本生成效果要明显好于distil大小下的UTCG，同时在不经过UTCG框架微调之前，base GPT-2的生成效果本身就要比distil GPT-2的效果要好，这说明在整个UTCG框架中，不同效果的模型作为生成模块会对整个UTCG框架的效果产生不同的影响，并且可以推断，越是效果好的模型作为生成模块，UTCG提示微调框架对模型效果的提升就越明显。另外，作用于不同大小的GPT-2，使用UTCG微调框架都取得了明显的提升，这也说明了UTCG微调效果的通用性和普适性。

Figure 2展示了UTCG微调框架和常规的两种prompt微调方法的对比效果。从实验结果可以看出，经过hard prompt微调后的模型效果较原模型有少量提升，但是经过soft prompt微调之后的模型效果却有所下降，UTCG微调框架的效果则有明显提升，原因有以下几种: 1) hard prompt和soft prompt的微调效果都依赖于所微调的模型效果本身，对于参数量很大的大模型，hard prompt和soft prompt能够在其基础上产生好的效果，但在本实验中GPT-2本身在电商特定领域数据集效果就不如在通用数据集上效果好，所以hard prompt和soft prompt在其基础之上就很难有较好的效果的提升 2)UTCG控制模块生成的提示向量是在用户历史行为数据作为反馈信号下生成的高维特征向量，该提示向量具有更准确的特征提示，所以尽管GPT-2模型对电商数据集不太熟悉，但依然能够对GPT-2模型起到文本控制生成的作用。

Figure 3展示了对UTCG控制模块的loss函数进行修改之后的效果对比。从基尼指数上来看，控制模块多loss生成的提示向量对GPT-2模型进行微调之后，在基尼指数上有明显的下降，这说明控制模块多loss下生成的提示向量能够对GPT-2模型产生相对应的控制效果，该消融实验也证明了UTCG框架的更深层次的价值，通过更换UTCG中控制模块的loss函数，控制模块便可以生成具有相对应的控制作用的提示向量，并对GPT-2模型产生控制作用。

Figure 3是使用了T-SNE对1000条数据和embedding 向量进行聚类和可视化，通过可视化的结果可以看出，对于1000条数据根据距离远近形成若干个小的簇，而每个簇代表了用户在输入前几个词时的用户偏好，以Figure5的左下角来举例，图中左下角形成了一个明显的簇，通过每个点对应的用户和用户输入信息来看，该簇包含了用户2907007597.0输入词是炸鸡提示词是、用户1533072098.0输入词是黄焖鸡提示词是、用户613293787.0输入词是炸鸡提示词是、用户40962466.0输入词是猪肚鸡提示词是等文本，从文本内容上来看，聚集到一起的embedding向量对应的用户输入都是跟鸡肉相关的食物，而且这几个用户的历史点击也是主要跟食物相关，这也再次验证了UCTG框架中控制模块对用户的爱好建模与人的普遍认知是一致，也再次说明了控制模块生成的embedding具有实际的意义，并且能够对GPT-2进行提示进而控制文本的生成。

Figure 4是使用了UMAP(Uniform Manifold Approximation and Projection)，一种高维数据将为算法，对1000条文本数据和embedding进行可视化展示，UMAP相对于T-SNE能反映全局结构。从降维可视化的图中可以看出，尽管更换了可视化的算法，”用户2907007597.0输入词是炸鸡提示词是“、”用户2561854230.0输入词是烤鸡提示词是“，”用户2270230980输入词是鸡汤提示词是“等还是聚集到了一起，从这些文本中可以看出，输入词主要也是跟食物相关，并且这几个用户的历史点击也表明其偏好特点在食物方面

从上述两个聚类\降维算法得到的可视化结果可以看出，UCTG框架中控制模块的到的高维向量确实表征了用户的行为偏好和特点，这也验证了在具体试验中UCTG微调之后的模型效果明显的提升确实是由于提示向量的提示作用。

我们提出的UCTG框架由两个阶段组成：（i）用下游任务数据集预训练GPT-2模型和BERT模型和（ii）提示调优。这两个阶段的优化使得UCTG框架在前一个阶段GPT-2学习下游领域的相关信息，BERT模型学习到用户的偏好和query出现的频次特点，然后在后一个阶段中利用BERT模型抽取出来的高维向量去微调GPT-2的文本生成，从而使得GPT-2模型能够生成对应控制效果的。

具体而言，在预训练阶段，GPT-2模型的参数和BERT模型的参数是发生改变的，这是因为GPT-2模型需要在下游数据上进行参数更新以学习到下游数据中的新的信息，BERT模型需要通过对用户行为反馈数据和Query出现的频次特点进行参数更新以便能抽取出具有高维特征的向量。并且，为了后续调优阶段中BERT模型抽取的向量更好地匹配GPT-2的语义空间，需要控制GPT-2模型的vocab与BERT模型的vocab一致。之后，在提示调优阶段，有两种参数更新方式，i)GPT-2模型的参数冻结，提示模块中的参数更新，进一步调整提示向量以适应下游领域任务。ii)GPT-2模型的参数和提示模块中的参数一同更新以更加完美地适应下游领域任务。

用户3170313953.0输入词是炸鸡提示词是、用户980125838.0输入词是参鸡提示词是、、用户277412824.0输入词是黄焖鸡提示词是、用户2561854230.0输入词是烤鸡提示词是、用户1885650741.0输入词是烧鸡公提示词是、用户3652156408.0输入词是白切鸡提示词是、用户1189562967.0输入词是火锅鸡提示词是、用户3155472689.0输入词是鸡精提示词是、用户412329645.0输入词是凉拌鸡提示词是、用户951668225.0输入词是蛙蛙鸡提示词是、用户3678392590.0输入词是瑶鸡提示词是、用户3803971217.0输入词是鸡提示词是、用户312910262.0输入词是黄焖鸡提示词是、用户700332224.0输入词是猪肚鸡提示词是

曝光度计算指标

生成式模型有个很大的问题就是,生成内容容易受训练数据中的文本频率影响,所以需要控制某个商家的曝光率,以及整个推荐的覆盖率和多样性

所以说,在生成式场景下,马太效应会更加明显

1. 七猫小说推荐系统的做法

添加了6个特征进行模型的训练

用户该书30内书籍曝光次数
userbook_show_count_14	用户该书14内书籍曝光次数
userbook_show_count_7	用户该书7内书籍曝光次数
userbook_click_count_30	用户该书30内书籍点击次数
userbook_click_count_14	用户该书14内书籍点击次数
userbook_click_count_7	用户该书7内书籍点击次数

2. 覆盖率与基尼系数

覆盖率用来衡量推荐的物品占总物品的比例
$$
Coverage = \frac{推荐的物品数}{总物品数}
$$
基尼系数描述的是物品流行度的分布趋势
$$
G=1-\frac{1}{n}\left(2 \sum_{i=1}^{n-1} w_i+1\right)
$$

3. 商品出现次数

统计某个商品在一段时间内的出现次数占所有出现次数的比值作为该商品的曝光度

或者是基于历史数据算出某个商品下次出现的概率作为商品的曝光度, 可以使用贝叶斯概率计算

评审意见

写作问题

Authors made several expiations for their experiment results, but from the results, it contradicts what authors explained.
In addition, authors observed the contradict result when comparing soft prompt and hard prompt, the explanation was not quite convincible.
Selected architecture is not well motivated compared to similar more flexible approaches like RAG
missed an important span of work that would have beeen totally relevant for the presented use-case
Learning to Write with Cooperative Discriminators
This paper is not well-written and not presented effectively in appropriate format. Some typos are found and also the presentation of figures (like Figure 3) can be improved.
There are some typos in the paper, i.e. in section 3.2 first paragraph, Figure index was missing.

实验问题

Since this is a framework, authors should present more variety datasets to prove this framework work on different domains and datasets, only one specific domain which cannot persuade audience to believe this framework will work for other domains or tasks.
experiments section heavily focuses on different variations of the same method
designed architecture is not flexible and would require retraining given changes in base models
outdated generative model (GPT2) in the experiments make the reader wonder what would be the results with more capable and versatile generative models
failed to showcase the flexibility of the approach: flexibility is cited as an advantage of the approach, but not highlighted in the experiments
More recent baselines can be chosen. The paper lacks comparisons and discussions with widely-known baselines in the field, which hinders the assessment of the novelty and performance of UCTG.
This paper is not well-written and not presented effectively in appropriate format. Some typos are found and also the presentation of figures (like Figure 3) can be improved.
作者对他们的实验结果进行了多次解释，但从结果来看，这与作者所解释的内容相矛盾。
此外，作者在比较软提示和硬提示时观察到了矛盾的结果，他们的解释并不十分令人信服。
所选择的架构与类似更灵活的方法（如RAG）相比，缺乏充分的论证。
遗漏了一段重要的工作，这些工作对于所展示的用例来说完全相关。
这篇论文写作不佳，且没有以适当的格式有效地呈现。文中发现了一些错别字，同时图表的展示（如图3）也有待改进。
论文中存在一些错别字，例如在第3.2节的第一段中，图的索引缺失。
由于这是一个框架，作者应该展示更多种类的数据集，以证明该框架能够在不同领域和数据集上工作，仅有一个特定领域无法说服读者相信该框架适用于其他领域或任务。
实验部分过分关注同一方法的不同变体。
设计的架构不够灵活，一旦基础模型发生变化，就需要重新训练。
在实验中使用的生成模型（GPT2）已经过时，这让读者好奇，如果使用更强大、更通用的生成模型，结果将会如何。
未能展示方法的灵活性：灵活性被引用为该方法的优势，但在实验中并未突出显示。
可以选择更近期的基线进行比较。论文缺乏与该领域广为人知的基线进行比较和讨论，这阻碍了对UCTG的新颖性和性能的评估。
这篇论文写作不佳，且没有以适当的格式有效地呈现。文中发现了一些错别字，同时图表的展示（如图3）也有待改进。

概率论

2024-03-24T16:00:00.000Z

程序员的数学2-概率统计

前言

概率是面积与体积的泛化
随机变量是一种以变量为名的函数

good paper

2024-03-23T16:00:00.000Z

Open Information Extraction: A Review of Baseline Techniques, Approaches, and Applications

开放域抽取综述

TeacherLM: Teaching to Fish Rather Than Giving the Fish, Language Modeling Likewise

Use “{Question} {Answer} {Fundamentals} {Chain of Thought} {Common Mistakes}” five-element training object for each sample. These sample to train a small model called TeacherLM to re-construct others training data to train or fine-tuning larger LLM

Improving Prompt Tuning with Learned Prompting Layers

选择性prefix-tuning learning 由原来全部加个prefix 到现在的选择性添加 prefix

Woodpecker: Hallucination Correction for Multimodal Large Language Models

Woodpecker的架构如下，它包括五个主要步骤: 关键概念提取、问题构造、视觉知识检验、视觉断言生成以及幻觉修正。

ChatKBQA: A Generate-then-Retrieve Framework for Knowledge Base Question Answering with Fine-tuned Large Language Models

微调大模型+知识图谱 code link

效率

2024-03-14T16:00:00.000Z

五步工作法：

质疑每项要求。提出任何一项要求时，都应该附上提出这一要求的人。永远不要接受一项来自某个部门的要求，比如来自“法务部门”或者“安全部门”的要求。你必须知道提出这项要求的人的名字。接下来你应该质疑它，不管这个人有多聪明。聪明人提出的要求才是最危险的，因为人们不太可能质疑他们。这件事要一直做下去，即便这项要求来自马斯克本人。质疑后，大家就要改进要求，让它变得不那么愚蠢。
删除要求当中所有你能删除的部分和流程，虽然你可能还得把它们加回来。事实上，你如果最后加回来的部分还不到删除部分的10%，那就说明你删减得还不够。
简化和优化。这应该放在第2步之后，因为人们常犯的错误就是简化和优化一个原本不应该存在的部分或者流程。
加快周转时间。每个流程都可以加快，但只有遵循了前三个步骤之后才能这么做。在特斯拉工厂，我错误地把很多精力花在加快生产流程上，后来我才意识到有些流程原本就应该被拿掉。
自动化。在内华达工厂和弗里蒙特工厂犯下的一个大错就是我一开始试图将每个步骤进行自动化改造。我们本应该先质疑所有要求，删除不必要的部分和流程，把问题筛出来、处理掉，然后再推进自动化。

这套工作法有时还衍生出一些推论，包括：

所有技术经理都必须有实战经验，比如说软件团队的管理人员必须至少花20%的时间进行编程，太阳能屋顶业务的经理必须花时间在屋顶上亲自做安装工作。否则光说不练，他们就像是不会骑马的骑兵队队长、不会舞刀弄枪的将军。
“你好，我好，大家好”是很危险的，人们会因此不再质疑同事的工作成果。人们天然有一种倾向是不想把要好的同事踢下船，而这种危险倾向一定要避免。
犯错没关系，但错了还不肯低头就不行。
永远不要要求你的团队做你自己都不愿意做的事。
每当有问题需要解决时，不要只与你直接管理的相关负责人聊。深入调研就要跨层级沟通，去跟你属下的属下直接交流吧。
招聘要招态度端正的人。技能是可以教的，但要扭转一个人的工作态度可就太费劲了，得给他“换个脑子”。
疯狂的紧迫感是我们公司运作的法则。
唯一要遵守的规则就是物理学定律能推导出来的规则，其他一切都只是建议。

如何高效率学习

学习方法

费曼学习法

费曼学习法的本质就是在于使用输出倒逼输入，通过讲自己以为明白了的东西以教别人的方式输出来达到验证自己，实际上是一个通过输出来发现缺陷和问题的过程，同时要求在教别人的时候用最通俗易懂的方式，这个要求本质上是要求把知识解构和重构的过程，也就是变成自己的东西，这个过程实际上就是利用了第一性原理，就是讲知识蒸馏，只剩下最根本的逻辑和公理，之后运用这套最基本的原理类的东西重构成一个新的案例。

感觉费曼学习法这一套流程中蕴含了其他几种学习原理，首先教会别人其实本质上就是知行合一的一种形式，教这个动作就是行，在教别人的时候遇到讲不通的地方，其实这个原理就是在行中发现问题，也只有行才能真正发现好问题，通过行发现的问题再回过头去学去搞明白，如此循环就是知行合一的体现。同时为什么选择教这个动作作为行而不是其他呢，这其实蕴含了其他原理在里面，就是第一性原理，其实也就是解构和重构的过程，因为教的对象是一个从来都没有接触过这方面的人，所以只能讲述最基本的原理，从而就可去掉一些附着的东西而直击本质，也就是第一性原理，而第一性原理也就是要抓住主要矛盾主要原理，去除掉不影响本质的东西，也就是解构，也叫解耦合，解构完成之后通过通俗易懂的表达教给别人，事先重构，也就是说，教这个动作能够让人在不经意间就完成解构和重构的过程。

知—> 行—> 第一性原理—> 发现问题—> 知

第一性原理

本质是解构，换一种表达就是人们常说的透过现象看本质，将无关紧要的附着物抛开，只关注最本质最重要的部分，这个原理可以指导“行”。从最基本的原理或者逻辑出发，理解并改进。

知行合一

知者行之始，行者知之成。知和行本来就是同一个事物。仅仅学习而不去实践，便不是学习。

凡明不得、行不去，须反在自心上体当，即可通。

你不应先学习，再开始。
而应先开始，再学习。 / 萨希尔·拉文吉亚

学会提出问题

相比较回答问题，更重要的是提出问题，提出高质量的问题，如何提出高质量的问题，这就取决于对问题本质的认识

体验式学习

要学什么，就要把自己放入学习目标产生实际效用的情境中，并且最好能够立刻看到目标对应的效果，拿到反馈

制定有效目标

目标越现实越好，越小越好，最好小到毫不费力

克服完美注意，切忌大而全

20分钟热身+1个小时左右的专注期

拖延的本质是完美主义

冥想、保持专注力

慢就是快，提高效率就是日积月累

休息很重要

模仿人物

马斯克

拥有清晰的目标、专注、第一性原理、三人行必有我师焉、跨学科学习、大量阅读

费曼

兴趣、费曼学习法

蔡志忠

终身阅读、主题性阅读，先设定一个主题，然后去阅读

看书应该像构筑房子般

山姆奥特曼

跨领域学习
不要局限于自己的领域学习。从不相关的领域中获得灵感，并将其应用于自己的领域。最具创新的解决方案常常是不同学科的交叉融合。
建立学习仪式
每天花时间专注于学习。建立一个有规律的习惯，可以是：
• 每天早上阅读一个小时
• 上班途中收听播客
• 晚上上在线课程
深度工作需要持之以恒。
发挥科技的作用
我们生活在一个信息超载的时代。利用人工智能工具整合信息。跟随新的学习科技发展。如果不利用科技，你将被抛在后面。
建立强大的个人网络
人际关系是学习的乘数效应。建立一个强大的合作伙伴网络。
寻找可以指导和挑战你的导师。反过来，慷慨地帮助他人。
一个强大的网络可以使你接触新的观点和学习机会。
培养专注力
25岁以上的成年人的神经系统储存新信息的空间较小。强迫你的大脑接受新的模式：
• 不要多任务
• 集中精力工作
• 远离电视和手机等干扰
充满好奇心
追求那些你深深着迷的话题，而不仅仅是流行的话题。任何领域中最成功的人都是最好奇的人。读书是为了满足你的求知欲望，而不是为了炫耀或完成的缘故。
应用你所学的知识
知识如果不应用只会导致停滞不前。学到新知识后，要问问自己：
• 我如何应用这个概念？
• 我可以用这个做什么项目？
• 我如何教别人这个？
应用是巩固理解的关键
接受重复
在注意力不集中的时代，重复对于保持新知识至关重要。建立系统，反复接触知识，直到它深入你的记忆。即使是天才也会反复学习同样的材料。
教给他人
巩固你的理解最好的方法之一是将概念教给他人。当你可以解释一个想法时，这是真正的掌握。通过：
• 写作
• 指导
• 公开演讲
传授知识对学生和教师都有益处。
学习销售
Altman称销售是“最重要的技能”。学会说服和沟通是至关重要的。掌握传达自己想法的艺术。学会激励和激发他人。销售对于创业者、员工和学者都是必不可少的。
敢于显得愚蠢
对于很多人来说，害怕显得愚蠢是他们学习的绊脚石。拥抱初学者的心态。提出天真的问题。承认自己不懂的事情。为了学习的好处，放下自己的自尊是微不足道的代价。
热爱过程
学习不仅仅是达到目的，而是目的本身。热爱探索和成长的过程。培养对知识的真正热情。学习的乐趣才是最终的回报。

如何高效率做一件事情

看清本质

学会提出问题

看清本质是提出好问题的前提

问题导向

带着问题在资料中找答案

迭代思想

做任何一件事情，最好的办法就是先有个初始解，然后进行迭代。

不管多烂，先搞出来个初始解
找个可以提升的方向
结合自身能力，设置步长
不断重复2-3步，不断进行迭代

如何做笔记

三个原则可以帮助你有效地记笔记

笔记必须符合你的思维方式
做笔记要按照自己的思考方式，不能原封不动地按照老师（或者书本）的讲解方式。这样不仅你写起来更轻松，而且将来回顾笔记的时候，你也更容易理解自己当时的想法。
笔记必须代表你的知识
笔记不要仅仅复制/粘贴他人的话语，而要用自己的语言表达。你不妨标记清楚，哪些地方是已经理解的，哪些地方还没有理解或者有疑问。
笔记必须可以轻松检索
为了最大限度利用自己的笔记（其实也是节约自己的时间），它必须可以方便地检索。你要为每个部分写一个标题，并且定期整理出一份目录。

笛卡尔的思考秘籍：

第一、从清楚明白、无需怀疑的公理开始；

第二、复杂事情切分成部分，切分到可以处理为止；

第三、按顺序思考、从最简单的着手；

第四、考虑问题要全面、列举完全。

对齐、幻觉、可控文本生成

2024-03-09T16:00:00.000Z

LLM的对齐、幻觉和可控文本生成

弄清楚关于大模型的对齐、幻觉和可控文本生成三者的含义，并区分三者的区别和重合之处，并对三者的技术解决方案进行阐述以及目前已有的技术解决方案存在的改进空间。

LLM 的对齐（Alignment）

定义：对齐是指使模型符合人类的偏好和价值观

解决方案：

强化学习：RLHF

优点：泛化效果好

缺点：不稳定的训练效率和数据利用率

有监督微调：指令微调、RRHF

优点：训练效率高，收敛快

缺点：泛化性差

上下文学习：prompt engineer、RAG

优点：很小的对齐tax

缺点：效果依靠模型的能力，难以应用到不同场景

LLM的幻觉（Hallucination）

定义：幻觉是一种现象，指生成无意义和不忠于原内容的文本

分类

事实性幻觉
1. 事实不一致
2. 事实捏造
忠实性幻觉
1. 指令不一致
2. 上下文不一致
3. 逻辑不一致

原因

领域知识缺陷
过时的信息
记忆化
遗忘
推理失败

缓解事实性幻觉的方法叫做知识注入（不是教授全新的知识，而是通过诱导偏见来刷新记忆）

知识注入分为两种：

上下文学习（主要是RAG）
微调
1. 指令微调
2. 强化学习
3. 无监督微调（连续预训练）
模型编辑

RAG的挑战

上下文长度
鲁棒性
如何与微调协同
LLM的角色
时延和泄漏

LLM的可控文本生成（Controllable Text Generation）

定义：可控文本生成是指能够指导模型按照特定的要求或条件生成文本。这包括控制文本的风格、情感、主题、长度等属性。

对齐、幻觉和可控文本生成的对比和关系

对齐关注的是模型输出的道德和社会可接受性，幻觉关注的是模型输出的准确性和真实性，而可控文本生成关注的是模型输出的定制化和用户需求的满足。

这三者在实践中是相互关联的。为了实现可控文本生成，模型需要在对齐的基础上避免幻觉，确保生成的内容既符合用户的期望，又准确无误。同时，对齐和幻觉的解决也有助于提高可控文本生成的质量，因为用户期望的输出首先应该是真实和合理的。

例子：

人类命令LLM跑步去将地上的苹果捡起来

对齐：LLM确实是去捡东西了，可能捡错对象或者没捡起来，但是确实是去捡东西了，而不是去把苹果踩碎，与人类的命令一致

幻觉：LLM将梨捡起来了

可控文本生成：LLM确实是将苹果捡起来了，但是不是跑过去的，是爬过去的或者跳过去的

一些想法

推理即微调
通过改变训练数据的顺序来进行对齐
幻觉与创新：探索模型在生成新颖和创造性内容时产生幻觉的界限，以及如何在保持创造性的同时减少幻觉。
个性化对齐（人性化大模型）
模型编辑

一些网站、软件和项目的收集

2024-03-09T16:00:00.000Z

软件

clone-voice

一个带web界面的声音克隆工具，使用你的音色或任意声音来录制音频

Modern database IDE for your dev & data workflows. Supports MySQL, PostgreSQL & MongoDB.

Slashbase是一个开源的现代数据库IDE，适用于您的开发/数据工作流。使用Slashbase连接到任何数据库，浏览数据和模式，编写，运行和保存查询，创建图表。支持MySQL、PostgreSQL和MongoDB。

AI写代码插件

开源的连续文件同步

数据库连接工具，主打免费可连接多种数据库

去除图像和视频的背景，它是命令行工具，方便批量处理和脚本编程。

Umi-OCR

OCR图片转文字识别软件，完全离线。截屏/批量导入图片，支持多国语言、合并段落、竖排文字。可排除水印区域，提取干净的文本。基于 PaddleOCR

LocalSend

将文件共享到附近的设备。免费、开源、跨平台。

womic

WO Mic可以把你的手机变成电脑的麦克风。你不需要花一分钱去买一个小玩意。如果你选择无线传输，它是移动的。数以百万计的人安装了它，每天都在使用它进行通话，录音，语音遥控和许多其他活动。

Alexandria

使用Tauri、Epub.js和Typescript构建的极简跨平台电子书阅读器使用Tauri、Epub.js和Typescript构建的极简跨平台电子书阅读器

sshfs

连接到SSH服务器的网络文件系统客户端，将ssh服务器挂载到本地

sshx

通过Web快速、协作的实时终端共享

Smart-AutoClicker

An open-source auto clicker on images for Android

网站

可视化工具

画出一些好看的数据分析图

线上游戏合集

AI Code Converter

将自然语言通过AI工具转化为Python代码

LLM 可视化

123apps

网站提供了一系列的小工具，包含分类：

视频工具
音频工具
PDF 工具
转换器

AImind

AI思维导图网页绘制网站

json

一个本地json浏览网站

Ideogram

一个可以文字生成图形的网站，使用谷歌账号登录，目前免费，次数无限制

挺不错的，有动画，有代码，有讲解

试过一次，效果一般

公式/文档识别网站

Reactive-Resume

一个独一无二的简历建设者，让您的隐私铭记在心。完全安全，可定制，便携，开源和永久免费。今天就试试吧

项目

glance

代码一览使用嵌入和PageRank突出显示代码的重要部分。

self-operating-computer

使用与人类操作员相同的输入和输出，模型查看屏幕并决定一系列鼠标和键盘操作以达到目标。

Agently

Agently是一个开发框架，可以帮助开发人员快速构建AI代理原生应用程序。您可以创建一个AI代理实例，然后与它交互，就像下面这样用很少的代码调用函数一样。

qlib

Qlib是一个面向AI的量化投资平台，旨在将AI技术应用于量化投资中，从探索想法到实施生产，实现潜力，赋能研究，创造价值。Qlib支持多种机器学习建模范式。包括监督学习、市场动态建模和RL。

DrissionPage

基于python的网页自动化工具。既能控制浏览器，也能收发数据包。可兼顾浏览器自动化的便利性和requests的高效率。功能强大，内置无数人性化设计和便捷功能。语法简洁而优雅，代码量少。

darling

Darwin/macOS emulation layer for Linux

seamless_communication

语音和文本翻译的SOTA基础模型

InstructUIE

一个用于信息抽取的大语言模型，只需要进行少量数据的增量训练就可以在新的数据集上效果很好

白盒Transformers

一个白盒Transformers的实现，有对应论文

ChatPiXiu

里面有一些对大模型的调研，很详细很有用

垂直领域大模型的集合

多智能体强化学习环境仓库运送环境模拟

1,1B的LLama, 适合，练手和熟悉大模型

一个开箱即用的高性能异步抖音|TikTok数据爬取工具，支持API调用，在线批量解析及下载。

12306智能刷票，订票

Keyviz

Keyviz是一个免费的开源工具，可以实时可视化您的击键️和️鼠标动作

argos-translate

用Python编写的开源离线翻译库

Awesome Domain LLM

收集和梳理垂直领域的开源模型、数据集及评测基准。

MNBVC

目前中文最大的开源数据集

TinyLlama

TinyLlama项目是一个开放的奋进，在3万亿个token上预训练1.1B Llama模型

xtuner

XTuner 是一个轻量级微调大语言模型的工具库

SuperAdapters

在所有平台上使用所有适配器微调所有LLM

pytorch-docker

拉取pytorch+cuda的docker

pdfplumber

垂直PDF的详细信息，每一个字符，矩形，线，等等-并轻松提取文本和表格。

docusel

开源DocuSign替代方案。创建、填写和签署数字文档️

paperless-ngx

社区支持的无纸化增强版：扫描、索引和存档所有物理文档

linuxMirrors

GNU/Linux 一键更换系统软件源脚本

python-holidays

处理假期的 Python 库。该项目支持动态生成国家/地区和省份公布的法定节假日，可以快速地判断指定日期是否为节假日。

selenium-python-helium

Selenium-python但更轻：Helium是用于Web自动化的最佳Python库。

llm-foundry

大模型训练、微调、验证的框架，支持NVIDIA和AMD

pyvideotrans

将视频从一种语言翻译为另一种语言，并添加配音

linux-router

将 Linux 作为路由器的脚本。这是一个 Linux 软路由器的 shell 脚本，它可以通过一条命令将 Linux 设备作为路由器，提供互联网共享、DNS 服务器、WiFi 热点等功能。

Love_Code

表白代码收藏馆

llamafile

通过一个文件运行大模型

knowledge graph

将任何文本转换为知识图。这可以用于图增强生成或基于知识图的QnA(使用的是ollama中的模型和构造提示模板来进行抽取,,但是应用的场景是长文档)

papermage

PaperMage：用于处理、表示和操作视觉丰富的科学文档的统一工具包

想法

2024-03-04T16:00:00.000Z

在训练大模型的时候，可以从一些老师的课程视频中将字幕识别下来，作为LLM的训练数据
历史告诉我们会怎么样，科学告诉我们怎么改变
一个预训练模型在两批数据上训练，训练的顺序先后颠倒得到的模型还是一样的吗（大模型的遗忘问题）
预训练模型的预训练数据的前后训练顺序对模型有影响吗
人类的所有创新都是排列组合
幻觉就是创新？
大模型如何在跟人类对话的同时进行训练，推理即微调, 实时更新
指令冲突时，大模型听哪个指令？

寒武纪平台使用

2024-02-27T16:00:00.000Z

寒武纪平台使用(先进研究院-李治澎)

使用自带的镜像创建新环境

目前有的镜像包括pytorch和tensorflow

业务管理->开发环境->创建

创建完之后等待平台拉取镜像后，会出现一个正在运行的环境

点击查看能够看到新创建的环境的ssh连接，如下

也可以直接点击环境名称进入在线的jupyter界面

环境使用（以pytorch_python3.6镜像为例）

在进入到容器实例(也就是上面创建的新环境)后，镜像中自带了一个已经配置好的寒武纪环境，在终端中分别输入下面两行命令启动寒武纪python环境（若使用pytorch_python3.7镜像则不需要这一步）

1 2	source /torch/venv3/pytorch/bin/activate export LD_LIBRARY_PATH=/torch/neuware_home/lib64:/usr/local/openmpi/lib

之后终端就会出现(pytorch)为开头的python环境，如下

可以使用cnmon命令来查看显卡使用情况(类似于NVIDIA的nvidia-smi)

以下是一个具体的使用torch的实际代码例子

因为容器内无法联网，所以下面例子中的数据集需要在本地提前下载好

1 2	train_set = mnist.MNIST('./data',train=True,transform=data_tf,download=True) test_set = mnist.MNIST('./data',train=False,transform=data_tf,download=True)

然后将下面完整代码和数据集上传到容器中

在终端中输入下面的命令运行代码

1	python mnist.py

终端会输出训练的记录

import torch       #导入原生PyTorch
import torch_mlu   #导入Cambricon PyTorch Backend
import os
import numpy as np
from torch.utils.data import DataLoader
from torchvision.datasets import mnist
from torch import nn
from torch import optim
from torchvision import transforms
from torch.optim.lr_scheduler import StepLR

import torch.nn.functional as F

class Net(nn.Module):     #定义模型
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, 3, 1)
        self.conv2 = nn.Conv2d(32, 64, 3, 1)
        self.dropout1 = nn.Dropout2d(0.25)
        self.dropout2 = nn.Dropout2d(0.5)
        self.fc1 = nn.Linear(9216, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):   #定义前向计算
        x = self.conv1(x)
        x = F.relu(x)
        x = self.conv2(x)
        x = F.relu(x)
        x = F.max_pool2d(x, 2)
        x = self.dropout1(x)
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.dropout2(x)
        x = self.fc2(x)
        output = F.log_softmax(x, dim=1)
        return output

#模型训练
def train(model, train_data, optimizer, epoch):
    model = model.train()
    for batch_idx, (img, label) in enumerate(train_data):
        img = img.to(torch.device('mlu'))
        label = label.to(torch.device('mlu'))
        optimizer.zero_grad()
        out = model(img)
        loss = F.nll_loss(out, label)
        loss.backward()
        optimizer.step()
        if batch_idx % 100 == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(img), len(train_data.dataset),
                100. * batch_idx / len(train_data), loss.item()))

#模型推理
def validate(val_loader, model):
    test_loss = 0
    correct = 0
    model.eval()
    with torch.no_grad():
        for images, target in val_loader:
            images = images.to(torch.device('mlu'))
            target = target.to(torch.device('mlu'))
            output = model(images)
            test_loss += F.nll_loss(output, target, reduction='sum').item()
            pred = output.argmax(dim=1, keepdim=True)
            pred = pred.cpu()
            target = target.cpu()
            correct += pred.eq(target.view_as(pred)).sum().item()
    test_loss /= len(val_loader.dataset)
    #打印精度结果
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(val_loader.dataset),
        100. * correct / len(val_loader.dataset)))

#主函数
def main():
    data_tf = transforms.Compose(
                [transforms.ToTensor(),
                 transforms.Normalize([0.1307],[0.3081])])

    #获取本地数据集
    train_set = mnist.MNIST('./data',train=True,transform=data_tf,download=True)
    test_set = mnist.MNIST('./data',train=False,transform=data_tf,download=True)

    train_data = DataLoader(train_set,batch_size=64,shuffle=True)
    test_data = DataLoader(test_set,batch_size=1000,shuffle=False)

    net_orig = Net()
    net = net_orig.to(torch.device('mlu'))   #模型拷贝到MLU设备
    optimizer = optim.Adadelta(net.parameters(), 1)

    nums_epoch = 10   #训练10个epoch
    save_model = True #训练完成后保存模型

    scheduler = StepLR(optimizer, step_size=1, gamma=0.7)
    for epoch in range(nums_epoch):
        train(net, train_data, optimizer, epoch)
        validate(test_data, net)

        scheduler.step()
        if save_model:  # 将训练好的模型保存为model.pth
            if epoch == nums_epoch-1:
                checkpoint = {"state_dict":net.state_dict(), "optimizer":optimizer.state_dict(), "epoch": epoch}
                torch.save(checkpoint, 'model.pth')

if __name__ == '__main__':
    main()

至此，AI Station 平台中自带的寒武纪环境已经可以使用，只需要在该python环境下使用python ***.py 即可运行相应的代码

运行已有的pytorch代码

运行/torch/src/catch/tools/torch_gpu2mlu.py脚本将自己原有的代码转化为可以在寒武纪显卡上可以运行的代码

1	python /torch/src/catch/tools/torch_gpu2mlu.py --i /path/your/code/dir

运行完上述代码之后，会在当前目录生成一个新的以_mlu为后缀的文件夹，之后只需要运行新文件夹中的代码即可

运行大模型

以Chatglm-6b为例

首先下载Chatglm-6b的运行代码https://github.com/THUDM/ChatGLM-6B.git

1	git clone https://github.com/THUDM/ChatGLM-6B.git

之后下载Chatglm-6b的模型权重，下载地址是https://huggingface.co/THUDM/chatglm-6b

可以使用命令直接下载，也可以手动下载

1	git lfs clone https://huggingface.co/THUDM/chatglm-6b

[!NOTE]
这里需要加一步操作，就是将权重文件中的modeling_chatglm.py 中的所有的skip_init 函数修改，因为MLU不支持1.10的skip_init，具体如何修改可以参考如下
1
2
3
4
5
6
7
8
#        self.query_key_value = skip_init(
#            torch.nn.Linear,
#            hidden_size,
#            3 * self.inner_hidden_size,
#            bias=bias,
#            dtype=params_dtype,
#        )
        self.query_key_value = torch.nn.Linear(hidden_size, 3 * self.inner_hidden_size, bias=bias)

然后将代码和模型权重全部上传到服务器上，可以使用sftp文件传输软件，如filezilla

通过脚本文件将Chatglm的代码转化为可以在寒武纪显卡上可以运行的

1	python /torch/src/catch/tools/torch_gpu2mlu.py --i /path/to/ChatGLM-6B

修改ChatGLM-6B_mlu文件夹代码中的模型权重路径

之后就可以在寒武纪显卡上运行Chatglm 6b 大模型

1	python cli_demo.py

显卡情况如下：

镜像制作

可以先从寒武纪官网下载已经配置好的镜像，然后在本地加载镜像进行二次修改，补充自己需要的软件或库文件，之后再上传到AI station平台进行使用，具体流程如下：

首先，从寒武纪官网下载制作好的镜像

1	wget https://sdk.cambricon.com/static/PyTorch/MLU370_1.9_v1.17.0_X86_ubuntu20.04_python3.7_docker/pytorch-v1.17.0-torch1.9-ubuntu20.04-py37.tar.gz

会在本地得到一个pytorch-v1.17.0-torch1.9-ubuntu20.04-py37.tar.gz的文件

之后在本地加载该镜像

1	docker load -i pytorch-v1.17.0-torch1.9-ubuntu20.04-py37.tar.gz

之后查询当前已有的镜像，可以看到刚刚下载的镜像已经被载入，复制其 IMAGE_ID

1	docker image list

运行docker镜像,规定好平台为linux,为x86-64架构CPU指令集

1	docker run -it --platform linux/amd64 497a0473974f /bin/bash

进入该镜像之后，便可以进行软件的安装，或者python环境的安装

安装完成之后，将运行中的容器(Container) 打包为一个新的镜像

首先查询当前docker内正在执行的进程，记住当前的CONTAINER_ID

docker ps

将当前运行的容器提交成为一个镜像

1	docker commit c5cde0f5e319 pytorch_mlu_python3.7

将本地镜像保存为一个可循环复用的备份

1	docker save pytorch_mlu_python3.7 \| gzip > mlu_pytorch_python3.7.tar.gz

[!NOTE]
该步骤会根据镜像的大小等待不同的时间，一般在十几分钟以上，请耐心等待

完成后会在本地生成一个tar.gz后缀的文件

将本地tar包上传到AIStation，镜像管理>导入

FAQ

离线安装python库

第一步在有网络的主机上下载库文件包

1	pip download -d ./path transformers==4.30.2

该命令将会把对应库及其依赖库的文件都下载到当其目录的path文件夹当中

然后将path文件夹上传到离线环境的主机下

第二步在离线环境下安装path文件夹中的库

1	pip install --no-index --find-links=./path transformers

在离线环境下使用上述命令即可安装所需要的库

补充1 提示缺少某个库依赖

这种情况是因为有网的主机python环境下已经存在某个所需要的包,所以并没有将这个包下载到path文件中,而离线环境下没有这个包所导致的,这种情况只需要对于这个没有的包使用一下上面的流程就可以了

补充2 提示库的版本不对

这种情况是因为有网主机的python环境(操作系统, python版本)与离线主机的python环境不一致导致的, 需要找一个与离线主机python版本一致的主机即可.

离线安装conda库

你需要有什么？

迁出机器：可联网，已有虚拟环境准备迁移的机器，可以是本地电脑也可以是服务器
迁入机器：不可联网，无虚拟环境，可以是另一台电脑也可以是服务器

迁出机器部分——打包环境

迁出机器安装打包工具

1	conda install -c conda-forge conda-pack

安装好之后打包需要迁出的环境（-n 之后为虚拟环境名字 -o 之后为打包出来的文件名）

1	conda pack -n envsname -o conda_envsname.tar.gz

gz是一个压缩文件，包含了你环境本身以及所有的包

将打包的环境通过 ftp 传输到迁入机器中

迁出机器部分结束

迁入机器部分——解压、部署环境

在你的 anaconda 目录下创建文件夹名称（envs）即为你迁过来的环境名称

1	mkdir -p /root/anaconda3/envs/envsname

解压环境（-C 之前为打包压缩文件路径 -C 之后为迁入机器 anaconda3 文件夹下 envs 目录 + 环境名）

1	tar -xzf /root/tempfile/conda_envsname.tar.gz -C /root/anaconda3/envs/envsname

执行后完成 cd 进 envs 目录中已经可以看到环境拷贝完成

1	/root/anaconda3/envs/envsname

检查环境是否完全复制

1
2
3

conda activate envsname
pip list
conda list

大语言模型的预训练、微调等技术

2023-12-13T16:00:00.000Z

主要学习如何对大模型进行预训练工作，如果我们要使用一个已经经过一部分预训练的模型的话，实际上我们就可以得到这个预训练模型的预训练代码

1. 什么是大模型

参数量很大（十几亿，几百亿）的深度神经网络模型

1.1 基座模型选择

开源领域 ChatGLM，LLAMA，RWKV 主要就是这 3 种模型，中文好一点就是 ChatGLM，潜力最好的就是 LLAMA，RNN 架构决定 RWKV 有很好的推理效率（随输入长度内存占比线性自增，而 LLAMA 则是指数增加）和 Length Extrapolation （关于长度外推性，可以参考苏神的文章 [4]）

1.2 模型参数大小选择

当然对于模型参数的选择，往往是参数越大效果越好。如果资源充足，当然是推荐 30B 以上的模型。不管是 6B, 7B 和 13B 同样的训练数据，同样训练参数，模型参数量大效果则优于低参数的模型。那么根据模型参数，如何预估我们的训练所需的内存开销，这里有一个简单的方法比如 6B 模型，60 亿规模参数，根据以下公式计算：

模型参数 + 梯度参数 + 优化器参数 = 6B * 1bytes + 6GB + 2*6GB = 24GB

1.3 数据处理

对于 LLM 训练，数据质量很重要。预训练时，我们可以将数据先进行预处理，比如对数据进行一定规则的筛选，数据去重，去除一些低质量的数据。同时，我们可能面临各种类型的数据，PDF，Word，HTML，代码文件等等，对于这种不同类型的数据我们需要都处理成文本，同时还过滤掉一些干扰项或乱码的数据。

当然，我们也可以利用一些工具去处理，比如 justext [7]，trafilatura [8]，来提取文档主要内容，减少数据的噪音。对于空的文档或文档长度低于 100 进行过滤，进一步减少噪音。

对于一些机器生成的文本或 OCR 识别错误的文本，质量不高，由没有什么逻辑性，虽然比较难以检测，但是还是会有一些工具能做这样的事情，比如 ctrl-detector [9]。当然对于一些有毒的或带有偏见的数据，可以采用 PerspectiveAPI [10] 或垃圾邮件检测的办法来过滤。

我们还不得不考虑数据的一些隐私风险，也需要考虑，比如身份证号，银行卡等信息，比如 presidio 和 pii-codex 等工具提供了检测、分析和处理文本数据中的个人身份信息的能力。

指令微调数据，我们可以使用 PromptSource [11] 来创建微调数据。当然我们还可以让 GPT4 给我们标注一些数据，这样蒸馏知识，可以让数据质量进一步提升。这里我分享一个我使用的 Prompt 工程：

first_prompt = """
作为一位专业的xxxx，您的任务是从给定的上下文回答问题。
给定的上下文：
"""
last_prompt = """
请综合上述信息，你给出的回复需要包含以下三个字段：
1.questions: 基于上下文内容，提出与这个内容相关的问题，至少两个以上。
2.answers: 然后根据问题，分别给出每个问题的答案，请用 markdown 格式。
3.instruction: 给出上下文内容的总结，尽量精简，用 markdown 格式。
请按照以下JSON格式来回答：
前括号
      "questions": [
          "<内容相关问题1>",
          "<内容相关问题2>"
      ],
      "answers": [
           "<内容相关问题1的答案>",
           "<内容相关问题2的答案>"
      ],
      instruction: "<总结性的内容>"
后括号
注意：如果碰到上下文内容信息不够，无法回答问题的情况，answers和questions可以返回空。
最后强调一下：你的回复将直接用于javascript的JSON.parse解析，所以注意一定要以标准的JSON格式做回答，不要包含任何其他非JSON内容，否则你将被扣分！！！
"""

1.4 大模型内在原理

大模型不存在涌现能力

目前人们所看到的涌现能力实质上是人们构建的指标是非线性指标所造成的,指标的非线性指的是指标只能代表0或1,所以模型在指标上表现出了从0到1的涌现性,而如果将指标换为线性指标,这篇论文发现模型的能力随着算力和模型参数规模在线性增加,也就是说,模型只是在做减小loss的行为,而没有发生涌现行为,是一种涌现错觉

emergent abilities may be creations of the researcher’s choices, not a fundamental property of the model family on the specific task（“涌现”能力的出现是人为刻意标准下的筛选，而不是模型自己的真实能力）

从这个看法来讲,我们应该重新正视大模型的发展,不是期望大模型能够利用其”涌现”造就神话故事,而是一步一步的推动模型的增长h

2. 预训练是什么意思

预训练这个词并不是一个很新的词，之前就有，我理解的预训练就是大模型在某一个任务上进行模型训练，训练完成的模型参数就是预训练模型，预训练模型就意味着把人类的语言知识，先学了一个东西，然后再代入到某个具体任务，就顺手了，就是这么一个简单的道理。

预训练思想的本质：

模型参数不再是随机初始化，而是通过一些任务（如语言模型）进行预训练
将训练任务拆解成共性学习和特性学习两个步骤

3. 预训练有哪些技术

那么预训练应该具体怎么做？

大致流程：自监督的大规模预训练 + 微调，本文重点关注自监督预训练如何实现

预训练本质上是迁移学习的一种应用，利用几乎无限的文本，学习输入句子的每一个成员的上下文相关的表示，它隐式地学习到了通用的语法语义知识，预训练通过自监督学习从大规模数据中获得与具体任务无关的预训练模型。体现某一个词在一个特定上下文中的语义表征。

3.1 网络

transformer模型，是预训练的核心网络，因为有个非常好的优点，就是可以跑得很快，并且做的很深。

3.2 预训练任务

预训练任务的分类架构通常可以分为两类，一类是基于自监督学习的预训练任务，另一类是基于监督学习的预训练任务。具体而言，可以将预训练任务分成以下几类：

基于自监督学习的预训练任务：这种预训练任务要求模型通过自监督方式来学习数据中的模式和结构，而不需要人工标注的标签。这种方法通常包括自回归预测和掩码语言模型等任务，模型通过对输入文本的预测来学习文本的语言结构和语义信息。
1. 自回归预测
  - 给出前几个单词，预测后一个单词的概率
  - 从左向右做预测，再从右往左做预测
2. 掩码语言模型
  - 将句子中的一个词语掩盖掉，预测该词
  - 动态mask（RoBERTa）
  - SpanBERT：Random Contiguous Words Masking and Span Boundary Objective (SBO) 随机掩盖一段连续的词、模型在预测掩盖词的同时，还需要预测出掩盖词所在的连续片段的开始位置和结束位置。
  - StructBERT ：Span Order Recovery task 模型在输入的文本中找到两个连续的实体，并预测它们在原始文本中的顺序
  - TLM：XLM 双语对齐将源语言句子和目标语言句子拼接，模型需要预测这个拼接后的句子中缺失的一些词汇或者短语。
  - Seq2Seq MLM
    对于句子”The quick brown fox jumps over the lazy dog.”，Seq2Seq MLM任务可能会将其掩码为”The quick [MASK] fox jumps [MASK] the lazy dog.”，然后让模型预测掩码位置上的词汇。在预测第一个掩码位置时，模型可能会将其预测为”brown”，然后将”brown”作为下一个掩码位置的输入，继续预测下一个掩码位置上的词汇。
3. PLM：Permuted Language Modeling模型输入一个随机排列的词序列，并预测这些词在原始序列中的正确顺序。
4. 对比学习Contrastive Learning，没有被替换的句子得分比被替换的句子得分高
5. DAE：Denoising Autoencoder：输入一句有噪音的句子，输入没有噪音的句子
  1. 随机mask
  2. 随机删除token
  3. 随机去除n个token
  4. 句子随机排序
  5. 文档旋转
基于监督学习的预训练任务：这种预训练任务要求模型通过有标注的数据来学习任务特定的语言处理技能。这些任务通常包括情感分析、命名实体识别、文本分类等任务，模型通过对标注数据的学习来提高在特定任务上的表现。==NLP领域，没有足够多的带标签的数据==
基于弱监督学习的预训练任务：这种预训练任务要求模型通过仅有部分标注数据或者弱标注数据来学习任务特定的语言处理技能。这些任务通常包括半监督学习、多任务学习等方法，模型通过对标注数据和非标注数据的学习来提高在特定任务上的表现。

1. GPT3

输入是单词序列，输出是对最有可能放在这个序列结尾的单词的预测。

输入采用固定长度为2048个token的序列。不足2048个token的短序列，用空值填充。GPT-3同时对输入序列的下一个token进行预测，但是通常只取输入序列中最后一个位置的预测token，并将其加入输入序列的末尾，进行下一个位置的预测。

2. OPT

预训练任务与GPT3相同

3. BLOOM

预训练任务与GPT3相同

4. GLM-130B

设计了两个预训练目标，包含自监督空白填充和多任务instruction预训练（Multi-Task Instruction Pre-Training，MIP）。

自监督空白填充（95% tokens）

为了同时支持理解和生成，设计了两种掩码方式。[MASK]：句子中的短空格，其长度被添加至输入的某一个部分； [gMASK]：句尾随机长度的长空格，并提供前缀上下文；具体来说，[MASK]训练目标占比30%。[gMASK]训练目标占比70%。

MIP（5% tokens）

收集了一个由自然语言理解、生成和信息抽取等组成的instruction prompted数据集，并在上面对模型进行预训练而不是微调，以防止破坏模型的生成能力。这个任务的目的是改善模型zero-shot任务的迁移能力。

5. PaLM

编码器首先被训练成双向自动编码器，从损坏的上下文重建原始文本，随机token被采样，并根据BERT的实践用[MASK]符号替换。该训练优化了编码器输出与原始上下文之间的交叉重构损失，如BERT中的掩码语言建模(MLM)。通过预测上下文中被屏蔽的实际令牌，PALM迫使编码器理解未掩码token和整个上下文的含义。
然后将编码器和解码器联合训练，以从编码器的上下文表示形式自回归地生成文本输出。训练最大限度地提高了文本的loglikelihood in ground truth从解码器的输出:

6. Chinese LLaMA

自回归，给定序列，预测下一个token

以上是从头开始训练一个模型，如果要在一个已经预训练过的模型上再次进行训练，那就会面临灾难性遗忘的问题，以下是如何应对灾难性遗忘的方法，也被称为增量学习，与在线学习也有点关系：

intelligent synapse（冻结权重）
replay
meta learning

3.2 预训练任务另一种划分

• Next Sentence Prediction (NSP) (Devlin et al., 2019): A binary classification loss predicting whether two
segments appear consecutively within a larger document, or are random unrelated sentences.
• Sentence Order Prediction (SOP) (Lan et al., 2020): A binary classification loss for predicting whether two
sentences are in a natural or swapped order.
• Capital Word Prediction (CWP) (Liu et al., 2020b): A binary classification objective calculated over each
word, predicting whether whether each word is capitalized or not.
• Sentence Deshuffling (SDS) (Liu et al., 2020b): A multi-class classification task to reorganize permuted
segments.
• Sentence distance prediction (SDP) (Liu et al., 2020b) : A three-class classification task, predicting the
positional relationship between two sentences (adjacent in the same document, not adjacent but in the same document, in different documents).
• Masked Column Prediction (MCP) (Yin et al., 2020): Given a table, recover the names and data types of
masked columns.
• Linguistic-Visual Alignment (LVA) (Lu et al., 2019): A binary classification to Predict whether the text content can be aligned to visual content.
• Image Region prediction (IRP) (Su et al., 2020): Given an image whose partial features are masked (zeroed out), predict the masked regions.
• Replaced Token Detection (RTD) (Xiao et al., 2021): A binary classification loss predicting whether each token in corrupted input was replaced by a generative sample or not.
• Discourse Relation Prediction (DRP) (Sun et al., 2020): Predict the semantic or rhetorical relation between two sentences.
• Translation Language Modeling (TLM) (Lample and Conneau, 2019): Consider parallel sentences and mask words randomly in both source and target sentences.
• Information Retrieval Relevance (IRR) (Sun et al., 2020): Predict the information retrieval relevance of two sentences.
• Token-Passage Prediction (TPP) (Liu et al., 2020b): Identify the keywords of a passage appearing in the
segment.
• Universal Knowledge-Text Prediction (UKTP) (Sun et al., 2021): Incorporate knowledge into one pre-trained language model.
• Machine Translation (MT) (Chi et al., 2021a) : Translate a sentence from the source language into the target language.
• Translation Pair Span Corruption (TPSC) (Chi et al., 2021a) : Predict the masked spans from a translatio pair.
• Translation Span Corruption (TSC) (Chi et al., 2021a) : Unlike TPSC, TSC only masks and predicts the spans in one language

• Multilingual Replaced Token Detection (MRTD) (Chi et al., 2021b): Distinguish real input tokens from corrupted multilingual sentences by a Generative Adversarial Network, where both the generator and the
discriminator are shared across languages.
• Translation Replaced Token Detection (TRTD) (Chi et al., 2021b): Distinguish the real tokens and masked tokens in the translation pair by the Generative Adversarial Network.
• Knowledge Embedding (KE) (Wang et al., 2021): Encode entities and relations in knowledge graphs (KGs) as distributed representations
• Image-to-text transfer (ITT) (Wang et al., 2021): Is similar to the image caption that generates a corresponding description for the input image.
• Multimodality-to-text transfer (MTT) (Wang et al., 2021): Generate the target text based on both the visual information and the noised linguistic information.

3.3 预训练数据

训练数据中使用代码数据可以很好地提升LLM的推理逻辑能力

3.4 如何避免灾难性遗忘

通常我们有以下方式，可以减少或避免灾难性遗忘问题

将重要的权重冻结 - 像 Lora 就是采用的这种方案，只学习部分网络权重。但这里 Lora 的配置其实是要注意一下，如果你是用 Lora 做预训练，lora 训练模块可以配上 q_proj,v_proj,k_proj,o_proj 如果是微调则只需要训练 q_proj,v_proj lora_rank 的设置也有讲究，初始设 lora_ran 为 8，训练存在遗忘时，可以将 lora_rank 改为 64（原因是与原模型数据领域相差较大的话，需要更大的秩，原论文有说明）。
复习 - 跟人一样，在预训练或微调时，回看之前训练的数据。还可以专门把特征图存起来，量化以后放在一个类似于记忆库的地方，之后在新任务上训练的时候从这个记忆库里重构出记忆和新数据一起训练。感兴趣可以看这篇论文 [16]。
MoE - 稀疏门控制的专家混合层，最近爆出 GPT4 是由 8 个 220B 的模型组合。关于 Moe 相关资料 [17] 大家自行了解。

3.4 大模型预训练与知识图谱结合

3.4.1 KGs 增强 LLM

1. KG增强的LLM预训练

将KGs整合到训练目标中
利用KGs中蕴含的实体信息作为监督信号，让LLM来通过某种方式预测得到KGs中的实体信息
将KGs整合到LLM输入中
将KGs中的知识形成文本作为大模型的输入
通过额外的融合模块整合KGs

2. KG增强LLM推理

动态知识融合
将知识图谱编码，与输入编码融合，使用问答数据微调
==检索增强的知识融合==
对于问题，先在KG上查找相关信息作为变量z, 然后将z作为附加上下文信息和问题一起输入到LLM中

3. KG增强的LLM可解释性

用于LLMs探测的KGs
使用LLM来回答KG中的知识问题
用于LLMs分析的KGs
采用语言模型来生成知识图

3.4.2 LLM增强 KGs

3.4.3 LLM 与 KGs 协同

知识表示
推理
在问答任务中，QA-GNN[117]首先利用LLM来处理文本问题，并指导推理步骤。通过这种方式，它可以弥合文本和结构信息之间的差距，从而为推理过程提供可解释性。在知识图谱推理任务中，LARK[45]提出了一种LLM引导的逻辑推理方法。它首先将传统的逻辑规则转换为语言序列，然后要求LLM对最终输出进行推理。此外，siyuan等人[46]将结构推理和语言模式预训练统一在一个统一的框架中。给定文本输入，他们采用LLM来生成逻辑查询，该查询在KGs上执行以获得结构上下文。最后，将结构上下文与文本信息融合以生成最终输出。RecInDial[243]结合知识图谱和LLM，在对话系统中提供个性化推荐。KnowledgeDA[244]提出了一个统一的领域语言模型开发pipeline，以增强具有领域知识图谱的任务特定训练过程。

4 监督式微调

1. ChatGLM: p-tuning v2

soft prompt tuning

1
2

- prompt_learning:带女朋友去了一家餐厅，她吃的很开心，这家餐厅太__了！
- Instruction_tuning:判断这句话的情感：带女朋友去了一家餐厅，她吃的很开心。选项：A=好，B=一般，C=差

2. hybrid-tuning

deal with the catastrophic forgetting

3. MOSS: fine-tuning in instruction data

4. Chinese-LLaMA-Alpaca: pre-trained 1 + pre-trained 2 + instruction_tuning

5. QLoRA

QLoRA通过冻结的、4比特量化的预训练语言模型来做 LoRA，进行反向传播梯度。

https://arxiv.org/pdf/2305.14314.pdf

https://zhuanlan.zhihu.com/p/632229856

如果你受限于GPU内存，QLoRA可能是值得考虑的选择。它可以节省33%的内存，但运行时间将增加39%

6. LORA

LORA实战小技巧:

调整LoRA的秩（rank）并选择合适的alpha值至关重要。将alpha值设定为rank值的两倍是一个明智的选择
如果你正在使用LoRA，应将其应用于所有层（而不是仅仅应用于Key和Value矩阵），以最大化模型性能
我们可以在14GB RAM的单个GPU上，在几小时内有效微调70亿参数的模型。使用静态数据集优化一个LLM，让其完美胜任所有基准任务难以实现。要解决这个问题，需要使用多样化的数据源，或许LoRA并不是理想的工具
对指令微调进行多轮训练作用不大，可能会导致结果恶化。我在1000个示例的LIMA数据集上也观察到了同样的情况。这种性能下降可能是由过拟合导致的，这需要进一步的研究
LoRA让我们能够在单个GPU上微调7B参数的LLM。在这种特殊情况下，使用最佳设置（r=256、alpha=512）的QLoRA，在A100上，使用AdamW进行50000个训练示例（Alpaca数据集）的训练，占用了17.86 GB的内存，大约需要3小时。

7. Adapter Tuning

8. Prefix Tuning

9. AdaLoRA

5.对齐

1. RLHF

6. 模型使用

1. 上下文提示

2. 思维链提示

鼓励大语言模型解释其推理过程。思维链的主要思想是通过向大语言模型展示一些少量的 exapmles，在样例中解释推理过程，大语言模型在回答提示时也会显示推理过程。这种推理的解释往往会引导出更准确的结果。

CoT prompting：输出由原来的answer 变为 reason + answer

Zero-shot-CoT：是一个 pipeline。使用“Let’s think step by step”让LLM 生成一些思考过程 a，然后将生成的 a（理由）和 question 拼在一起，再加一个answer 指向的 prompt 如“The answer is ”来激励模型生成答案。

自洽性（Self-consistency）：生成多个思路链，然后取多数答案作为最终答案

Least to Most prompting, LtM：首先将问题分解为子问题，然后逐个解决。

Multi-Persona Self-Collaboration：这个有点类似之前提到的 AutoGen，让多个代理相互对话来解决问题，只不过 AutoGen 是从工程层面真正做到了多 Agents 交互，而这里提到的，是让 ChatGPT 扮演多重人格/角色，例如：

“你可以扮演任何角色，针对我给出的问题，请提供三个最相关的角色，对问题进行两轮讨论，然后你综合讨论结果总结最佳方案。请打印三个角色的讨论过程以及最后的方案。

思维树：

举例：假设三位不同的专家来回答这个问题。所有专家都写下他们思考这个问题的第一个步骤，然后与大家分享。然后，所有专家都写下他们思考的下一个骤并分享。以此类推，直到所有专家写完他们思考的所有步骤。只要大家发现有专家的步骤出错了，就让这位专家离开。请问…

3. 推理加速

对于推理，一般我们采用量化方案，这里有两个办法。第一个则是采用 ggml 工具，比如 llama.cpp [18] 针对 llama 模型，将模型量化运行在 cpu 或 gpu 上，也可以 cpu 和 gpu 一起跑，内存则大大减少，推理速度有极大的提高。

这里如果将 llama.cpp 运行在 gpu 上，编译时一定要加 LLAMA_CUBLAS=1，同时推理的时候，指定 –gpu-layers|-ngl 来分配运行在 gpu 上的层数，当然越大，占用 gpu 的内存会越多。

如果是 RWKV 模型，则考虑采用 rwkv.cpp [19]，此方法与 llama.cpp 类似，使用方式也是类似的。

还有 Llama 模型还可以考虑使用 exllama [20] 纯 GPU 的加速，虽然还不够完善，但也可以值得一试。

另一个，采用 LLM Accelerator [21]，LLM 存在大量的相似性推理，基于此，可以做一些优化加速推理，具体请看论文。最后采用架构上的调整，faster transformer [22] 要优于传统的 transformer 架构。

7. 实践环节

总结一下，目前的大模型范式基本上都是预训练+微调

预训练分为两种情况：

从头开始预训练
那就是要构造训练任务，主要用自回归任务和自编码任务两种主流训练方法
对已经预训练过的模型进行再次预训练
这种情况可以当作增量学习的问题来看

LLaMA chinese 微调跑通

尝试langchain
构造微调数据（目前质量堪忧）使用通用指令数据混合wiki数据
微调llama（1. 微调预训练过的模型 2.微调原模型）
问题：微调和与预训练之后都丧失了模型的对话能力？？？本质上是过拟合

基础优化手段

- Zero-shot：arxiv.org
- Few-shot：arxiv.org
- CoT：arxiv.org
- ToT：arxiv.org
- GoT：arxiv.org
- SC：arxiv.org
- Multi Persona：arxiv.org
- Least to Most：arxiv.org
- Step Back：arxiv.org
- ART：arxiv.org
- ReAct：arxiv.org
- Reflection：arxiv.org
- RAG：arxiv.org

8.检测是否是AI生成的方法

一个zero-shot检测文本是否由AI生成的方法：

选定一段新的文本，用LLM计算这段文本的对数概率
对文本进行少量的词汇替换（例如mask几个词然后rewrite）
对重新生成的文本再次计算文本的对数概率
重复几次，将这些对数概率画成曲线

如果这篇文本是由AI写的，那么所得曲线更像红色曲线，原始文本会处于平缓区域的最大值

如果这篇文本是真人写的，那么所得曲线更像绿色曲线，重写文本的对数概率可能高于/低于原文本

9. 大模型测评

GPT-Fathom

GPT-Fathom是一个开源和可复制的LLM评估套件，在对齐设置下对10多个领先的开源和闭源LLM以及OpenAI的早期模型进行基准测试。

10. 总结原则

最后总结几条原则：

参数多量化低的模型要优于参数低量化高的模型
模型质量与训练数据质量是存在相关性的
扩充中文词表有助于提高推理效率
微调推荐采用 Lora QLora 方案
模型加速必然需要对模型进行量化

无序的个人博客

everyday plan

每日计划

每天

时间分配模板（10-10-5 节奏下）

每周

固定动作清单

推荐论文来源

笔记工具建议

每月

每月必做的三件事

每季度

季度复盘模板（固定用这七个问题）

季度的”被检验”动作

每年

年度固定动作

年末问自己一个最重要的问题

机器没问题——我担心的是我们

LeCunn的世界模型

LeCun 在做一件很不一样的事

LLM 的成功恰恰暴露了它的上限

预测下一个词，是一个错误的学习目标

JEPA：在抽象空间里预测，而不是在原始空间里重建

世界模型的真正用途：在脑子里规划，而不是描述规划

这个方向目前还没有解决的问题

为什么这个方向在概念上值得认真对待

语言世界观

语言世界观

三分类理论

三段创造

0→1

1→99

99→100

三个阶段的区别

关于分工

串行还是并行

这是个认知工具，不是物理定律

有什么用

fotran2cpp

Automatic Fortran to C++ conversion

1. 安装fable环境

Pre-requisites:

Create and configure a conda environment:

Create and configure FABLE:

Test FABLE in a new login shell (bash, cd ${WORK}):

2. 使用fable

断网GPU服务器Claude_Code配置指南

断网 GPU 服务器使用 Claude Code 指南

原理

方案选择

方案一：转发 Clash 端口（推荐）

第一步：确认 Clash 代理端口

第二步：建立 SSH 反向隧道（终端1）

第三步：SSH 登录服务器并设置代理（终端2）

第四步：验证网络连通性

第五步：安装并运行 Claude Code

方案二：pproxy 自建代理

第一步：本地安装并启动 pproxy（终端1）

第二步：建立 SSH 反向隧道（终端2）

第三步：SSH 登录服务器并设置代理（终端3）

第四步：验证网络连通性

第五步：安装并运行 Claude Code

安装其他软件包

常见问题

失恋和爱情

大模型算法实习八股

大模型架构

原始 Transformer

分词方式

字节对编码 BPE

注意力机制

注意力评分函数

多头注意力机制 MHA

多查询注意力机制 MQA

分组查询注意力机制 GQA

Multi-Head Latent Attention

Normalization

归一化 | 标准化 的概念区分

RoPE 位置编码

激活函数

归一化 | 标准化的概念区分