【LLM】相关技术总结

知识总结 LLM 架构

发布时间 : 2024-07-11 20:52

阅读 :

RoPE旋转位置编码

位置编码与衰减性

没有位置序列信息的情况下，改变词语顺序的句子注意力输出是一样的，但实际语义是一样的，导致没有位置信息输入下，将无法准确的做语言建模。需要为模型引入位置编码，让每个词向量都能够感知到它在输入序列中所处的位置信息。

理想的位置编码，应当是随相对位置距离增大而减少，并且是单调衰减关系。

我们希望的衰减性曲线为：

可以在无限长度下保持单调衰减
衰减曲线是非线性的，近距离衰减变化迅速，远距离衰减平缓
在衰减过程中，尽可能少震荡
在1024长度下，一种简单的方式为增大位置编码的特征维度，dim=4096时呈现较好的衰减性，dim=512时过早出现震荡

绝对位置编码

训练式位置编码

训练式位置编码，顾名思义就是每个位置的位置向量会随着模型一起训练。训练式位置编码广泛应用于早期的transformer类型的模型，如BERT、GPT、ALBERT等。

但其缺点是模型==不具有长度外推性==，因为位置编码矩阵的大小是预设的，若对其进行扩展，将会破坏模型在预训练阶段学习到的位置信息。例如将512*768扩展为1024*768，新拓展的512个位置向量缺乏训练，无法正确表示512~1023的位置信息。

Sinusoidal位置编码

Sinusoidal位置编码的每个分量都是正弦或余弦函数，所有每个分量的数值都具有周期性。每个分量都具有周期性，并且==越靠后的分量，波长越长，频率越低==。

Sinusoidal位置编码具有远程衰减的性质，具体表现为：对于两个相同的词向量，如果它们之间的==距离越近，则他们的内积分数越高，反之则越低==。

因为Sinusoidal位置编码中的正弦余弦函数具备周期性，并且具备远程衰减的特性，所以理论上也具备一定长度外推的能力。

RoPE位置编码

==RoPE位置编码通过将一个向量旋转某个角度，为其赋予位置信息。==

RoPE的出发点

RoPE而言，作者的出发点为：==通过绝对位置编码的方式实现相对位置编码==。

二维位置编码

作者给出了如下位置编码函数：$m$为位置下表，$\theta$为一个常数，左侧的$R_m$是一个旋转矩阵， $f(q,m)$表示在保持向量$q$的模长的同时，将其逆时针旋转$m\theta$ 。这意味着只需要==将向量旋转某个角度，即可实现对该向量添加绝对位置信息==。并且==向量旋转具有周期性==。

求两个向量之间的点积会发现，它们的点积是一个关于$q$、$k$ 、$m-n$ 的函数$g(q,k,m-n)$，所以函数$f(q,m)$实现了以绝对位置编码的方式实现相对位置编码。

推广到多维

我们把高维向量，两两一组，分别旋转。最终高维向量的旋转可表示成如下公式，可以认为左侧便是高维向量的旋转矩阵：

远程衰减性

鉴Sinusoidal位置编码，可以将每个分组的$\theta$设为不同的常量，从而引入远程衰减的性质。这里作者直接沿用了Sinusoidal位置编码的设置， $\theta=10000^{-\frac{2i}{d}}$。

将高维向量的旋转矩阵更新为如下：

上式中的旋转矩阵十分稀疏，为了节省算力，可以以下面的方式等效实现：

发现随着q和k的相对距离的增加，它们之间的内积分数呈现出远程衰减的性质，这正是我们希望的。

继续深入探讨一下$\theta_i=base^{-\frac{2i}{d}}$中base的取值的影响。可以总结得到一些规律，base的不同取值会影响注意力远程衰减的程度。随着base的提升，远程衰减的程度会逐渐削弱，改变模型的注意力分布，导致模型的输出质量下降。但太小的base也会破坏注意力远程衰减的性质。

周期性

每组分量的旋转都具有周期性，因为旋转一圈的弧度是$2\pi$，所以RoPE中的向量旋转就像时钟一样，具有周期性。

我们可以更直观地看到，越靠后的分组，它的旋转速度越慢，正弦函数的周期越大、频率越低。

RoPE长度外推方法

RoPE却有着较弱的长度外推性，也就是在推理时，当模型的输入长度超出训练长度时，模型的性能会急剧下降，具体表现为困惑度的急剧上升。涌现出了一系列基于RoPE的大模型长度扩展的工作，包括线性插值、NTK-Aware插值、NTK-by-parts、Dynamic NTK、YaRN等。上述方法均通过==减小RoPE的旋转弧度来进行长度扩展==。

Position Interpolation

我们可以合理地猜想：模型在训练时，只见过$[0,(L-1)\theta]$范围内的旋转弧度，未见过大于$(L-1)\theta$的旋转弧度，所以当推理长度大于$L$时，模型难以理解新的旋转弧度，无法正确注入位置信息，导致模型性能下降。

Position Interpolation的做法简单且直观：==缩小每个位置的旋转弧度，让向量旋转得慢一些，每个位置的旋转弧度变为原来的$\frac{L}{L’}$，长度扩大几倍，则旋转弧度缩小几倍==。这相当于在原来的弧度范围内，插入更多的位置，由于旋转弧度是线性变化的，所以也称为线性位置插值。

最终，经过调整后，位置$m$的旋转弧度如下公式所示：

进行位置插值后+，==向量旋转速度变慢，周期变大，频率变慢==。

NTK-Aware Interpolation

作者认为高频信息对于神经网络非常重要，而Position Interpolation对于向量的所有分组不加区分地缩小旋转弧度，降低旋转速度（进一步体现为对其正弦函数进行拉伸），会==导致模型的高频信息缺失，从而影响模型的性能==。

==位置越靠前的向量分组，旋转速度越快，频率越高；越靠后的分组的旋转速度越慢，频率越低，周期越长==。作者希望保留靠前分组的高频信息。

在NTK-Aware插值中，经过调整后，位置$m$的旋转弧度如下公式所示：

调整后的旋转弧度与原始旋转弧度的倍数关系为$100^{-\frac{2i}{d}}$，越靠后的分组，旋转弧度缩小的倍数越大。

可以将NTK-Aware Interpolation的思想总结为：==保留高频信息；高频分量旋转速度降幅低，低频分量旋转速度降幅高；在高频部分进行外推，低频部分进行内插==。

我们可以将NTK-Aware Interpolation奏效的原因按照如下方式进行解释：

靠前的分组，在训练中见过非常多完整的旋转周期，位置信息得到了充分的训练，所以具有较强的外推能力。
靠后的分组，在训练中无法见到完整的旋转周期，或者见到的旋转周期非常少，训练不够充分，外推性能弱，需要进行位置插值。

NTK-by-parts Interpolation

其核心思想是：==不改变高频部分，仅缩小低频部分的旋转弧度==。也就是不改变靠前分组的旋转弧度，仅减小靠后分组的旋转弧度，这就是by-patrs的含义。

Dynamic NTK Interpolation

当超出训练长度时，上述插值方法都比原模型直接外推的效果更好，但是它们都有一个共同的缺点，在训练长度内，推理表现都比原模型差。

Dynamic NTK Interpolation是一种动态插值的方法，思路也很简单：==推理长度小于等于训练长度时，不进行插值；推理长度大于训练长度时，每一步都通过NTK-Aware Interpolation动态放大base==。

YaRN

无论是Position Interpolation还是NTK类方法，本质都是通过减小旋转弧度，降低旋转速度，来达到长度扩展的目的。这将导致==位置之间的旋转弧度差距变小，词向量之间的距离变得比原来更近，词向量之间的点乘变大，破坏模型原始的注意力分布。所以经过插值之后，模型在原来的训练长度内的困惑度均有所提升，性能受损==。

无论是NTK还是线性插值，相对距离固定时，q和k之间的内积分数都将变大，进而导致模型的注意力分布改变。并且可以发现，RoPE的注意力远程衰减的性质变弱，这也将导致整个序列的注意力分布变得更加平滑。

YaRN本质上是NTK-by-parts Interpolation与注意力分布修正策略的结合，仅缩小低频部分的旋转弧度，且通过温度系数修正注意力分布。只需将原来的注意力分数除以温度$t$即可。

回顾温度系数对注意力分布的影响，当$t$变大，注意力分布更加平滑，方差更小；当$t$变小，注意力分布更加尖锐，区分度变大，方差变大。 $t=0.6853$意味着缓解注意力分布过于平滑的问题，让注意力分布方差更大些。

总结

一句话总结各种方法的特点：

Position Interpolation：目标长度是原来的n倍，则旋转弧度减小至原来的1/n。
NTK-Aware Interpolation：增大RoPE的base，保留高频信息；高频分量旋转速度降幅低，低频分量旋转速度降幅高；在高频部分进行外推，低频部分进行内插。
NTK-by-parts Interpolation：不改变高频部分，仅缩小低频部分的旋转弧度。
Dynamic NTK Interpolation：推理长度小于等于训练长度时，不进行插值；推理长度大于训练长度时，每一步都通过NTK-Aware插值动态放大base。
YaRN：NTK-by-parts Interpolation与注意力分布修正策略的结合，通过温度系数修正注意力分布。

RAG

技术细节

数据索引

数据提取
- 数据清洗：包括数据Loader，提取PDF、word、markdown以及数据库和API等；
- 数据处理：包括数据格式处理，不可识别内容的剔除，压缩和格式化等；
- 元数据提取：提取文件名、时间、章节title、图片alt等信息，非常关键。
分块（Chunking）
- 固定大小的分块方式：一般是256/512个tokens，取决于embedding模型的情况。
- 基于意图的分块方式：
  - 句分割：最简单的是通过句号和换行来做切分。
  - 递归分割：通过分治的方法，用递归切分到最小单元的一种方式；
  - 特殊分割：还有很多不常见的，用于特殊场景，这里就不提了。
- 影响分块策略的因素：
  - 取决于你的索引类型，包括文本类型和长度，文章和微博推文的分块方式就会很不同；
  - 取决于你的模型类型：你使用什么LLM也会有不同，因为ChatGLM、ChatGPT和Claude.ai等的tokens限制长度不一样，会影响你分块的尺寸；
  - 取决于问答的文本的长度和复杂度：最好问答的文本长度和你分块的尺寸差不多，这样会对检索效率更友好；
  - 应用类型：你的RAG的应用是检索、问答和摘要等，都会对分块策略有不同的影响。
向量化（embedding）：这是将文本、图像、音频和视频等转化为向量矩阵的过程，也就是变成计算机可以理解的格式，embedding模型的好坏会直接影响到后面检索的质量，特别是相关度。
- BGE：这是国人开发的中文embedding模型，实力强劲；
- M3E：也是国人开发的中文embedding模型；
- 通义千问的embedding模型：
- Text-embedding-ada-002：这是OpenAI的embedding模型，1536维，应该是目前最好的模型

检索环节（Retriever）

检索环节技术含量依然很高。

检索优化一般分为下面五部分工作：

元数据过滤：当我们把索引分成许多chunks的时候，检索效率会成为问题。这时候，如果可以通过元数据先进行过滤，就会大大提升效率和相关度。比如，我们问“帮我整理一下XX部门今年5月份的所有合同中，包含XX设备采购的合同有哪些？”。这时候，如果有元数据，我们就可以去搜索“XX部门+2023年5月”的相关数据，检索量一下子就可能变成了全局的万分之一；
图关系检索：如果可以将很多实体变成node，把它们之间的关系变成relation，就可以利用知识之间的关系做更准确的回答。特别是针对一些多跳问题，利用图数据索引会让检索的相关度变得更高；
检索技术：前面说的是一些前置的预处理的方法，检索的主要方式还是这几种：
- 相似度检索：包括欧氏距离、曼哈顿距离、余弦等。
- 关键词检索先把chunk做摘要，再通过关键词检索找到可能相关的chunk，增加检索效率。
- SQL检索：对于一些本地化的企业应用来说，SQL查询是必不可少的一步。
重排序（Rerank）：需要有一些策略来对检索的结果做重排序，比如使用planB重排序，或者把组合相关度、匹配度等因素做一些重新调整，得到更符合我们业务场景的排序。
查询轮换：这是查询检索的一种方式，一般会有几种方式：
- 子查询：可以在不同的场景中使用各种查询策略，比如可以使用LlamaIndex等框架提供的查询器，采用树查询（从叶子结点，一步步查询，合并），采用向量查询，或者最原始的顺序查询chunks等；
- HyDE：这是一种抄作业的方式，生成相似的，或者更标准的prompt模板。
三、生成（Gen）
使用的框架有Langchain和LlamaIndex，还有一套完整的Java框架可以使用，所以这一块我没有太多研究。

技术优化

https://github.com/Jenqyang/LLM-Powered-RAG-System

文本数据预处理

由于其数据驱动的特性，高信噪比的数据仍然是十分重要：

实体解析：消除歧义以实现一致的引用。例如，将“LLM”、“大语言模型”和“大模型”标准化为通用术语。
文档划分：合理地划分不同主题的文档。如果人类都不能轻松地判断出需要查阅哪个文档才能回答提问，那么检索系统也无法做到。
数据增强：使用同义词、释义甚至其它语言的翻译来增加知识库的多样性。
处理特殊数据：例如时间敏感数据，对于经常更新的主题，实施一种机制来使过时的文档失效或更新。
增加元数据：增加内容摘要、时间戳、用户可能提出的问题等附加信息来丰富知识库。

文本

做到在不超出LLM输入长度限制的情况下，保证块之间的差异性和块内部的一致性。可以采用以下高级的分块方法：

句分割：使用NLTK或者spaCy库提供的句子分割功能。
递归分割：通过重复地应用分块规则来递归地分解文本。例如，在langchain中会先通过段落换行符（\n\n）进行分割。例如，对于文本中的密集信息部分，可能需要更细的分割来捕捉细节；而对于信息较少的部分，则可以使用更大的块。
语义分割：通过计算向量化后的文本的相似度来进行语义层面的分割。
特殊结构分割：针对特定结构化内容（例如Markdown、LaTex、JSON等）的专门分割器。

分块还有一个因素比较重要，就是块的大小。文档的类型和用户查询的长度及复杂性也是决定分块大小的重要因素。

实际场景中，可能还是需要不断实验调整，在一些测试中，128大小的分块往往是最佳选择

嵌入

对文本数据使用嵌入（Embedding）模型进行向量化（Vectorization）以便于在检索阶段使用向量检索（Vector Retrieval）。

尽量使用动态嵌入：动态嵌入相较于静态嵌入更能够处理一词多义的情况，使得同一个词在不同语境下有不同的向量表示。
微调嵌入：大多数嵌入模型都是在通用语料上进行训练的，有些项目为了让模型对垂直领域的词汇有更好的理解，会对嵌入模型进行微调。使模型能够对垂直领域词汇和通用词汇一视同仁，不被分散注意力。
混合嵌入：对用户问题和知识库文本使用不同的嵌入模型。

查询

检索阶段召回率和准确率较低，这时就需要对查询做一个优化，便于在系统中检索到与用户相关的文档。

查询重写：通过提示LLM或者使用专门的“问题重写器”（通常是经过微调的小型Transformer）来对用户的问题进行改写。
后退提示：提示LLM提出一个关于高层次概念或原则的抽象通用问题（称之为“后退”问题）。后退问题的抽象程度需要根据特定任务进行调整。最终后退问题和原始问题一起进行检索。例如，对于问题“Estella Leopold在1954年8月至11月期间上了哪所学校？”这个问题很难直接解决，因为有时间范围的详细限制。在这两种情况下，提出一个后退问题“Estella Leopold的教育经历怎么样的？”则有助于系统的检索。
Follow Up Questions：使用LLM针对历史对话和当前问题生成一个独立问题。主要针对以下情况：a. 后续问题建立在前一次对话的基础上。b.嵌入整个对话（或最后k条消息）。
HyDE：用LLM生成一个“假设”答案，将其和问题一起进行检索。HyDE的核心思想是接收用户提问后，先让LLM在没有外部知识的情况下生成一个假设性的回复。然后，将这个假设性回复和原始查询一起用于向量检索。假设回复可能包含虚假信息，但蕴含着LLM认为相关的信息和文档模式，有助于在知识库中寻找类似的文档。
多问题查询：基于原始问题，提示LLM从不同角度产生多个新问题或者子问题，在后续阶段使用RRF或者rerank合并来自不同问题的检索结果。例如，对于原始问题：谁最近赢得了总冠军，红袜队还是爱国者队？，可以生成两个子问题：a. 红袜者队上一次赢得总冠军是什么时候？b. 爱国者队上一次赢得总冠军是什么时候？

检索

获取最相关的文档或者保证最相关的文档在获取的文档列表中存在。

上下文压缩：当文档过大时，可能包含不相关的信息。通根据上下文对单个文档内容进行压缩，或者对返回结果进行一定程度的过滤。
句子窗口搜索：文档文块太小会导致上下文的缺失。其中一种解决方案就是窗口搜索，将该文档块周围的块作为上下文一并交给LLM进行输出，来增加LLM对文档上下文的理解。
父文档搜索：父文档搜索也是一种很相似的解决方案，父文档搜索先将文档分为尺寸更大的主文档，再把主文档分割为更短的子文档两个层级，用户问题会与子文档匹配，然后将该子文档所属的主文档发送给LLM。
自动合并：自动合并是在父文档搜索上更进一步的复杂解决方案。在检索时只拿叶子节点和问题进行匹配，当某个父节点下的多数叶子节点都与问题匹配则将该父节点作为结果返回。
混合检索：混合检索通过混合多个检索方法来实现不同检索技术的协同作用从而能够最大化事实召回率。例如，可以采用向量检索+关键词检索的组合来构建RAG系统的检索模块。
路由机制：当建立了多个针对不同数据类型和查询需求的索引后，就需要使用路由机制来选择最合适的索引进行数据检索，从而提升检索质量和响应速度。
使用Agent：该方法就是使用Agent来决定应该采用什么样的检索方法，从不同的检索方法中选取一种或多种进行召回。

检索后处理

检索后处理是对检索结果进行进一步的处理以便于后续LLM更好的生成，比较典型的就是重排序（Rerank）。向量检索其实就是计算语义层面的相似性，但语义最相似并不总是代表最相关。重排模型通过对初始检索结果进行更深入的相关性评估和排序，确保最终展示给用户的结果更加符合其查询意图。实现重排序除了可以提示LLM进行重排，更多的是使用了专门的重排序模型（例如闭源的有Cohere，开源有BAAI和IBM发布的模型）。这些模型会考虑更多的特征，如查询意图、词汇的多重语义、用户的历史行为和上下文信息，从而保证最相关的文档排在结果列表的最前面。

生成

在生成（Generation）阶段的优化更多的是考虑用户体验，有以下几点可以供参考：

多轮对话：也就是带聊天历史的RAG，用户可以通过连续对话来深入了解解决某个问题。
增加追问机制：在prompt中加入“如果无法从背景知识回答用户的问题，则根据背景知识内容，对用户进行追问，问题限制在3个以内”。这个机制并没有什么技术含量，主要依靠大模型的能力。不过大大改善了用户体验，用户在多轮引导中逐步明确了自己的问题，从而能够得到合适的答案。
prompt优化：RAG系统中的prompt应明确指出回答仅基于搜索结果，不要添加任何其他信息。例如，可以设置prompt：“你是一名智能客服。你的目标是提供准确的信息，并尽可能帮助提问者解决问题。你应保持友善，但不要过于啰嗦。请根据提供的上下文信息，在不考虑已有知识的情况下，回答相关查询。”当然也可以根据场景需要，适当让模型的回答融入一些主观性或其对知识的理解。此外，使用Few-shot的方法指导LLM如何利用检索到的知识，也是提升LLM生成内容质量的有效方法。
用户反馈循环：基于现实世界用户的反馈不断更新数据库，标记它们的真实性。

量化

FlashAttention&&FlashAttention++

PageAttention

FlashInfer

Ring-Reduce

Ring-Attention

DeepSeek

MoE

ZeRO++

参考文献

[1] 图解RoPE旋转位置编码及其特性 (qq.com)

[2] 详解基于调整RoPE旋转角度的大模型长度外推方法 (qq.com)

[3] ZeRO++引领万亿模型训练，吞吐量飙升200%

[4] 一文详谈20多种RAG优化方法

[5] 大模型主流应用RAG的介绍——从架构到技术细节

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达，可以在下面评论区评论