【大语言模型：原理与工程实践】大语言模型的基础技术

   全面剖析大语言模型的核心技术与基础知识。首先，概述自然语言的基本表示，这是理解大语言模型技术的前提。接着，详细介绍自然语言处理预训练的经典结构Transformer，以及其工作原理，为构建大语言模型架构奠定基础。然后，引介一些经典的预训练模型，如BERT、GPT等。最后，解读ChatGPT和LLaMA系列模型，帮助读者初步感知大语言模型。文本主要由词序列构成，词是自然语言处理的基本单元。文本语义学习的起点是研究如何将词转化为向量表示，这一直是自然语言处理领域的研究热点。词表示方法主要分为三种：词的独热表示、词的分布式表示和基于预训练的词嵌入表示。
   词的独热表示：构建包含所有词的词表V，独热表示将每个词转化为长度为1V1的向量。在该向量中，词表中的第i个词在第i维上设为1，其余维均为0。这种表示方法使得词表中的每个词都有独一无二的向量表示。但独热表示存在数据稀疏性问题，词表过大可能导致维度爆炸，存储词表需要巨大的空间，且大部分空间被0占据。此外，独热表示无法刻画语义信息，即使两个词的语义非常接近，也无法用独热表示量化它们的相似度，导致许多语义特征无法被利用。
   词的分布式表示：为了融入词的语义信息，John Rupert 提出了分布式语义假设，即词的语义可以由其上下文的分布表示。基于这一思想，可以利用大规模的未标注数据，根据每个词的上下文分布进行表示。常见做法是先构造各类共现矩阵，如词-文档矩阵和词-上下文矩阵，然后对共现矩阵进行降维操作，得到词的表示。其中，基于概率主题模型的方法最为流行，如潜在语义索引(LSI)和隐含狄利克雷分布(LDA)等。这些方法通过矩阵分解或贝叶斯概率推断，利用共现矩阵学习每个词的主题分布，进而将其作为词的表示向量。在大规模语料库中进行模型训练，使语义相似的词具有相似的主题分布。然而，这类方法存在一个问题，即模型一旦训练完成，词的分布式表示就无法修改，因此难以灵活应用于下游文本的挖掘中。
   词嵌入表示：将每个词映射为一个低维稠密的实值向量。不同的是，基于预训练的词嵌入表示先在语料库中利用某种语言模型进行预训练，然后将其应用到下游任务中，词向量可以随着任务更新、调整。这类语言模型一般分为静态词向量语言模型(如Word2vec、GloVe)和动态词向量语言模型(如ELMo、GPT、BERT)。静态词向量语言模型中每个词学到的词向量是静态的，与上下文语境无关，因此不适用于一词多义的情况。例如，“苹果”在“我去吃个苹果”与“这个苹果手机好用吗”这两个句子中的语义明显不同，但静态词向量语言模型仅利用同一个向量表示词的语义，难以刻画同一个词在不同语境下的不同语义。而动态词向量语言模型中对词的表示随着上下文语境的不同而动态变化，依赖当前所在的句子或段落等的语境。以ELMo为例，将词序列输入经过预训练的ELMo模型，该模型可以输出序列中每个词的特征，并且这些特征融合了这些词在当前序列的上下文语义，因此能够解决一词多义的问题。凭借这种优势，基于动态词向量语言模型进行预训练的方法被广泛应用于自然语言处理任务中。

经典结构：Transformer
   2017年，谷歌公司推出了具有划时代意义的Transformer结构，最初专为机器翻译任务设计。凭借其卓越的特征学习能力，Transformer迅速崭露头角，继卷积神经网络(CNN)和RNN之后，成为文本建模领域的热门架构。不仅如此，它还对自然语言处理领域产生了深远的影响。基于Transformer的预训练模型，如GPT系列和BERT系列，已在多种任务上取得了卓越的成绩。目前的大型语言模型仍以Transformer为基础进行训练。Transformer是一种基于自注意力机制的编码器-解码器结构，其核心由编码器和解码器组成，每个部分均由多个相同层堆叠而成。自注意力机制使Transformer有效避免了CNN中的梯度消失和梯度爆炸问题，同时提高了处理长文本序列的效率。此外，模型编码器可以运用更多层，以捕获输入序列中元素间的深层关系，并学习更全面的上下文向量表示。

预训练语言模型大语言模型基础技术21随着Transformer结构在机器翻译领域取得巨大成功，研究人员开始探索其在其他自然语言处理任务中的潜力。很快，Transformer 结构被证明不仅适用于序列到序列的转换任务在处理各种自然语言任务时都表现出了惊人的能力。这促使一个新的研究方向诞生——基于Transformer 的预训练语言模型。这类模型的核心思想是先利用大规模的文本数据进行预训练，捕捉语言的通用特征，再针对特定任务对模型进行微调。这种方法的成功不仅是自然语言处理发展的一个转折点，还为许多现实世界的应用场带来了前所未有的性能提升。从广为人知的GPT到BERT,预训练的模型参数量越来越大预训练数据越来越多,直到现在的大语言模型。
基于Transformer结构，预训练语言模型可以大致被划分为以下三类。 (1) Encoder-Only 预训练语言模型：这类模型专注于捕获输入文本中的双向关系，各种下游任务提供丰富的文本表示,如谷歌公司推出的BERT。（2) Decoder-Only 预训练语言模型：这类模型一般使用单向的 Decoder 结构，通常擅长生成任务，如OpenAI 推出的 GPT 系列，这也是如今生成式 AI 中大语言模型最流行训练架构。(3) Encoder-Decoder预训练语言模型:这类模型旨在将各种自然语言处理任务统为一个序列到序列的框架,提供更为通用和灵活的结构,如T5、BART等。

更多回帖

jf_45146438

【大语言模型：原理与工程实践】大语言模型的基础技术

相关帖子

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》

【大语言模型：原理与工程实践】探索《大语言模型原理与工程实践》2.0

【大语言模型：原理与工程实践】大语言模型的应用

【大语言模型：原理与工程实践】大语言模型的评测

【大语言模型：原理与工程实践】揭开大语言模型的面纱

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型：原理与工程实践+初识2

【大语言模型：原理与工程实践】核心技术综述

大语言模型：原理与工程时间+小白初识大语言模型

Redis之父的大语言模型编程实践

20万+工程师都在用，免费PCB检查工具