发烧友官方/活动
直播中

jf_51300420

3年用户 7经验值
擅长:嵌入式技术 制造/封装 RF/无线
私信 关注
[经验]

大语言模型:原理与工程时间+小白初识大语言模型

解锁

我理解的是基于深度学习,需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。
对于常说的RNN是处理短序列的数据时表现出色,耳真正厉害的是Transformer,此框架被推出后直接开拓深度学习的思路。对于新涌现的大语言模型的能力,主要是表现在学习能力的提升、语言理解和生成能力、创新和探索的能力。

基础技术

词表示技术

词表示一般分为三种,主要是词的独热表示(One-hot),词的分布式表示,基于预训练的词嵌入表示。
独热表示就是在一个大的向量空间中,其中一个位1,其余都为0,这样就会变成单独的。
词的分布式表示:根据上下文进行推断语义。
基于预训练的词嵌入表示:重要的是利用莫种语言模型进行预训练,此处预训练为自然语言处理领域的里程碑

分词技术(Tokenization)

微信图片_20240512235625.jpg

Word粒度:我/贼/喜欢/看/大语言模型
character粒度:我/贼/喜/欢/看/大/语/言/模/型
sunword粒度:
中文->我/贼/喜/欢/看/大/语/言/模/型
English->let/'/s/go/to/li/##b

这里有个专有名词OOV:模型无法处理未在词表中的词

其中效果最好的就是sunword粒度,可以处理以上问题,具有灵活性,允许学习词缀关系

经典结构

微信图片_20240512235530.jpg

transformer:由Encoder和Decoder组成,这个太厉害了,有效避免卷积神经网络中的梯度消失与梯度爆炸。

开篇的感觉主要是学好数学,书山有路勤为径,学海无涯苦作舟!

更多回帖

发帖
×
20
完善资料,
赚取积分