语言模型 · PHP/Python/前端/Linux 等等学习笔记

[TOC] > [参考](https://transformers.run/c1/transformer/#%E8%B5%B7%E6%BA%90%E4%B8%8E%E5%8F%91%E5%B1%95) ## 语言模型 Transformer 模型本质上都是预训练语言模型，大都采用自监督学习 (Self-supervised learning) 的方式在大量生语料上进行训练，也就是说，训练这些 Transformer 模型完全不需要人工标注数据。 > 自监督学习是一种训练目标可以根据模型的输入自动计算的训练方法。 ## 常用预训练模型 ### 因果语言建模基于句子的前𝑛个词来预测下一个词，因为输出依赖于过去和当前的输入，因此该任务被称为**因果语言建模**(causal language modeling)； ![](https://img.kancloud.cn/f9/32/f932c7edadec9121ad7e9493c11eb31e_1790x686.png) ### 遮盖语言建模基于上下文（周围的词语）来预测句子中被遮盖掉的词语 (masked word)，因此该任务被称为遮盖语言建模 (masked language modeling)。 ![](https://img.kancloud.cn/28/c8/28c805f90f6f5cd0d3e0319a4ae01bf7_1790x505.png) ### 迁移学习迁移学习而是将别人预训练好的模型权重通过迁移学习应用到自己的模型中，即使用自己的任务语料对模型进行“二次训练”，通过微调参数使模型适用于新任务