深入理解深度学习——BERT（Bidirectional Encoder Representations fr

分类目录：《深入理解深度学习》总目录
相关文章：
· BERT（Bidirectional Encoder Representations from Transformers）：基础知识
· BERT（Bidirectional Encoder Representations from Transformers）：BERT的结构
· BERT（Bidirectional Encoder Representations from Transformers）：MLM（Masked Language Model）
· BERT（Bidirectional Encoder Representations from Transformers）：NSP（Next Sentence Prediction）任务
· BERT（Bidirectional Encoder Representations from Transformers）：输入表示
· BERT（Bidirectional Encoder Representations from Transformers）：微调训练-[句对分类]
· BERT（Bidirectional Encoder Representations from Transformers）：微调训练-[单句分类]
· BERT（Bidirectional Encoder Representations from Transformers）：微调训练-[文本问答]
· BERT（Bidirectional Encoder Representations from Transformers）：微调训练-[单句标注]
· BERT（Bidirectional Encoder Representations from Transformers）：模型总结与注意事项

与GPT一样，BERT同样采用了二段式训练方法，第一阶段使用易获取的大规模无标签语料，包括来自各类图书中的文本（8亿个词）和来自英文维基百科（25亿个词）的数据，来训练基础语言模型；第二阶段根据指定任务的少量带标签训练数据进行微调训练。不同于GPT等标准语言模型仅以 P ( w i ∣ w 1 , w 2 , ⋯ , w i − 1 ) P(w_i|w_1, w_2, \cdots, w_{i-1}) P(wi∣w1,w2,⋯,wi−1)为目标函数进行训练，能看到全局信息（包括待预测词本身）的BERT并不使用此类目标函数。BERT用MLM（Masked Language Model，掩码语言模型）方法训练词的语义理解能力，用NSP（Next Sentence Prediction，下句预测）方法训练句子之间的理解能力，从而更好地支持下游任务。

很多自然语言处理的下游任务，如问答和自然语言推断，都基于两个句子做逻辑推理，而语言模型并不具备直接捕获句子之间语义联系的能力（由训练方法和目标函数的特性决定）。为了学会捕捉句子之间的语义联系，BERT采用NSP作为无监督预训练的一部分。具体而言，BERT的输入语句将由两个句子组成，其中，50%的概率将语义连贯的两个连续句子作为训练文本（注意，连续句子应取自篇章级别的语料，以确保前后语句的语义强相关），另外50%的概率将完全随机抽取的两个句子作为训练文本，BERT需要根据输入的两个句子，判断它们是否为真实的连续句对。下面给出一个例子：

其中，[SEP]标签表示分隔符，用于区分两个句子，而[CLS]标签对应的输出向量作为句子整体的语义表示，用于类别预测，若结果为1，表示输入语句为真实的连续句子，其上下文有语义联系；若结果为0，则表示输入语句为随机构造的句子，上下文并没有语义联系。通过训练[CLS]编码后的输出标签，BERT可以学会捕获两个输入句对的文本语义，在连续句对的预测任务中，BERT的正确率可以达到97%~98%，为下游任务的微调训练打下了坚实基础。

参考文献：
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 车万翔, 崔一鸣, 郭江. 自然语言处理：基于预训练模型的方法[M]. 电子工业出版社, 2021.
[4] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[5] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[6] Sudharsan Ravichandiran. BERT基础教程：Transformer大模型实战[M]. 人民邮电出版社, 2023
[7] 吴茂贵, 王红星. 深入浅出Embedding：原理解析与应用实战[M]. 机械工业出版社, 2021.

本文链接：https://my.lmcjl.com/post/12322.html

展开阅读全文

4 评论

擅长工具开发、爬虫采集技术、大数据统计处理！
座右铭：皇天不负有心人。

深入理解深度学习——BERT（Bidirectional Encoder Representations fr

4 评论

留下您的评论. Cancel reply