查询到最新的4条

transformer学习笔记:Feed-Forward Network

transformer结构在Muli-Head Attention层之后还添加了一层Feed-Forward层。Feed-Forward层包括两层全连接层以及一个非线性激活函数ReLu。 注意到在Mui-Head Attention的内部结构中,我们进行的主要都是矩阵乘法(scaled Dot-Product Attention),即进行的都是线性变换,而线性变换的学习能力是不如非线性变化的强的,所以Mui-Head Attention的 继续阅读

走进chatGPT

chatgpt的原理ChatGPT的原理是基于深度学习技术中的自然语言处理和生成模型。它使用了一种称为“变压器(Transformer)”的模型架构,该模型能够处理序列数据,并通过自注意力机制(Self-Attention)从输入中提取语义信息,然后生成文本输出。在训练过程中,ChatGPT通过处理大规模的文本数据来学习语言结构和语义知识,从而能够在回答问题、生成文本等任 继续阅读