一觉醒来8888了祝各位大佬年底都能888！-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

隐私无忧全栈领域优质创作者

3 年前

trueapr15

一觉醒来 8888了祝各位大佬年底都能888！

CSDN App 扫码分享

分享

2

5

打赏

复制链接
举报

下一条：

Transformer模型需要word-embedding的操作，主要是因为它是一种基于注意力机制的序列到序列模型，而这种模型在处理自然语言处理任务时，通常需要将输入的单词转换为向量表示，以便模型能够理解和处理这些单词。简单来说计算机只能识别出0和1，我们首先需要把输入文本转换到数字，再转换到0和1。当然最简单的方式就是one-hot编码。如果使用one-hot编码进行编码，那么每个单词都会被转换为一个长度等于词汇表大小的向量，其中只有一个元素为1,其余元素都为0。这种编码方式的优点是简单易实现，但是缺点也很明显：它没有考虑到单词之间的语义关系，只是简单地将每个单词映射到了一个固定长度的向量中。且这个向量的维度很长，计算复杂度将会大大增加。相比之下，word-embedding操作可以将每个单词映射到一个连续的向量空间中，这样就可以更好地捕捉单词之间的语义关系。此外，word-embedding还可以利用词向量的共现模式来学习词汇的上下文信息，这对于解决一些复杂的自然语言处理任务非常有帮助。1. 维度空间：使用one-hot编码时，每个单词都被表示为一个非常稀疏的向量，向量的维度等于词汇表的大小。对于大规模的词汇表，这将导致非常高维度的输入，增加了模型的复杂性和计算成本。2. 语义信息丢失：one-hot编码无法捕捉到单词之间的语义关系。每个单词的向量表示都是相互独立的，无法表达单词之间的相似性或关联性。3. 连续空间表示：word-embedding通过将单词映射到一个低维的连续向量空间中，可以更好地表示单词之间的语义关系。在这个连续空间中，相似的单词在向量空间中更加接近，可以更好地捕捉到单词的语义信息。当然word-embedding不是完全十全十美的，其主要缺点：1. 需要训练，需要大量的语料库进行学习。2. 对于罕见的单词可能无法得到准确的表示。除了word-embedding和one-hot编码，还可以使用其他编码方法，如词频编码（TF-Encoding）、TF-IDF编码等。这些编码方法可以在一定程度上解决one-hot编码的问题，但仍然无法捕捉到单词之间的语义关系。无论是哪种编码格式，都是为数据格式化准备的，我们在使用时，需要根据自己模型的特点，选择合适的编码格式。#动图详解transformer模型##动图详解Transformer@人工智能研究所