embedding经过分词，文本就可以分解成用数字表示的to-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

禅与计算机程序设计艺术人工智能领域优质创作者

2 年前

trueuniverssky2015

embedding经过分词，文本就可以分解成用数字表示的token序列。对于一个句子，最直接的表示法就是one-hot编码。假如词汇表【我，喜，欢，吃,面】,此时词汇大小（vocab_size）大小为5，那句子“我喜欢”用one-hot编码如下图。当词汇表特别大时（llama词汇大小是3万多），句子的向量（n*vocab_size）表示也就变的比较大；另外，“喜欢”这个词出现在一起的频率其实比较高，但one-hot编码也忽略了这个特性。embedding就是将句子的向量表示压缩，具体就是词汇表的每个词映射到一个高维(d维)的特征空间。# 一般embedding在语言模型的最开始，也就是词token操作之后# vocab_size 词汇表大小，hidden_size 隐藏层维度大小word_embeddings= nn.Embedding(config.vocab_size, config.hidden_size, self.padding_idx)# input_ids是句子分词后词id，比如上述的“我喜欢”可转换成为[0,1,2],数字是在词汇表【我，喜，欢，吃,面】中的索引，即token idembeddings = word_embeddings(input_ids) # embeddings的shape为[b,s,d],b:batch,s:seq_len,d:embedding sizeembedding的每维特征都可以看出词的一个特征，比如人可以通过身高，体重，地址，年龄等多个特征表示，对于每个词embedding的每个维度的具体含义，不用人为定义，模型自己去学习。这样，在d维空间上，语义相近的词的向量就比较相似了，同时embedding还能起到降维的作用，将one-hot的[s,vocab_size]大小变成了[s,d]。

杭州市余杭区

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条：

大模型基础入门：分词（tokenize）语言模型是对文本进行推理。由于文本是字符串，但对模型来说，输入只能是数字，所以就需要将文本转成用数字来表达。最直接的想法，就是类似查字典，构造一个字典，包含文本中所有出现的词汇，比如中文，可以每个字作为词典的一个元素，构成一个列表；一个句子就可以转换成由每个词的编号（词在词典中的序号）组成的数字表达。tokenize就是分词，一般分成3种粒度：•word（词）词是最简单的方式，例如英文可以按单词切分。缺点就是词汇表要包含所有词，词汇表比较大；还有比如“have”,"had"其实是有关系的，直接分词没有体现二者的关系；且容易产生oov问题（Out-Of-Vocabulary，出现没有见过的词）•char（字符）用基础字符表示，比如英文用26个字母表示。比如 "China"拆分为"C","h","i","n","a"，这样降低了内存和复杂度，但增加了任务的复杂度，一个字母没有任何语义意义，单纯使用字符可能导致模型性能的下降。•subword（子词）结合上述2个的优缺点，遵循“尽量不分解常用词，将不常用词分解为常用的子词”的原则。例如"unbelievable"在英文中是un+形容词的组合，表否定的意思，可以分解成un”+"believable"。通过这种形式，词汇量大小不会特别大，也能学到词的关系，同时还能缓解oov问题。subword分词主要有BPE，WorkdPiece，Unigram等方法。现在已经有很多预训练好的词汇表，如果需要扩充新的语言，比如中文，可以先收集好语料库（训练文本），然后用SentencePiece训练自己的分词模型。具体可以看【GitHub - taishan1994/sentencepiece_chinese_bpe: 使用sentencepiece中BPE训练中文词表，并在transformers中进行使用】https://github.com/taishan1994/sentencepiece_chinese_bpe