独热编码使得单词与单词之间完全相互独立,从每个单词所编码成为的100万个单元的向量身上,根本看不出它与其他单词有何种语义内涵上的逻辑联系。比如,在这些数字中,我们无法知道 apple 和 bag 属于静物,区别于 cat 和 dog、elephant 属于动物且是哺乳动物,而 cat 和 dog 又属于小动物,且大多数为非野生,区别于 elephant 为大型的野生动物,等等等等,这些单词背后所蕴含的各种内在的逻辑联系和分类关系均无法从独热编码法中知晓。实际上独热编码是传统计算机数据库时代的产物,而在人工智能领域则采用另一种编码法。为了解决独热编码的问题,Word Embedding “词嵌入”编码法诞生了,如下图: