例如,对于一个片段“中午12点了,我们一起去餐厅”,语言模型可以预测“餐厅”后面可能出现的词语。一般的语言模型会预测下一个词语是“吃饭”,强大的语言模型能够捕捉时间信息并且预测产生符合语境的词语“吃午饭”。通常,一个语言模型是否强大主要取决于两点:首先看该模型是否能够利用所有的历史上下文信息, 上述例子中如果无法捕捉“中午12点”这个远距离的语义信息,语言模型几乎无法预测下一个词语“吃午饭”。其次,还要看是否有足够丰富的历史上下文可供模型学习,也就是说训练语料是否足够丰富 。由于语言模型属于无监督学习,优化目标是最大化所见文本的语言模型概率,因此任何文本无需标注即可作为训练数据。