在机器学习中,学习指的是采用一些算法来分析数据的基本结构,并且辨别其中的信号和噪声,从而提取出尽可能多的(或者尽可能合理的)信息的过程。在算法发现信号或者说模式之后,其余的所有东西都将被简单判断为噪声。因此,机器学习技术也称为模式识别算法。我们可以“训练”机器去学习数据是如何在特定情境中产生的,从而使用这些算法将许多有用的任务实现自动化。这就引出了训练集(training set)这一术语,它指的是构建机器学习过程所用到的数据集。观测数据、从中学习、自动化识别过程,这三个概念是机器学习的核心。