在机器学习中最简单的分类问题,就是对数据集合的“划分”来确定出“信息增益”,其过程就是去熵提纯,形成模型树,从而达到预测准确率。但是,看似这么简单的一件事情,需要不断剔除意义不大的数据特征值,然后不断重复排布构建特征树,即便是看似不大的数据集,经过重复N次的训练,最终也会变成大规模数据处理的问题!这就是为什么大数据技术与分布式架构就是实现数据智能的基础。