大数据
一种规模大到在获取、储存、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合
四大特征:具有海量的数据规模,快速的数据流转、多样的数据类型、价值密度低
大数据主要是指大数据技术及其在各个领域的应用
4V :数据规模大 数据种类多 处理速度快 数据价值密度低
数据获取 网络爬虫:
搜索引擎系统主要包括4个模块 信息搜索模块 信息索引模块 信息检索模块 用户接口部分 网络爬虫便是信息搜索模块最核心的部分
在网络爬虫的系统构架中 主要由 控制器 解析器 资源库 三部分组成
抓取策略
深度优先策略 广度优先策略
深度优先策略是在开发网络爬虫早期使用较多的方法
广度优先策略通常是实现爬虫的最佳策略