热门
最新
红包
立Flag
投票
同城
我的
发布
爬虫,作为一种获取数据的技术手段,只是替代了手工检索的繁琐过程,提升了检索效率,比如,手工需要翻100页,复制1000次,爬虫代码运行5s就能拿到数据。
可以在爬虫代码中加入限制关键词、数据预处理等逻辑,不断试错爬取路径、改善爬取策略、分布式、多进程、各种优化手段,使爬虫结果无限趋近于预期数据,提高数据质量。
即便如此,爬虫也并不完美。
爬虫并没有在本质上解决数据边界值的问题,仅限于爬取看得到的数据,并不是真正意义上的"一切皆可爬"。
而且,爬虫不具备通用性,不可能一个爬虫能爬N个网站。因为每个目标网站前端结构不同,就要针对性开发爬虫程序。
爬虫程序生命周期的长短,也严重依赖于目标网站的前端结构。目标网站一改版,爬虫也得跟着变,否则就会404NotFound,所以需要定期维护。
以上,@马哥python说
C站每日精选
CSDN App 扫码分享
评论
1
打赏
- 复制链接
- 举报
下一条:
C++ 第一天Hello World!