爬虫，作为一种获取数据的技术手段，只是替代了手工检索的繁琐过-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

马哥python说

3 年前

truesolo_msk

爬虫，作为一种获取数据的技术手段，只是替代了手工检索的繁琐过程，提升了检索效率，比如，手工需要翻100页，复制1000次，爬虫代码运行5s就能拿到数据。

可以在爬虫代码中加入限制关键词、数据预处理等逻辑，不断试错爬取路径、改善爬取策略、分布式、多进程、各种优化手段，使爬虫结果无限趋近于预期数据，提高数据质量。

即便如此，爬虫也并不完美。

爬虫并没有在本质上解决数据边界值的问题，仅限于爬取看得到的数据，并不是真正意义上的"一切皆可爬"。

而且，爬虫不具备通用性，不可能一个爬虫能爬N个网站。因为每个目标网站前端结构不同，就要针对性开发爬虫程序。

爬虫程序生命周期的长短，也严重依赖于目标网站的前端结构。目标网站一改版，爬虫也得跟着变，否则就会404NotFound，所以需要定期维护。

以上，@马哥python说

C站每日精选

CSDN App 扫码分享

分享

评论

1

打赏

复制链接
举报

下一条：

C++ 第一天Hello World!