热门

最新

红包

立Flag

投票

同城

我的

发布
m0_62563051
方便面他大爷
3 年前
truem0_62563051

冰淇淋

CSDN App 扫码分享
分享
评论
1
打赏
  • 复制链接
  • 举报
下一条:
爬虫,作为一种获取数据的技术手段,只是替代了手工检索的繁琐过程,提升了检索效率,比如,手工需要翻100页,复制1000次,爬虫代码运行5s就能拿到数据。可以在爬虫代码中加入限制关键词、数据预处理等逻辑,不断试错爬取路径、改善爬取策略、分布式、多进程、各种优化手段,使爬虫结果无限趋近于预期数据,提高数据质量。即便如此,爬虫也并不完美。爬虫并没有在本质上解决数据边界值的问题,仅限于爬取看得到的数据,并不是真正意义上的"一切皆可爬"。而且,爬虫不具备通用性,不可能一个爬虫能爬N个网站。因为每个目标网站前端结构不同,就要针对性开发爬虫程序。爬虫程序生命周期的长短,也严重依赖于目标网站的前端结构。目标网站一改版,爬虫也得跟着变,否则就会404NotFound,所以需要定期维护。以上,@马哥python说
立即登录