日常碰到的一些爬虫工作的总结与复盘。
爬取图片
我们先将任务拆解为两段:获取图片的url,下载图片。针对任务一,由于大部分网站都有反爬
手段,无法有效获取、使用目标网页的html代码,可尝试selenium
等工具。针对任务二,可能会涉及下载的权限问题、大批量下载时IP代理的问题等。
无法获取HTML源码的网站
该类网站使用
日常碰到的一些爬虫工作的总结与复盘。
我们先将任务拆解为两段:获取图片的url,下载图片。针对任务一,由于大部分网站都有反爬
手段,无法有效获取、使用目标网页的html代码,可尝试selenium
等工具。针对任务二,可能会涉及下载的权限问题、大批量下载时IP代理的问题等。
该类网站使用