日常碰到的一些爬虫工作的总结与复盘。

爬取图片

我们先将任务拆解为两段:获取图片的url,下载图片。针对任务一,由于大部分网站都有反爬手段,无法有效获取、使用目标网页的html代码,可尝试selenium等工具。针对任务二,可能会涉及下载的权限问题、大批量下载时IP代理的问题等。

无法获取HTML源码的网站

该类网站使用


Static Badge Static Badge Static Badge Static Badge
Copyright © 2023-2024 Raymond H., All Rights Reserved.