原因

一部分网站反爬,会通过检查请求的请求头里是否有浏览器的user-agent来判断请求是否是爬虫。当你在请求头里加上user-agent,然后,进行反复的请求后,系统又会判断请求时爬虫,因为单一版本浏览器请求过多,为了达到以假乱真的目的,你需要构建一个user-agent池,然后随机调用,那样相对比较繁琐但有效,如果你不想构造池呢,请看下面。

解决方法

pip install fake_useragent

from fake_useragent import UserAgent

headers = {
‘User-Agent’: UserAgent().random,
}

使用这个包以后,妈妈再也不用担心,构建user-agent池了。

ps:2019-09-12更新:这个包链接的网站貌似出问题了。。。。

好像是间歇性问题,可以忽略。。。。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建,欢迎商务合作。wx: diudiu5555

更多推荐