laical

2019年12月04日注册2020年06月24日最后登录

没有个人说明

python爬虫对爬虫代理的使用

 laical
 2020年06月16日

做过爬虫的应该都知道,在爬取反爬比较强的网站如果同一时间获取的数据量过大就会导致封IP,例如豆瓣,搜狗之类的。那么我们我们的策略就是搭建自己的代理池,Cookie池,使得爬虫更像是普通用户在操作一样以此来解决目标网站封IP的问题。在网上有大量公开的免费代理,如果经济基础可以的话,我们也可以购买付费的代理IP,用过的人也应该知道,无论是免费的还是付费的,其实都不能保证是可用的,因为可能此IP也会被其

python爬虫对爬虫代理的使用

爬虫入门基础-Scrapy框架的Spalsh渲染要点

 laical
 2020年06月10日

我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。 爬虫概述 简单来说,爬虫就是获取网页并

爬虫入门基础-Scrapy框架的Spalsh渲染要点

深入浅出爬虫要点

 laical
 2020年06月10日

或者脚本。它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。 爬虫的工作原理: (1)选取一部分精心挑选的种子 URL。 (2)将这些 URL 放入待抓取 URL 队列。 (3)从待抓取 URL 队列中取出待抓取的 URL,解析 DNS 并且得到主机的 IP,将 URL 对应的网页下载下来,存储进已下载的网页库中。此外,将这些 URL 放进已抓取的 URL 队列。 (4)分析已抓取的 UR

深入浅出爬虫要点

爬虫代理Scrapy框架详细介绍3

 laical
 2020年06月10日

Scrapy防止反爬 通常防止爬虫被反主要有以下几个策略: 动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息,可以使用组件scrapy-random-useragent) 禁用Cookies(对于简单网站可以不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为)可以通过COOKIES_ENAB

爬虫代理Scrapy框架详细介绍3

爬虫入门基础-Firefox数据抓包

 laical
 2020年05月12日

我们知道了什么是爬虫,也知道了爬虫的具体流程。那么在我们要对某个网站进行爬取的时候要对其数据进行分析,就要知道应该怎么请求就要知道获取的数据是什么样的,我们要学会怎么数据抓包。 打开我们的 firfox浏览器 (使用developer版本 https://www.mozilla.org/zh-CN/firefox/developer/),www.16yun.cn/help/ 用力回车,这个时候,进

爬虫入门基础-Firefox数据抓包
切换注册

登录

忘记密码 ?

切换登录

注册

扫一扫二维码分享