网络爬虫的规则

python (3481) 2020-07-27 17:51:18

1.网络爬虫:自动从互联网中定向(有目标、过滤无关信息)或不定向(随机)地采集信息的一种程序。常用的类型有:通用网络爬虫(不定向)、聚焦网络爬虫(定向设置过滤规则)。

2.网络爬虫的应用:①搜索引擎②采集金融数据③采集商品数据④自动过滤广告⑤采集竞争对手的客户数据⑥采集行业相关数据,进行数据分析......

3.网络爬虫的运行原理

(1)通用网络爬虫:

①获取初始URL;②爬取页面并获取新的URL;③将爬取的内容放到服务器中,将新URL放入URL队列;④读取新URL,重复②③④;⑤直到满足停止条件结束。

(2)聚焦网络爬虫:

①对抓取目标进行相应的定义或描述;②获取初始URL;③爬取页面并获得新的URL;④将爬取的内容放到服务器中,过滤无关链接后,将新URL放入URL队列中;⑤确定下一步抓取目标,重复①②③④⑤;⑥直到满足停止条件结束。

限制网络爬虫

  • 对服务器性能的骚扰问题
  • 内容层面的法律风险问题
  • 个人隐私泄露问题

因此,我们说网络爬虫的使用是要有它的规则。在实际的使用中,一些较大的网站都对网络爬虫有相关的限制。那么针对这些网站应该做出那些相应的策略:

1 使用代理亿牛云代理

适用情况:大部分网站均限制了IP的访问量

对于“频繁点击”的情况,我们还可以通过限制爬虫访问网站的频率来避免被网站禁掉。

        #! -*- encoding:utf-8 -*-

        import requests
        import random

        # 要访问的目标页面
        targetUrl = "http://httpbin.org/ip"

        # 要访问的目标HTTPS页面
        # targetUrl = "https://httpbin.org/ip"

        # 代理服务器(产品官网 www.16yun.cn)
        proxyHost = "t.16yun.cn"
        proxyPort = "31111"

        # 代理隧道验证信息
        proxyUser = "username"
        proxyPass = "password"

        proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
            "host" : proxyHost,
            "port" : proxyPort,
            "user" : proxyUser,
            "pass" : proxyPass,
        }

        # 设置 http和https访问都是用HTTP代理
        proxies = {
            "http"  : proxyMeta,
            "https" : proxyMeta,
        }


        #  设置IP切换头
        tunnel = random.randint(1,10000)
        headers = {"Proxy-Tunnel": str(tunnel)}



        resp = requests.get(targetUrl, proxies=proxies, headers=headers)

        print resp.status_code
        print resp.text

2 伪装成浏览器,或者反“反盗链”

有些网站会检查你是不是真的浏览器访问,还是机器自动访问的。这种情况,加上User-Agent,表明你是浏览器访问即可。有时还会检查是否带Referer信息还会检查你的Referer是否合法,一般再加上Referer。

User-Agent可以用亿牛云代理提供给的真实库,Referer的来源可以伪装成百度搜索来的。

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73 Safari/537.36', 'Referer':'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'}
response = requests.get(url=url, headers=headers)

使用网络爬虫采集数据,需要高质量亿牛云爬虫代理才能更加高效稳定的采集出想要的数据。

THE END

发表评论