网站建设资讯

NEWS

网站建设资讯

Python爬虫之采集登陆后才能看到数据的方法是什么

这篇文章主要介绍“Python爬虫之采集登陆后才能看到数据的方法是什么”,在日常操作中,相信很多人在Python爬虫之采集登陆后才能看到数据的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫之采集登陆后才能看到数据的方法是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

创新互联公司专注于内江网站建设服务及定制,我们拥有丰富的企业做网站经验。 热诚为您提供内江营销型网站建设,内江网站制作、内江网页设计、内江网站官网定制、小程序开发服务,打造内江网络公司原创品牌,更为您提供内江网站排名全网营销落地服务。

Python爬虫之采集登陆后才能看到数据的方法是什么

爬虫在采集网站的过程中,部分数据价值较高的网站,会限制访客的访问行为。这种时候建议通过登录的方式,获取目标网站的cookie,然后再使用cookie配合代理IP进行数据采集分析。

1 使用表单登陆

这种情况属于post请求,即先向服务器发送表单数据,服务器再将返回的cookie存入本地。

#! -*- encoding:utf-8 -*-  import requests  import random  import requests.adapters    # 要访问的目标页面  targetUrlList = [      "https://httpbin.org/ip",      "https://httpbin.org/headers",      "https://httpbin.org/user-agent",  ]    # 代理服务器(产品官网 www.16yun.cn)  proxyHost = "t.16yun.cn"  proxyPort = "31111"    # 代理隧道验证信息  proxyUser = "username"  proxyPass = "password"    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {      "host": proxyHost,      "port": proxyPort,      "user": proxyUser,      "pass": proxyPass,  }    # 设置 http和https访问都是用HTTP代理  proxies = {      "http": proxyMeta,      "https": proxyMeta,  }    # 访问三次网站,使用相同的Session(keep-alive),均能够保持相同的外网IP  s = requests.session()    # 设置cookie  cookie_dict = {"JSESSION":"123456789"}  cookies = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True)  s.cookies = cookies    for i in range(3):      for url in targetUrlList:          r = s.get(url, proxies=proxies)          print r.text

2 使用cookie登陆

使用cookie登陆,服务器会认为你是一个已登陆的用户,所以就会返回给你一个已登陆的内容。因此,需要验证码的情况可以使用带验证码登陆的cookie解决。

response_captcha = requests_session.get(url=url_login, cookies=cookies)   response1 = requests.get(url_login) # 未登陆   response2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Response Cookie!   response3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Response Cookie!

若存在验证码,此时采用response = requests_session.post(url=url_login,  data=data)是不行的,做法应该如下:

response_captcha = requests_session.get(url=url_login, cookies=cookies)   response1 = requests.get(url_login) # 未登陆   response2 = requests_session.get(url_login) # 已登陆,因为之前拿到了Response Cookie!   response3 = requests_session.get(url_results) # 已登陆,因为之前拿到了Response Cookie!

到此,关于“Python爬虫之采集登陆后才能看到数据的方法是什么”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注创新互联网站,小编会继续努力为大家带来更多实用的文章!


分享标题:Python爬虫之采集登陆后才能看到数据的方法是什么
标题链接:http://njwzjz.com/article/jgdedh.html