Python之网络爬虫（selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密）

文章目录

一、selenium爬取动态网页
二、爬虫案例分析
三、哈希hash算法与RSA加密

一、selenium爬取动态网页

1、动态网页认知

爬虫其实就是在模仿浏览器的行为
应对要多次数据的交互模拟的网站，我们有时会遇到像淘宝这样的大型网站，对数据版权看得特别重的，它们的网站有大量的工程师和技术人员去维护，它们也可能在技术手段上采用多次交互数据包的方式来完成网站服务器与用户浏览器之间的交互。如果此时还采用传统的分析数据包的方式会比较的复杂，难度较高。
对于这类网页的爬取，我们的解决方案是: Selenium + Chrome驱动。

2、工具的介绍
url编码与解码在线测试工具：http://tool.chinaz.com/tools/urlencode.aspx
在线正则表达式测试工具：https://tool.oschina.net/regex

3、Selenium的认识
一个Web自动化测试工具，最初是为了网站自动化测试而开发的;我们玩游戏有按键精灵； Selenium 也可以做类似的事情，但是它是在浏览器中做这样的事情。
安装：pip install selenium
然后就可以在Python中from selenium import webdriver来测试是否装好。

4、爬虫方案的选择
对Selenium + Chrome驱动这个方案，从理论上来说，只要是用户能够访问的数据，都可以抓取到，但是，从时间、空间、效率上来说，这个方案有些缺陷，尤其是时间方面，可能需要多次尝试。
因此，如果能够使用的get和post的地方，最好就不用selenium

二、爬虫案例分析

1、获取id或者xpath实现登陆

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time
browser = webdriver.Chrome()  # 设置Chrome为selenium的浏览器驱动# 打开浏览器实现登陆
def openbrowser():# global browserurl = "http://index.baidu.com/"  # 百度指数的网站browser.get(url)# 点击网页的登录按钮：在对应的元素那里右击检查（或审查元素），再右击Copy，最后Copy Xpath            browser.find_element_by_xpath('//*[@id="home"]/div[1]/div[2]/div[1]/div[5]/span/span').click()time.sleep(3)# 自动化操作是很快的，但是操作再快，网络可能跟不上，可能页面还没加载完全，因此需要设定等待时间# 浏览器登陆id测试# 1）在用户名输入框点检查，就能找到对应的id为TANGRAM__PSP_4__userName# 然后在console控制台输入：document.getElementById("TANGRAM__PSP_4__userName").value = "XXXX"# 则就会自动填入账号XXXX# 2）密码同理，找到的id为：TANGRAM__PSP_4__password# 3）然后再找登陆按钮的id：TANGRAM__PSP_4__submit# 登陆按钮需要用click()：document.getElementById("TANGRAM__PSP_4__submit").click()# 自动传入账号密码到输入框account = "XXXX"passwd = "YYYY"try:browser.find_element_by_id("TANGRAM__PSP_4__userName").send_keys(account)browser.find_element_by_id("TANGRAM__PSP_4__password").send_keys(passwd)browser.find_element_by_id("TANGRAM__PSP_4__submit").click()except:browser.find_element_by_id("TANGRAM_12__password").send_keys(account)browser.find_element_by_id("TANGRAM_12__userName").send_keys(passwd)browser.find_element_by_id("TANGRAM_12__submit").click()time.sleep(3)

2、翻页处理

# 下一页（翻页）的处理
from selenium import webdriver
import time
cur_driver = webdriver.Chrome()
def go_next_page(cur_driver):try:# 用xpath找到，然后获取href超链接，点击超链接next_page = cur_driver.find_element_by_xpath("").get_attribute('href')cur_driver.get(next_page)  # 转到该超链接的页面time.sleep(3)return Trueexcept Exception as e:print(e)print("next page is not found!")return False

3、滚屏操作

# 滚屏操作：保证数据都加载完全
def scroll_to_bottom():# 最后尝试50次滚屏到底部，参数可以自己调整print("scroll down")for i in range(50):weibo_driver.excute_script('window.scrollTo(0,document.body.scrollHeight)')html = weibo_driver.page_source  # 获取到网页源码tr = etree.HTML(html)# 用xpath找到下一页的链接next_page_url = tr.xpath("")if len(next_page_url) > 0:return next_page_url[0].get('href')# 有可能下一页的网页会加载失败if len(re.findall("点击重新输入",html)) > 0:print("加载失败，请重新加载！")# 则就自动点击重新载入weibo_driver.find_element_by_link_text("点击重新载入").click()time.sleep(2)

三、哈希hash算法与RSA加密

1、哈希算法

import hashlib
# # HASH字符串：直接使用hashlib.方法
def hashStr(ss):h = hashlib.md5()  # 实例化hash对象h.update(ss.encode("utf-8"))  # 获取数据return h.hexdigest()  # 开始hash# HASH文件：对文件做Hash算法
chunkSize = 4096
def hashFile(hashName):h = hashlib.sha256()  # 实例化一个hash对象with open(hashName,"rb") as f:# 用循环来读取全部数据while True:chunk = f.read(chunkSize)if not chunk:break  # 判断是否结尾，如果为空就跳出循环h.update(chunk)return h.hexdigest()  # 得到文件最终的hash值if __name__  ==  "__main__":print(hashStr("hello world"))print(hashFile("note.txt"))

2、RSA加密

RSA加密算法是一种非对称加密算法，加密算法不重要，秘钥才能保密。
秘钥：如果加解密用同一个秘钥，对称加密；如果加解密用两个不同的秘钥，非对称加密（有两个秘钥：公钥，私钥）
用公钥加密的数据需要使用私钥来解；用私钥加密的数据需要使用公钥来解；公钥可以随便给别人，私钥不能给
HTTPS使用的是非对称加密：服务器、客户端、浏览器
通信的过程：服务器把数据用私钥加密，把加密之后的数据和公钥一起发给客户端;完成一次通信。
客户端把要发给服务器的数据用服务器所给的公钥加密，然后传给服务器;完成一次通信，服务器可以用私钥来解密。
n = p*q，当n是一个巨大的数时，理论上在有限的时间之内这个两个质数p,q是分解不出来。则p，q是私钥，n就是公钥

Python之网络爬虫（selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密）相关推荐

【爬虫】Selenium爬取动态网页的base64图片
文章简介 Selenium爬取动态网页的base64图片,并解决页面完整加载缓慢,base64字符串的获取和格式转码,一些页面不存在,部分照片无法加载等问题.后附源码. 目录 1,需求 2,环境和使用 ...
python爬虫使用selenium爬取动态网页信息——以智联招聘网站为例
python版本3.6 #导入两个模块 from selenium import webdriver import time from openpyxl import Workbook import ...
python爬虫：爬取动态网页并将信息存入MySQL数据库
目标网站 http://www.neeq.com.cn/disclosure/supervise.html 爬取网页该部分内容网页分析查看网页源代码发现没有表格部分内容,对网页请求进行分析 F12 ...
Scrapy+Selenium爬取动态网页：no ‘moz:firefoxOptions.binary‘ capability provided
报错信息:selenium.common.exceptions.SessionNotCreatedException: Message: Expected browser binary locatio ...
python爬虫动态加载页面_Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
chrome动态ip python_用Python爬虫爬取动态网页，附带完整代码，有错误欢迎指出！...
系统环境: 操作系统:Windows8.1专业版 64bit Python:anaconda.Python2.7 Python modules:requests.random.json Backgro ...
Python爬虫爬取动态网页
系统环境: 操作系统:Windows8.1专业版 64bit Python:anaconda.Python2.7 Python modules:requests.random.json Backgro ...
Windows下利用python+selenium+firefox爬取动态网页数据(爬取东方财富网指数行情数据)
由于之前用urlib和request发现只能获取静态网页数据,目前爬取动态网页有两种方法, (1)分析页面请求 (2)Selenium模拟浏览器行为(霸王硬上弓),本文讲的就是此方法一.安装sele ...
python爬虫怎么爬同一个网站的多页数据-请问爬虫如何爬取动态页面的内容？
现在网页大多是动态网页,尤其是内容丰富,值得爬取的网站,几乎无一例外是动态的,比如狗东.淘宝和知乎,而且还有不少反爬手段,这些都大大提升了爬虫难度,尤其是淘宝,为了反爬不惜影响到正常用户使用. 面对这 ...