文章目录

  • 一、selenium爬取动态网页
  • 二、爬虫案例分析
  • 三、哈希hash算法与RSA加密

一、selenium爬取动态网页

1、动态网页认知

  • 爬虫其实就是在模仿浏览器的行为
  • 应对要多次数据的交互模拟的网站,我们有时会遇到像淘宝这样的大型网站,对数据版权看得特别重的,它们的网站有大量的工程师和技术人员去维护,它们也可能在技术手段上采用多次交互数据包的方式来完成网站服务器与用户浏览器之间的交互。如果此时还采用传统的分析数据包的方式会比较的复杂,难度较高。
  • 对于这类网页的爬取,我们的解决方案是: Selenium + Chrome驱动。

2、工具的介绍
url编码与解码在线测试工具:http://tool.chinaz.com/tools/urlencode.aspx
在线正则表达式测试工具:https://tool.oschina.net/regex

3、Selenium的认识
一个Web自动化测试工具,最初是为了网站自动化测试而开发的;我们玩游戏有按键精灵; Selenium 也可以做类似的事情,但是它是在浏览器中做这样的事情。
安装:pip install selenium
然后就可以在Python中from selenium import webdriver来测试是否装好。

4、爬虫方案的选择
对Selenium + Chrome驱动这个方案,从理论上来说,只要是用户能够访问的数据,都可以抓取到,但是,从时间、空间、效率上来说,这个方案有些缺陷,尤其是时间方面,可能需要多次尝试。
因此,如果能够使用的get和post的地方,最好就不用selenium

二、爬虫案例分析

1、获取id或者xpath实现登陆

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time
browser = webdriver.Chrome()  # 设置Chrome为selenium的浏览器驱动# 打开浏览器实现登陆
def openbrowser():# global browserurl = "http://index.baidu.com/"  # 百度指数的网站browser.get(url)# 点击网页的登录按钮:在对应的元素那里右击检查(或审查元素),再右击Copy,最后Copy Xpath            browser.find_element_by_xpath('//*[@id="home"]/div[1]/div[2]/div[1]/div[5]/span/span').click()time.sleep(3)# 自动化操作是很快的,但是操作再快,网络可能跟不上,可能页面还没加载完全,因此需要设定等待时间# 浏览器登陆id测试# 1)在用户名输入框点检查,就能找到对应的id为TANGRAM__PSP_4__userName# 然后在console控制台输入:document.getElementById("TANGRAM__PSP_4__userName").value = "XXXX"# 则就会自动填入账号XXXX# 2)密码同理,找到的id为:TANGRAM__PSP_4__password# 3)然后再找登陆按钮的id:TANGRAM__PSP_4__submit# 登陆按钮需要用click():document.getElementById("TANGRAM__PSP_4__submit").click()# 自动传入账号密码到输入框account = "XXXX"passwd = "YYYY"try:browser.find_element_by_id("TANGRAM__PSP_4__userName").send_keys(account)browser.find_element_by_id("TANGRAM__PSP_4__password").send_keys(passwd)browser.find_element_by_id("TANGRAM__PSP_4__submit").click()except:browser.find_element_by_id("TANGRAM_12__password").send_keys(account)browser.find_element_by_id("TANGRAM_12__userName").send_keys(passwd)browser.find_element_by_id("TANGRAM_12__submit").click()time.sleep(3)

2、翻页处理

# 下一页(翻页)的处理
from selenium import webdriver
import time
cur_driver = webdriver.Chrome()
def go_next_page(cur_driver):try:# 用xpath找到,然后获取href超链接,点击超链接next_page = cur_driver.find_element_by_xpath("").get_attribute('href')cur_driver.get(next_page)  # 转到该超链接的页面time.sleep(3)return Trueexcept Exception as e:print(e)print("next page is not found!")return False

3、滚屏操作

# 滚屏操作:保证数据都加载完全
def scroll_to_bottom():# 最后尝试50次滚屏到底部,参数可以自己调整print("scroll down")for i in range(50):weibo_driver.excute_script('window.scrollTo(0,document.body.scrollHeight)')html = weibo_driver.page_source  # 获取到网页源码tr = etree.HTML(html)# 用xpath找到下一页的链接next_page_url = tr.xpath("")if len(next_page_url) > 0:return next_page_url[0].get('href')# 有可能下一页的网页会加载失败if len(re.findall("点击重新输入",html)) > 0:print("加载失败,请重新加载!")# 则就自动点击重新载入weibo_driver.find_element_by_link_text("点击重新载入").click()time.sleep(2)

三、哈希hash算法与RSA加密

1、哈希算法

import hashlib
# # HASH字符串:直接使用hashlib.方法
def hashStr(ss):h = hashlib.md5()  # 实例化hash对象h.update(ss.encode("utf-8"))  # 获取数据return h.hexdigest()  # 开始hash# HASH文件:对文件做Hash算法
chunkSize = 4096
def hashFile(hashName):h = hashlib.sha256()  # 实例化一个hash对象with open(hashName,"rb") as f:# 用循环来读取全部数据while True:chunk = f.read(chunkSize)if not chunk:break  # 判断是否结尾,如果为空就跳出循环h.update(chunk)return h.hexdigest()  # 得到文件最终的hash值if __name__  ==  "__main__":print(hashStr("hello world"))print(hashFile("note.txt"))

2、RSA加密

  • RSA加密算法是一种非对称加密算法,加密算法不重要,秘钥才能保密。
  • 秘钥:如果加解密用同一个秘钥,对称加密;如果加解密用两个不同的秘钥,非对称加密(有两个秘钥:公钥,私钥)
  • 用公钥加密的数据需要使用私钥来解;用私钥加密的数据需要使用公钥来解;公钥可以随便给别人,私钥不能给
  • HTTPS使用的是非对称加密:服务器、客户端、浏览器
  • 通信的过程:服务器把数据用私钥加密,把加密之后的数据和公钥一起发给客户端;完成一次通信。
  • 客户端把要发给服务器的数据用服务器所给的公钥加密,然后传给服务器;完成一次通信,服务器可以用私钥来解密。
    n = p*q,当n是一个巨大的数时,理论上在有限的时间之内这个两个质数p,q是分解不出来。则p,q是私钥,n就是公钥

Python之网络爬虫(selenium爬取动态网页、爬虫案例分析、哈希算法与RSA加密)相关推荐

  1. 【爬虫】Selenium爬取动态网页的base64图片

    文章简介 Selenium爬取动态网页的base64图片,并解决页面完整加载缓慢,base64字符串的获取和格式转码,一些页面不存在,部分照片无法加载等问题.后附源码. 目录 1,需求 2,环境和使用 ...

  2. python爬虫使用selenium爬取动态网页信息——以智联招聘网站为例

    python版本3.6 #导入两个模块 from selenium import webdriver import time from openpyxl import Workbook import ...

  3. python爬虫:爬取动态网页并将信息存入MySQL数据库

    目标网站 http://www.neeq.com.cn/disclosure/supervise.html 爬取网页该部分内容 网页分析 查看网页源代码发现没有表格部分内容,对网页请求进行分析 F12 ...

  4. Scrapy+Selenium爬取动态网页:no ‘moz:firefoxOptions.binary‘ capability provided

    报错信息:selenium.common.exceptions.SessionNotCreatedException: Message: Expected browser binary locatio ...

  5. python爬虫动态加载页面_Python+Selenium爬取动态加载页面(2)

    注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...

  6. chrome动态ip python_用Python爬虫爬取动态网页,附带完整代码,有错误欢迎指出!...

    系统环境: 操作系统:Windows8.1专业版 64bit Python:anaconda.Python2.7 Python modules:requests.random.json Backgro ...

  7. Python爬虫爬取动态网页

    系统环境: 操作系统:Windows8.1专业版 64bit Python:anaconda.Python2.7 Python modules:requests.random.json Backgro ...

  8. Windows下利用python+selenium+firefox爬取动态网页数据(爬取东方财富网指数行情数据)

    由于之前用urlib和request发现只能获取静态网页数据,目前爬取动态网页有两种方法, (1)分析页面请求 (2)Selenium模拟浏览器行为(霸王硬上弓),本文讲的就是此方法 一.安装sele ...

  9. python爬虫怎么爬同一个网站的多页数据-请问爬虫如何爬取动态页面的内容?

    现在网页大多是动态网页,尤其是内容丰富,值得爬取的网站,几乎无一例外是动态的,比如狗东.淘宝和知乎,而且还有不少反爬手段,这些都大大提升了爬虫难度,尤其是淘宝,为了反爬不惜影响到正常用户使用. 面对这 ...

最新文章

  1. PPIO 商业化架构解析
  2. main函数与命令行参数
  3. [VMware WorkStation]虚拟机网络
  4. 「深圳云栖大会」大数据时代以及人工智能推动下的阿里云异构计算
  5. 京东金融以支付开启出海之旅,未来或拓展至消费金融
  6. 面试题45:圆圈中最后剩下的数字
  7. 从20 年程序员老兵做到上市公司合伙人,怎么少踩坑?
  8. R语言中管道操作 %%, %T%, %$% 和 %%
  9. 《构建之法》8、9、10
  10. JavaScript学习手册五:JS数组
  11. ENVI执行监督分类后分类结果背景也被分类了的解决方案
  12. android 中文转首字母,Android开发 - 汉字转拼音首字母
  13. AI Illustrator 中钢笔工具在绘制过程中如何使用
  14. Mon Aug 29 00:25:18 2016 Suspending MMON slave action kewrmafsa_ for 82800 seconds
  15. 【学习资源】光学、物理类、电子学实验合集
  16. Xposed 之旅 -- 让微信低版本也可以登录
  17. Problem Q: 计算公司员工的工资
  18. 关于禁止html缓存
  19. 关于昔归,您知道多少
  20. 开关电源变压器基础知识

热门文章

  1. spring整合jedis(单节点)
  2. java 本地内存_哪个更快:Java堆还是本地内存
  3. 单片机音乐芯片c语言程序,51单片机驱动MT8880双音频接收发送芯片C语言程序分享...
  4. mysql 免密码进入_MySQL 5.7 三种免密码登录
  5. jsp java 交互_JSP-Servlet入门4之JSP数据交互
  6. mysql登录报错error1045,mysql创建登录报错ERROR1045(28000)
  7. java中set语句_数据步骤中的多个SET / MERGE语句
  8. html追加到末尾,css – wkhtmltopdf – 将内容添加到最后一页的底部
  9. Oracle 非dba用户 使用 set autotrace 功能
  10. ELK 源码详细安装步骤