利用selenium进行页面操作

草草地写了一下,文字是爬下来了,但是还有格式等问题,遇到复杂的文档可能不通用,有点蛋疼。
用安卓模拟登陆,让页面简单一点,电脑网页有点复杂。
之后有空再来改进

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
from selenium import webdriveroptions = webdriver.ChromeOptions()
options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
driver = webdriver.Chrome(chrome_options = options)
driver.get('https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html')
gap = driver.find_element_by_xpath("//div[@class='foldpagewg-text-con']")
driver.execute_script("arguments[0].scrollIntoView();", gap)
go_on = driver.find_element_by_xpath("//div[@class='foldpagewg-text']")
go_on.click()
# gap2 = driver.find_element_by_xpath()html = driver.page_source
bf1 = BeautifulSoup(html, 'lxml')
result = bf1.find_all("div", class_="content singlePage wk-container")for para in result:plist = para.find_all("p", class_="txt")for item in plist:strings = item.stripped_stringsfor string in strings:print(string)

在webdriver里设置ip方便很多,但是貌似打不开。。。不清楚为什么

from selenium import webdriverchrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) ''AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
chrome_options.add_argument("--proxy-server=http://183.62.22.220:3128")
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get("https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html")

python爬虫实战:selenium下载百度文库文档相关推荐

  1. 爬虫生活实录之---百度文库文档破解

    帮同学找考试相关资料的时候瞄上了百度文库(百度文库找期末考的试卷确实特别方便),不想出钱又不想下冰点,复制粘贴还嫌累,灵机一动想用爬虫来解决这个问题.2333我凭本事爬的文档为什么要给钱 目标:搞定百 ...

  2. python爬虫实战——自动下载百度图片(文末附源码)

    用Python制作一个下载图片神器 前言 这个想法是怎么来的? 很简单,就是不想一张一张的下载图片,嫌太慢. 在很久很久以前,我比较喜欢收集各种动漫的壁纸,作为一个漫迷,自然是能收集多少就收集多少.小 ...

  3. Python爬虫实战(五) :下载百度贴吧帖子里的所有图片

    准备工作: 目标网址:https://tieba.baidu.com/p/5113603072 目的:    下载该页面上的所有楼层里的照片 第一步:分析网页源码 火狐浏览器  ---> 在该页 ...

  4. python爬虫实现批量下载百度图片

    今天和小伙伴们合作一个小项目,需要用到景点图片作为数据源,在百度上搜索了一些图片,感觉一个一个手动保存太过麻烦,于是想到用爬虫来下载图片. 本次代码用到了下列一些python模块,需要预先安装Beau ...

  5. 百度文库文档(文字和图片)

    百度文库文档(文字和图片) 背景 思路 预览效果 代码 代码解析 改进方向 参考资料 免责申明 背景 我想很多人会有与我一样的经历,想复制百度文库的内容却发现要开会员,天下苦百度文库久矣,本是广大网友 ...

  6. 文秀才文档管理系统文档管理,CAD, 图纸管理, 百度文库, 文档在线预览

    原文来自 http://www.fanganwang.com/Product-detail-item-1440.html,欢迎转载. 关键字:文档管理,CAD, 图纸管理, 百度文库, 文档在线预览 ...

  7. SpringBoot实现百度文库文档上传,通俗易懂适合萌新

    介绍 最近项目需要将word文档上传到百度文库,所以去百度智能云上看了下API,发现居然没有,而且百度文库的文章在网上居然没多少人发教程.所以这个文章是发下如何将word上传到百度文库上,因为我经常去 ...

  8. 如何下载百度云文档需要用劵下载的内容

    下载百度文库中需要付费下载的文档内容 1.首先点击打开百度文库需要下载的文档 复制链接地址 2.下载冰点文库 飞机票: http://www.3322.cc/soft/5221.html 使用方法如下 ...

  9. Python爬虫实战批量下载高清美女图片,男生最爱的案例吧!

    彼岸图网站里有大量的高清图片素材和壁纸,并且可以免费下载,读者也可以根据自己需要爬取其他类型图片,方法是类似的,本文通过python爬虫批量下载网站里的高清美女图片,熟悉python写爬虫的基本方法: ...

最新文章

  1. java equals() 函数_java equals()函数与‘==’
  2. javascript中json格式转为字符串
  3. 应用内安装部分手机出现解析错误
  4. [Swift通天遁地]一、超级工具-(2)制作美观大方的环形进度条
  5. flink的watermark参考配置
  6. linux 清除mysql密码_linux重置mysql密码
  7. 关于G - Naive Operations的一些试探性想法
  8. SSLOJ 1298.网站计划
  9. 网络编程——UDP编程
  10. 如何避免由 Web 字体引起的布局偏移
  11. 安川焊接机器人做圆弧运动编程_安川MOTOMAN工业机器人编程与操作(6)
  12. 数据库查询三个以上名字重复的数据
  13. 【STM32】关于DMA控制器的介绍和使用
  14. MATLAB混度系统仿真其二:蔡氏电路系统和三阶RC梯形移相振荡器仿真
  15. 使用网络模拟器 Packet Tracer和交换机的端口配置与管理及Telnet远程登陆配置
  16. 错误码400原因总结
  17. DSPF28335学习笔记
  18. 黎明杀机一直无法连接在线服务器,黎明杀机无法连接-崩坏3IOS无法连接服务器...
  19. Mathtype添加空格
  20. 站长导航系统源码 二开优化 美观自动审核 自动获取网站信息

热门文章

  1. mac docker 安装dvwa
  2. 如何把图片无损放大?教你图片怎么无损放大
  3. sql服务器怎么删除日志文件,SQL数据库怎么删除日志ldf
  4. kindeditor上传图片配置upload_json.jsp文件出现500错误
  5. [转]解决Picasa的C盘恐龙暴涨
  6. 2019华为机试题 解析文本
  7. 迪兰恒进 RX550 2G 超能 驱动黑苹果macOS 10. 15
  8. 2018第二届中国通信业物联网大会精彩前瞻
  9. 3-1 SPIFFS
  10. 提交按钮css加样式,用CSS美化按钮(button)