python爬虫实战:selenium下载百度文库文档
利用selenium进行页面操作
草草地写了一下,文字是爬下来了,但是还有格式等问题,遇到复杂的文档可能不通用,有点蛋疼。
用安卓模拟登陆,让页面简单一点,电脑网页有点复杂。
之后有空再来改进
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
from selenium import webdriveroptions = webdriver.ChromeOptions()
options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
driver = webdriver.Chrome(chrome_options = options)
driver.get('https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html')
gap = driver.find_element_by_xpath("//div[@class='foldpagewg-text-con']")
driver.execute_script("arguments[0].scrollIntoView();", gap)
go_on = driver.find_element_by_xpath("//div[@class='foldpagewg-text']")
go_on.click()
# gap2 = driver.find_element_by_xpath()html = driver.page_source
bf1 = BeautifulSoup(html, 'lxml')
result = bf1.find_all("div", class_="content singlePage wk-container")for para in result:plist = para.find_all("p", class_="txt")for item in plist:strings = item.stripped_stringsfor string in strings:print(string)
在webdriver里设置ip方便很多,但是貌似打不开。。。不清楚为什么
from selenium import webdriverchrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) ''AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
chrome_options.add_argument("--proxy-server=http://183.62.22.220:3128")
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get("https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html")
python爬虫实战:selenium下载百度文库文档相关推荐
- 爬虫生活实录之---百度文库文档破解
帮同学找考试相关资料的时候瞄上了百度文库(百度文库找期末考的试卷确实特别方便),不想出钱又不想下冰点,复制粘贴还嫌累,灵机一动想用爬虫来解决这个问题.2333我凭本事爬的文档为什么要给钱 目标:搞定百 ...
- python爬虫实战——自动下载百度图片(文末附源码)
用Python制作一个下载图片神器 前言 这个想法是怎么来的? 很简单,就是不想一张一张的下载图片,嫌太慢. 在很久很久以前,我比较喜欢收集各种动漫的壁纸,作为一个漫迷,自然是能收集多少就收集多少.小 ...
- Python爬虫实战(五) :下载百度贴吧帖子里的所有图片
准备工作: 目标网址:https://tieba.baidu.com/p/5113603072 目的: 下载该页面上的所有楼层里的照片 第一步:分析网页源码 火狐浏览器 ---> 在该页 ...
- python爬虫实现批量下载百度图片
今天和小伙伴们合作一个小项目,需要用到景点图片作为数据源,在百度上搜索了一些图片,感觉一个一个手动保存太过麻烦,于是想到用爬虫来下载图片. 本次代码用到了下列一些python模块,需要预先安装Beau ...
- 百度文库文档(文字和图片)
百度文库文档(文字和图片) 背景 思路 预览效果 代码 代码解析 改进方向 参考资料 免责申明 背景 我想很多人会有与我一样的经历,想复制百度文库的内容却发现要开会员,天下苦百度文库久矣,本是广大网友 ...
- 文秀才文档管理系统文档管理,CAD, 图纸管理, 百度文库, 文档在线预览
原文来自 http://www.fanganwang.com/Product-detail-item-1440.html,欢迎转载. 关键字:文档管理,CAD, 图纸管理, 百度文库, 文档在线预览 ...
- SpringBoot实现百度文库文档上传,通俗易懂适合萌新
介绍 最近项目需要将word文档上传到百度文库,所以去百度智能云上看了下API,发现居然没有,而且百度文库的文章在网上居然没多少人发教程.所以这个文章是发下如何将word上传到百度文库上,因为我经常去 ...
- 如何下载百度云文档需要用劵下载的内容
下载百度文库中需要付费下载的文档内容 1.首先点击打开百度文库需要下载的文档 复制链接地址 2.下载冰点文库 飞机票: http://www.3322.cc/soft/5221.html 使用方法如下 ...
- Python爬虫实战批量下载高清美女图片,男生最爱的案例吧!
彼岸图网站里有大量的高清图片素材和壁纸,并且可以免费下载,读者也可以根据自己需要爬取其他类型图片,方法是类似的,本文通过python爬虫批量下载网站里的高清美女图片,熟悉python写爬虫的基本方法: ...
最新文章
- java equals() 函数_java equals()函数与‘==’
- javascript中json格式转为字符串
- 应用内安装部分手机出现解析错误
- [Swift通天遁地]一、超级工具-(2)制作美观大方的环形进度条
- flink的watermark参考配置
- linux 清除mysql密码_linux重置mysql密码
- 关于G - Naive Operations的一些试探性想法
- SSLOJ 1298.网站计划
- 网络编程——UDP编程
- 如何避免由 Web 字体引起的布局偏移
- 安川焊接机器人做圆弧运动编程_安川MOTOMAN工业机器人编程与操作(6)
- 数据库查询三个以上名字重复的数据
- 【STM32】关于DMA控制器的介绍和使用
- MATLAB混度系统仿真其二:蔡氏电路系统和三阶RC梯形移相振荡器仿真
- 使用网络模拟器 Packet Tracer和交换机的端口配置与管理及Telnet远程登陆配置
- 错误码400原因总结
- DSPF28335学习笔记
- 黎明杀机一直无法连接在线服务器,黎明杀机无法连接-崩坏3IOS无法连接服务器...
- Mathtype添加空格
- 站长导航系统源码 二开优化 美观自动审核 自动获取网站信息