python爬虫实战：selenium下载百度文库文档

利用selenium进行页面操作

草草地写了一下，文字是爬下来了，但是还有格式等问题，遇到复杂的文档可能不通用，有点蛋疼。
用安卓模拟登陆，让页面简单一点，电脑网页有点复杂。
之后有空再来改进

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
from selenium import webdriveroptions = webdriver.ChromeOptions()
options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
driver = webdriver.Chrome(chrome_options = options)
driver.get('https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html')
gap = driver.find_element_by_xpath("//div[@class='foldpagewg-text-con']")
driver.execute_script("arguments[0].scrollIntoView();", gap)
go_on = driver.find_element_by_xpath("//div[@class='foldpagewg-text']")
go_on.click()
# gap2 = driver.find_element_by_xpath()html = driver.page_source
bf1 = BeautifulSoup(html, 'lxml')
result = bf1.find_all("div", class_="content singlePage wk-container")for para in result:plist = para.find_all("p", class_="txt")for item in plist:strings = item.stripped_stringsfor string in strings:print(string)

在webdriver里设置ip方便很多，但是貌似打不开。。。不清楚为什么

from selenium import webdriverchrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) ''AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"')
chrome_options.add_argument("--proxy-server=http://183.62.22.220:3128")
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get("https://wenku.baidu.com/view/aa31a84bcf84b9d528ea7a2c.html")

python爬虫实战：selenium下载百度文库文档相关推荐

爬虫生活实录之---百度文库文档破解
帮同学找考试相关资料的时候瞄上了百度文库(百度文库找期末考的试卷确实特别方便),不想出钱又不想下冰点,复制粘贴还嫌累,灵机一动想用爬虫来解决这个问题.2333我凭本事爬的文档为什么要给钱目标:搞定百 ...
python爬虫实战——自动下载百度图片（文末附源码）
用Python制作一个下载图片神器前言这个想法是怎么来的? 很简单,就是不想一张一张的下载图片,嫌太慢. 在很久很久以前,我比较喜欢收集各种动漫的壁纸,作为一个漫迷,自然是能收集多少就收集多少.小 ...
Python爬虫实战(五) :下载百度贴吧帖子里的所有图片
准备工作: 目标网址:https://tieba.baidu.com/p/5113603072 目的: 下载该页面上的所有楼层里的照片第一步:分析网页源码火狐浏览器 ---> 在该页 ...
python爬虫实现批量下载百度图片
今天和小伙伴们合作一个小项目,需要用到景点图片作为数据源,在百度上搜索了一些图片,感觉一个一个手动保存太过麻烦,于是想到用爬虫来下载图片. 本次代码用到了下列一些python模块,需要预先安装Beau ...
百度文库文档（文字和图片）
百度文库文档(文字和图片) 背景思路预览效果代码代码解析改进方向参考资料免责申明背景我想很多人会有与我一样的经历,想复制百度文库的内容却发现要开会员,天下苦百度文库久矣,本是广大网友 ...
文秀才文档管理系统文档管理,CAD, 图纸管理, 百度文库, 文档在线预览
原文来自 http://www.fanganwang.com/Product-detail-item-1440.html,欢迎转载. 关键字:文档管理,CAD, 图纸管理, 百度文库, 文档在线预览 ...
SpringBoot实现百度文库文档上传，通俗易懂适合萌新
介绍最近项目需要将word文档上传到百度文库,所以去百度智能云上看了下API,发现居然没有,而且百度文库的文章在网上居然没多少人发教程.所以这个文章是发下如何将word上传到百度文库上,因为我经常去 ...
如何下载百度云文档需要用劵下载的内容
下载百度文库中需要付费下载的文档内容 1.首先点击打开百度文库需要下载的文档复制链接地址 2.下载冰点文库飞机票: http://www.3322.cc/soft/5221.html 使用方法如下 ...
Python爬虫实战批量下载高清美女图片，男生最爱的案例吧！
彼岸图网站里有大量的高清图片素材和壁纸,并且可以免费下载,读者也可以根据自己需要爬取其他类型图片,方法是类似的,本文通过python爬虫批量下载网站里的高清美女图片,熟悉python写爬虫的基本方法: ...

python爬虫实战：selenium下载百度文库文档

利用selenium进行页面操作

python爬虫实战：selenium下载百度文库文档相关推荐

最新文章

热门文章