selenium爬取维基百科信息
目录
- selenium爬取维基百科信息
- 软件和包的安装
- 爬取某一固定网页的维基百科数据
selenium爬取维基百科信息
Selenium调用Firefox浏览器进行数据采集。
操作环境:JetBrains PyCharm 2018.2.2 x64编译器,Python 3.6
软件和包的安装
- 安装Firefox浏览器(使用默认路径安装);
- 安装下载geckodriver(Firefox的官方Webdriver),下载地址为:https://github.com/mozilla/geckodriver/releases ,将geckodriver.exe文件放在python的根目录下面,否则会出错;
- 在pycharm编译器中安装selenium包;
- 测试是否安装成功;
from selenium import webdriverbrowser = webdriver.Firefox()
如果火狐浏览器自动打开,则说明配置成功。
爬取某一固定网页的维基百科数据
首先,使用web开发者工具查看网页的结构.
然后,使用webdriver打开浏览器,使用get()函数打开网址,精心路径定位,爬取数据。
from selenium import webdriver
import time
import pandas as pdbrowser = webdriver.Firefox()url="https://www.wikiwand.com/zh-hans/"
word = "国王与我"
browser.get(url+word)
browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
# 定位到 li 标签
title = browser.find_elements_by_xpath("//*[@id='overview']/p")
introduction = browser.find_elements_by_xpath("/html/body/div[2]/div[1]/article/div/section[1]/p")
print(title, '\n', introduction, '\n', plot, '\n')
参考教程:
[1]: https://yq.aliyun.com/articles/26033
selenium爬取维基百科信息相关推荐
- [python学习] 简单爬取维基百科程序语言消息盒
文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是 ...
- 数据结构思维 第十五章 爬取维基百科
第十五章 爬取维基百科 原文:Chapter 15 Crawling Wikipedia 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 在本章中,我展示了上一个练习的解决方案, ...
- layui获取input信息_python爬虫—用selenium爬取京东商品信息
python爬虫--用selenium爬取京东商品信息 1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Hea ...
- java 爬 维基百科_爬取维基百科词条
python爬取维基百科词条,获得某词汇页面中释义段落的加粗词汇.链接词汇以及所爬词汇对应的分类,为自动构建同义词汇树准备数据. 以下代码可能为一次性代码,因为解析html靠的是标签的相对位置,维基百 ...
- Python爬虫实战:爬取维基百科
我们知道,百度百科一般极少收录英文词条 类似的,很容易想到爬取维基百科,思路也和爬取百度百科一样,只需处理一下请求地址和返回结果就好 下面也是直接放上代码,有不明白的地方可以看看注释: from lx ...
- winform模拟登陆网页_Python爬虫使用selenium爬取群成员信息(全自动实现自动登陆)...
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: python小爬虫 PS:如有需要Python学习资料的小伙伴可以 ...
- python3+selenium爬取笔记本电脑详情信息
python3+selenium爬取购物商店 准备工作 分析 url xpath 附完整代码 准备工作 # 用到的包 selenium #Web自动化测试工具 urllib #URL地址中查询参数进行 ...
- Python爬虫使用selenium爬取天猫商品信息
文章目录 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我 ...
- selenium爬取京东商品信息
开始编写代码之前你应了解ajax 和python基础语法和库,知道异步加载!熟悉html,js.本人ide用的是vscode,浏览器是chrome,python3.7,主要用到了selenium自动化 ...
- 使用Python + selenium爬取51Tracking订单信息
使用Python + selenium爬取51Tracking国际物流订单信息 --以XDP Express订单为例 一.准备数据 见XDP.xlsx存储内容,示例如: Order code ZWAW ...
最新文章
- hdu 1272 小希的迷宫
- Python Scrapy爬虫框架实战应用
- 归并排序之——二路归并(c/c++)
- 今晚直播 | 商汤科技X-Lab刘宇:神经网络结构与大规模优化方法
- java中GUI的awt和Swing的知识点
- Graph + AI 2021全球峰会圆满落幕 TigerGraph企业版3.2发布
- js 值类型和引用类型
- 【java学习之路】(javaWeb【后端】篇)002.Servlet
- WebMagic springboot 多站点垂直数据采集(支持插队采集)
- 简明理解 行列式和秩
- java %取余数_计算机取余数java
- NLP领域表达退化各向异性理解及对应策略总结
- 【程序人生】这是 2017 关于程序员薪酬最详尽的调查报告
- 使用turtle库,绘制一个正方形。
- 数据包接收系列 — 数据包的接收过程(宏观整体)
- Electron 简介
- 信息系统项目管理师EV、PV、AC、BAC、CV、SV、EAC、ETC、CPI、SPI各是什么意思
- stm32f4xx标准外设固件库
- adb: failed to install app-debug.apk: Failure [INSTALL_FAILED_ABORTED: User rejected permissions]
- 【夜读】不要让今天的懒,成为你明天的难