selenium爬取维基百科信息

Selenium调用Firefox浏览器进行数据采集。

操作环境：JetBrains PyCharm 2018.2.2 x64编译器，Python 3.6

软件和包的安装

安装Firefox浏览器（使用默认路径安装）；
安装下载geckodriver(Firefox的官方Webdriver)，下载地址为：https://github.com/mozilla/geckodriver/releases ，将geckodriver.exe文件放在python的根目录下面，否则会出错；
在pycharm编译器中安装selenium包；
测试是否安装成功；

from selenium import webdriverbrowser = webdriver.Firefox()

如果火狐浏览器自动打开，则说明配置成功。

爬取某一固定网页的维基百科数据

首先，使用web开发者工具查看网页的结构.

然后，使用webdriver打开浏览器，使用get（）函数打开网址，精心路径定位，爬取数据。

from selenium import webdriver
import time
import pandas as pdbrowser = webdriver.Firefox()url="https://www.wikiwand.com/zh-hans/"
word = "国王与我"
browser.get(url+word)
browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
# 定位到 li 标签
title = browser.find_elements_by_xpath("//*[@id='overview']/p")
introduction = browser.find_elements_by_xpath("/html/body/div[2]/div[1]/article/div/section[1]/p")
print(title, '\n', introduction, '\n', plot, '\n')

参考教程:
[1]: https://yq.aliyun.com/articles/26033

selenium爬取维基百科信息相关推荐

[python学习] 简单爬取维基百科程序语言消息盒
文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是 ...
数据结构思维第十五章爬取维基百科
第十五章爬取维基百科原文:Chapter 15 Crawling Wikipedia 译者:飞龙协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译在本章中,我展示了上一个练习的解决方案, ...
layui获取input信息_python爬虫—用selenium爬取京东商品信息
python爬虫--用selenium爬取京东商品信息 1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Hea ...
java 爬维基百科_爬取维基百科词条
python爬取维基百科词条,获得某词汇页面中释义段落的加粗词汇.链接词汇以及所爬词汇对应的分类,为自动构建同义词汇树准备数据. 以下代码可能为一次性代码,因为解析html靠的是标签的相对位置,维基百 ...
Python爬虫实战：爬取维基百科
我们知道,百度百科一般极少收录英文词条类似的,很容易想到爬取维基百科,思路也和爬取百度百科一样,只需处理一下请求地址和返回结果就好下面也是直接放上代码,有不明白的地方可以看看注释: from lx ...
winform模拟登陆网页_Python爬虫使用selenium爬取群成员信息（全自动实现自动登陆）...
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: python小爬虫 PS:如有需要Python学习资料的小伙伴可以 ...
python3+selenium爬取笔记本电脑详情信息
python3+selenium爬取购物商店准备工作分析 url xpath 附完整代码准备工作 # 用到的包 selenium #Web自动化测试工具 urllib #URL地址中查询参数进行 ...
Python爬虫使用selenium爬取天猫商品信息
文章目录很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我 ...
selenium爬取京东商品信息
开始编写代码之前你应了解ajax 和python基础语法和库,知道异步加载!熟悉html,js.本人ide用的是vscode,浏览器是chrome,python3.7,主要用到了selenium自动化 ...
使用Python + selenium爬取51Tracking订单信息
使用Python + selenium爬取51Tracking国际物流订单信息 --以XDP Express订单为例一.准备数据见XDP.xlsx存储内容,示例如: Order code ZWAW ...

selenium爬取维基百科信息

目录

selenium爬取维基百科信息

软件和包的安装

爬取某一固定网页的维基百科数据

selenium爬取维基百科信息相关推荐

最新文章

热门文章