目录

  • selenium爬取维基百科信息
    • 软件和包的安装
    • 爬取某一固定网页的维基百科数据

selenium爬取维基百科信息

Selenium调用Firefox浏览器进行数据采集。

操作环境:JetBrains PyCharm 2018.2.2 x64编译器,Python 3.6

软件和包的安装

  1. 安装Firefox浏览器(使用默认路径安装);
  2. 安装下载geckodriver(Firefox的官方Webdriver),下载地址为:https://github.com/mozilla/geckodriver/releases ,将geckodriver.exe文件放在python的根目录下面,否则会出错
  3. 在pycharm编译器中安装selenium包;
  4. 测试是否安装成功;
from selenium import webdriverbrowser = webdriver.Firefox()

如果火狐浏览器自动打开,则说明配置成功。

爬取某一固定网页的维基百科数据

首先,使用web开发者工具查看网页的结构.

然后,使用webdriver打开浏览器,使用get()函数打开网址,精心路径定位,爬取数据。

from selenium import webdriver
import time
import pandas as pdbrowser = webdriver.Firefox()url="https://www.wikiwand.com/zh-hans/"
word = "国王与我"
browser.get(url+word)
browser.execute_script("window.scrollTo(0, document.body.scrollHeight);")
# 定位到 li 标签
title = browser.find_elements_by_xpath("//*[@id='overview']/p")
introduction = browser.find_elements_by_xpath("/html/body/div[2]/div[1]/article/div/section[1]/p")
print(title, '\n', introduction, '\n', plot, '\n')

参考教程:
[1]: https://yq.aliyun.com/articles/26033

selenium爬取维基百科信息相关推荐

  1. [python学习] 简单爬取维基百科程序语言消息盒

    文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是 ...

  2. 数据结构思维 第十五章 爬取维基百科

    第十五章 爬取维基百科 原文:Chapter 15 Crawling Wikipedia 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 在本章中,我展示了上一个练习的解决方案, ...

  3. layui获取input信息_python爬虫—用selenium爬取京东商品信息

    python爬虫--用selenium爬取京东商品信息 1.先附上效果图(我偷懒只爬了4页) 2.京东的网址https://www.jd.com/ 3.我这里是不加载图片,加快爬取速度,也可以用Hea ...

  4. java 爬 维基百科_爬取维基百科词条

    python爬取维基百科词条,获得某词汇页面中释义段落的加粗词汇.链接词汇以及所爬词汇对应的分类,为自动构建同义词汇树准备数据. 以下代码可能为一次性代码,因为解析html靠的是标签的相对位置,维基百 ...

  5. Python爬虫实战:爬取维基百科

    我们知道,百度百科一般极少收录英文词条 类似的,很容易想到爬取维基百科,思路也和爬取百度百科一样,只需处理一下请求地址和返回结果就好 下面也是直接放上代码,有不明白的地方可以看看注释: from lx ...

  6. winform模拟登陆网页_Python爬虫使用selenium爬取群成员信息(全自动实现自动登陆)...

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: python小爬虫 PS:如有需要Python学习资料的小伙伴可以 ...

  7. python3+selenium爬取笔记本电脑详情信息

    python3+selenium爬取购物商店 准备工作 分析 url xpath 附完整代码 准备工作 # 用到的包 selenium #Web自动化测试工具 urllib #URL地址中查询参数进行 ...

  8. Python爬虫使用selenium爬取天猫商品信息

    文章目录 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这三类人,我 ...

  9. selenium爬取京东商品信息

    开始编写代码之前你应了解ajax 和python基础语法和库,知道异步加载!熟悉html,js.本人ide用的是vscode,浏览器是chrome,python3.7,主要用到了selenium自动化 ...

  10. 使用Python + selenium爬取51Tracking订单信息

    使用Python + selenium爬取51Tracking国际物流订单信息 --以XDP Express订单为例 一.准备数据 见XDP.xlsx存储内容,示例如: Order code ZWAW ...

最新文章

  1. hdu 1272 小希的迷宫
  2. Python Scrapy爬虫框架实战应用
  3. 归并排序之——二路归并(c/c++)
  4. 今晚直播 | 商汤科技X-Lab刘宇:神经网络结构与大规模优化方法
  5. java中GUI的awt和Swing的知识点
  6. Graph + AI 2021全球峰会圆满落幕 TigerGraph企业版3.2发布
  7. js 值类型和引用类型
  8. 【java学习之路】(javaWeb【后端】篇)002.Servlet
  9. WebMagic springboot 多站点垂直数据采集(支持插队采集)
  10. 简明理解 行列式和秩
  11. java %取余数_计算机取余数java
  12. NLP领域表达退化各向异性理解及对应策略总结
  13. 【程序人生】这是 2017 关于程序员薪酬最详尽的调查报告
  14. 使用turtle库,绘制一个正方形。
  15. 数据包接收系列 — 数据包的接收过程(宏观整体)
  16. Electron 简介
  17. 信息系统项目管理师EV、PV、AC、BAC、CV、SV、EAC、ETC、CPI、SPI各是什么意思
  18. stm32f4xx标准外设固件库
  19. adb: failed to install app-debug.apk: Failure [INSTALL_FAILED_ABORTED: User rejected permissions]
  20. 【夜读】不要让今天的懒,成为你明天的难

热门文章

  1. SVD奇异值分解简述
  2. Latex表格排版大全 基于 IEEE双栏论文(设置单元格行列间距,自动换行设置)
  3. 如何设置电脑的固定IP地址
  4. 一文读懂!最新Transformer预训练模型综述!
  5. ap9h4qmo.exe
  6. 【JAVA面试题-阿辉】try catch finally , try 里有 return , finally 还执行么?
  7. 【5G核心网】 Network slicing 网络切片
  8. 解决文件不显示后缀名的问题
  9. AI笔记: 数学基础之齐次与非齐次线性方程组解的结构定理
  10. 一起学Python_Day05_常用模块及相关操作