我们知道,百度百科一般极少收录英文词条

类似的,很容易想到爬取维基百科,思路也和爬取百度百科一样,只需处理一下请求地址和返回结果就好

下面也是直接放上代码,有不明白的地方可以看看注释:

from lxml import etree
import urllib.request
import urllib.parse
'''
遇到不懂的问题?Python学习交流群:1136201545满足你的需求,资料都已经上传群文件,可以自行下载!
'''
def query(content):# 请求地址url = 'https://en.wikipedia.org/wiki/' + content# 请求头部headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36' }# 利用请求地址和请求头部构造请求对象req = urllib.request.Request(url=url, headers=headers, method='GET')# 发送请求,获得响应response = urllib.request.urlopen(req)# 读取响应,获得文本text = response.read().decode('utf-8')# 构造 _Element 对象html = etree.HTML(text)# 使用 xpath 匹配数据,得到 <div class="mw-parser-output"> 下所有的子节点对象obj_list = html.xpath('//div[@class="mw-parser-output"]/*')# 在所有的子节点对象中获取有用的 <p> 节点对象for i in range(0,len(obj_list)):if 'p' == obj_list[i].tag:start = ibreakfor i in range(start,len(obj_list)):if 'p' != obj_list[i].tag:end = ibreakp_list = obj_list[start:end]# 使用 xpath 匹配数据,得到 <p> 下所有的文本节点对象sen_list_list = [obj.xpath('.//text()') for obj in p_list]# 将文本节点对象转化为字符串列表sen_list = [sen.encode('utf-8').decode() for sen_list in sen_list_list for sen in sen_list]# 过滤数据,去掉空白sen_list_after_filter = [item.strip('\n') for item in sen_list]# 将字符串列表连成字符串并返回return ''.join(sen_list_after_filter)if __name__ == '__main__':while (True):content = input('Word: ')result = query(content)print("Result: %s" % result)

下面是效果演示:

OK,大功告成!

Python爬虫实战:爬取维基百科相关推荐

  1. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  2. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  3. python爬虫实战-爬取视频网站下载视频至本地(selenium)

    #python爬虫实战-爬取视频网站下载视频至本地(selenium) import requests from lxml import etree import json from selenium ...

  4. python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

    http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...

  5. [python学习] 简单爬取维基百科程序语言消息盒

    文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是 ...

  6. python爬虫实战--爬取猫眼专业版-实时票房

    小白级别的爬虫入门 最近闲来无事,发现了猫眼专业版-实时票房,可以看到在猫眼上映电影的票房数据,便验证自己之前学的python爬虫,爬取数据,做成.svg文件. 爬虫开始之前 我们先来看看猫眼专业版- ...

  7. python爬虫实战-爬取小说

    今天做一个爬虫练手的小实战:爬取顶点小说网的小说,实现下载到本地(虽然网站上本来就可以下载,不过还是自己写代码来有成就感嘛!) 爬取网站 进入官网后,点击元尊,就爬取这本书了. 我们先把整个网页爬下来 ...

  8. Python爬虫实战——爬取RUNOOB.COM的Python3教程

    说明 关于Python开发环境搭建,可参考博主的另一篇博文-Visual Studio 2017搭配OpenCV之Python环境,省去其中的OpenCV配置及安装即可.另外,在做Python爬虫项目 ...

  9. Python爬虫实战- 爬取整个网站112G-8000本pdf epub格式电子书下载

    (整个代码附在最后) 目录: 爬虫准备 - 某电子书网站内容架构分析 爬虫前奏 - 网站Html代码分析,如何获取需要的链接? 爬虫高潮 - 测试是否有反爬虫措施,测试是否能正常下载一个sample ...

  10. python爬虫淘宝实例-Python——爬虫实战 爬取淘宝店铺内所有宝贝图片

    之前用四篇很啰嗦的入门级别的文章,带着大家一起去了解并学习在编写爬虫的过程中,最基本的几个库的用法. 那么今天,我们就正式开始我们的第一篇实战内容,爬取一整个淘宝店铺里的所有宝贝的详情页,并且把详情页 ...

最新文章

  1. 数据结构 ---- 链表
  2. [Deep-Learning-with-Python]神经网络入手学习[上]
  3. Dubbo3.0|阿里巴巴服务框架三位一体的选择与实践
  4. 关于同源策略的一些想法
  5. android蓝牙多次后,android – 如何防止BluetoothGattCallback一次多次执行
  6. SSL/TLS 配置
  7. Patsy库查看使用公式语法建模后的输入特征X 与 预测Y
  8. php可以改jsp吗,把默认的php路径改成jsp
  9. 照葫芦画瓢之老男孩购物车程序
  10. android耳机孔状态设置,android 耳机系统笔记2 --多媒体设备各种状态
  11. y53拆机视频教程_vivoY53L拆机图赏
  12. harbor 多端口_Harbor使用 -- 修改80端口
  13. Flask 参数简介
  14. 康托展开、康托逆展开原理
  15. RocketMQ源码 — 二、 NameServer
  16. python(3)-内置函数2
  17. matlab——diff函数
  18. 删除magisk模块
  19. 一、VMware及win10虚拟机的安装及环境配置
  20. Go语言之父谈Go:大道至简

热门文章

  1. 最简单明了的QQ在线客服代码
  2. 网页聊天窗口的自动输入内容及自动发送
  3. 关于谷歌浏览器加载不显示验证码的解决办法
  4. Seurat-单细胞文献复现第二弹-01
  5. Windows平台mantis安装
  6. windows下开启文件共享的访问日志
  7. 大明:讲解硬盘ESP分区和MSR分区有什么用?值得收藏
  8. mima接收数据时粘包和大小端问题解决方案具体实现
  9. mac BigSur修改系统文件方法
  10. java常见的5个异常_Java中常见的五种异常