python 维基百科爬虫

这是本教程的可视版:

我需要指出的是,我们不会手动抓取Wikipedia页面, Wikipedia模块已经为我们完成了艰巨的工作。 让我们安装它:

pip3 install wikipedia

打开一个Python交互式外壳或一个空文件,然后继续。

让我们总结一下什么是Python编程语言:

import wikipedia
# print the summary of what python is
print(wikipedia.summary( "Python Programming Language" ))

这将从此Wikipedia页面中提取摘要。 更具体地说,它将打印一些第一句话,我们可以指定要提取的句子数:

In [2 ]: wikipedia.summary( "Python programming languag" , sentences= 2 )
Out[ 2 ]: "Python is an interpreted, high-level, general-purpose programming language. Created by Guido van Rossum and first released in 1991, Python's design philosophy emphasizes code readability with its notable use of significant whitespace."

请注意,我故意将查询拼写错误,但仍然可以得到准确的结果。

在维基百科搜索中搜索术语:

In [3 ]: result = wikipedia.search( "Neural networks" )
In [ 4 ]: print(result)
[ 'Neural network' , 'Artificial neural network' , 'Convolutional neural network' , 'Recurrent neural network' , 'Rectifier (neural networks)' , 'Feedforward neural network' , 'Neural circuit' , 'Quantum neural network' , 'Dropout (neural networks)' , 'Types of artificial neural networks' ]

这返回了相关页面标题的列表,让我们获得“神经网络”的整个页面,即“ result [0]”:

# get the page: Neural network
page = wikipedia.page(result[0 ])

提取标题:

# get the titleof the page
title = page.title

获取该Wikipedia页面的所有类别:

# get the categoriesof the page
categories = page.categories

删除所有HTML标记后提取文本(这是自动完成的):

# get the whole wikipedia page text (content)
content = page.content

所有链接:

# get all the linksin the page
links = page.links

参考文献:

# get the page references
references = page.references

最后,总结:

# summary
summary = page.summary

让我们将它们打印出来:

# print info
print( "Page content:\n" , content, "\n" )
print( "Page title:" , title, "\n" )
print( "Categories:" , categories, "\n" )
print( "Links:" , links, "\n" )
print( "References:" , references, "\n" )
print( "Summary:" , summary, "\n" )

试试看 !

好了,我们完成了,这是关于如何使用Python从Wikipedia中提取信息的简短介绍。 如果您想自动收集语言模型的数据,回答问题的聊天机器人,围绕此创建包装应用程序等等,这将很有帮助! 可能性无穷无尽,请在下面的评论中告诉我们您的处理方法!

如果本教程有用。 给我买咖啡 -> buymeacoff.ee/gajeshnaik

翻译自: https://hackernoon.com/how-to-extract-wikipedia-data-using-python-l34l32wo

python 维基百科爬虫

python 维基百科爬虫_如何使用Python提取维基百科数据相关推荐

  1. python免费自学爬虫_这套Python爬虫学习教程,不到一天即可新手到进阶!免费领...

    想用Python做爬虫,而你却还不会Python的话,那么这些入门基础知识必不可少.很多小伙伴,特别是在学校的学生,接触到爬虫之后就感觉这个好厉害的样子,我要学.但是却完全不知道从何开始,很迷茫,学的 ...

  2. python 使用socks 爬虫_小白学 Python 爬虫(17):Requests 基础使用

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  3. python语言编写爬虫_自写Python小爬虫一个 - 『编程语言区』 - 吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn...

    [Python] 纯文本查看 复制代码import requests import re import os #类型列表 Type_list = {1:'qingchun',2:'xiaohua',3 ...

  4. Python,网络爬虫selenium与pyautogui抓取新浪微博用户数据

    Python,网络爬虫selenium与pyautogui抓取新浪微博用户数据 不需要登陆新浪微博账户,直接运行就可以通过python爬虫爬取新浪微博用户数据.本例selenium与pyautogui ...

  5. python爬取百度百科表格_第一个python爬虫(python3爬取百度百科1000个页面)

    以下内容参考自:http://www.imooc.com/learn/563 一.爬虫简介 爬虫:一段自动抓取互联网信息的程序 爬虫可以从一个url出发,访问其所关联的所有的url.并从每个url指向 ...

  6. python 百度百科 爬虫_爬虫爬取百度百科数据

    以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...

  7. python人人贷爬虫_爬取人人贷网上部分借贷信息以及数据可视化

    一.主题式网络爬虫设计方案:爬取人人贷网上部分借贷信息 1.主题式网络爬虫名称:爬取人人贷网上部分信息 2.主题式网络爬虫的内容与数据特征分析:爬取人人贷部分信息数据,借贷信息 3.主题式网络爬虫设计 ...

  8. python博客访问量_史诗级干货-python爬虫之增加CSDN访问量

    AI 人工智能 史诗级干货-python爬虫之增加CSDN访问量 史诗级干货-python爬虫之增加CSDN访问量 搜索微信公众号:'AI-ming3526'或者'计算机视觉这件小事' 获取更多算法. ...

  9. python微博评论爬虫_详解用python写网络爬虫-爬取新浪微博评论 基于Python的新浪微博爬虫研究...

    怎样爬取新浪微博的评论信息 针对八爪鱼在微博的应用上,除了用户信息之外还包括话题内容方面的采集,目前绝大多数企业均在微博设有官方微博,八爪鱼可以协助企业快速及时的抓取与企业产品相关联的话题信息,规则市 ...

最新文章

  1. 读书笔记:《Aspx开发200问》——如何实现Repeater控件的分页
  2. 管你MySQL还是Oracle,数据库管理就完事了
  3. laravel5.6 Session
  4. make 命令_Vim 命令大全
  5. 简单干净的C#方法设计案例:SFCUI.AjaxLoadPage()之一
  6. 【知云】第六期:数据级异地容灾如何实现?阿里云帮你打通数据的“任督二脉”...
  7. oracle10gr2安装教程,Solaris10安装Oracle10gR2时的注意事项
  8. linux DISPLAY变量
  9. stringbuffer java API_java API中Object,String,Stringbuffer,StringBuilder的总结
  10. 计算机无法卸载软件,电脑安装的软件无法卸载怎么办?
  11. HDU - 5699(79/600)
  12. 芯片达人教你如何看数据手册
  13. tspl 重置打印机命令_打印机取消任务命令
  14. 第三章第二十一题(科学:某天是星期几)(Science: day of the week)
  15. 实战一个项目后,谈谈 Rust 语言的优点和缺点
  16. Source Insight前进和后退(返回上一步)快捷键
  17. spin_lock浅析
  18. web前端svg图标使用(关于阿里iconfont的symbol 引用)
  19. 蓝牙4.0 BLE协议结构图详解
  20. w ndows7如何卸载,Windows7系统如何卸载软件?

热门文章

  1. GSoC 2022 Blender VSE: 第二、三周总结
  2. python的实验报告大一心理_python的期末实验报告
  3. 什么是数据类型?数据类型有什么用?
  4. 数据结构之图(二)——邻接矩阵
  5. 番茄花园 Ghost XP SP3 2012 06 电脑城极速装机版
  6. ORACLE SQL Tuning Advisor
  7. 如何查看Linux系统的版本
  8. 微信公众号:开发者工具下载、安装、使用
  9. IDEA 的Diagrams查看类图关系很 乱,一键自动布局
  10. React 中使用 render props