python 维基百科爬虫_如何使用Python提取维基百科数据
python 维基百科爬虫
这是本教程的可视版:
我需要指出的是,我们不会手动抓取Wikipedia页面, Wikipedia模块已经为我们完成了艰巨的工作。 让我们安装它:
pip3 install wikipedia
打开一个Python交互式外壳或一个空文件,然后继续。
让我们总结一下什么是Python编程语言:
import wikipedia
# print the summary of what python is
print(wikipedia.summary( "Python Programming Language" ))
这将从此Wikipedia页面中提取摘要。 更具体地说,它将打印一些第一句话,我们可以指定要提取的句子数:
In [2 ]: wikipedia.summary( "Python programming languag" , sentences= 2 )
Out[ 2 ]: "Python is an interpreted, high-level, general-purpose programming language. Created by Guido van Rossum and first released in 1991, Python's design philosophy emphasizes code readability with its notable use of significant whitespace."
请注意,我故意将查询拼写错误,但仍然可以得到准确的结果。
在维基百科搜索中搜索术语:
In [3 ]: result = wikipedia.search( "Neural networks" )
In [ 4 ]: print(result)
[ 'Neural network' , 'Artificial neural network' , 'Convolutional neural network' , 'Recurrent neural network' , 'Rectifier (neural networks)' , 'Feedforward neural network' , 'Neural circuit' , 'Quantum neural network' , 'Dropout (neural networks)' , 'Types of artificial neural networks' ]
这返回了相关页面标题的列表,让我们获得“神经网络”的整个页面,即“ result [0]”:
# get the page: Neural network
page = wikipedia.page(result[0 ])
提取标题:
# get the titleof the page
title = page.title
获取该Wikipedia页面的所有类别:
# get the categoriesof the page
categories = page.categories
删除所有HTML标记后提取文本(这是自动完成的):
# get the whole wikipedia page text (content)
content = page.content
所有链接:
# get all the linksin the page
links = page.links
参考文献:
# get the page references
references = page.references
最后,总结:
# summary
summary = page.summary
让我们将它们打印出来:
# print info
print( "Page content:\n" , content, "\n" )
print( "Page title:" , title, "\n" )
print( "Categories:" , categories, "\n" )
print( "Links:" , links, "\n" )
print( "References:" , references, "\n" )
print( "Summary:" , summary, "\n" )
试试看 !
好了,我们完成了,这是关于如何使用Python从Wikipedia中提取信息的简短介绍。 如果您想自动收集语言模型的数据,回答问题的聊天机器人,围绕此创建包装应用程序等等,这将很有帮助! 可能性无穷无尽,请在下面的评论中告诉我们您的处理方法!
如果本教程有用。 给我买咖啡 -> buymeacoff.ee/gajeshnaik
翻译自: https://hackernoon.com/how-to-extract-wikipedia-data-using-python-l34l32wo
python 维基百科爬虫
python 维基百科爬虫_如何使用Python提取维基百科数据相关推荐
- python免费自学爬虫_这套Python爬虫学习教程,不到一天即可新手到进阶!免费领...
想用Python做爬虫,而你却还不会Python的话,那么这些入门基础知识必不可少.很多小伙伴,特别是在学校的学生,接触到爬虫之后就感觉这个好厉害的样子,我要学.但是却完全不知道从何开始,很迷茫,学的 ...
- python 使用socks 爬虫_小白学 Python 爬虫(17):Requests 基础使用
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- python语言编写爬虫_自写Python小爬虫一个 - 『编程语言区』 - 吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn...
[Python] 纯文本查看 复制代码import requests import re import os #类型列表 Type_list = {1:'qingchun',2:'xiaohua',3 ...
- Python,网络爬虫selenium与pyautogui抓取新浪微博用户数据
Python,网络爬虫selenium与pyautogui抓取新浪微博用户数据 不需要登陆新浪微博账户,直接运行就可以通过python爬虫爬取新浪微博用户数据.本例selenium与pyautogui ...
- python爬取百度百科表格_第一个python爬虫(python3爬取百度百科1000个页面)
以下内容参考自:http://www.imooc.com/learn/563 一.爬虫简介 爬虫:一段自动抓取互联网信息的程序 爬虫可以从一个url出发,访问其所关联的所有的url.并从每个url指向 ...
- python 百度百科 爬虫_爬虫爬取百度百科数据
以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...
- python人人贷爬虫_爬取人人贷网上部分借贷信息以及数据可视化
一.主题式网络爬虫设计方案:爬取人人贷网上部分借贷信息 1.主题式网络爬虫名称:爬取人人贷网上部分信息 2.主题式网络爬虫的内容与数据特征分析:爬取人人贷部分信息数据,借贷信息 3.主题式网络爬虫设计 ...
- python博客访问量_史诗级干货-python爬虫之增加CSDN访问量
AI 人工智能 史诗级干货-python爬虫之增加CSDN访问量 史诗级干货-python爬虫之增加CSDN访问量 搜索微信公众号:'AI-ming3526'或者'计算机视觉这件小事' 获取更多算法. ...
- python微博评论爬虫_详解用python写网络爬虫-爬取新浪微博评论 基于Python的新浪微博爬虫研究...
怎样爬取新浪微博的评论信息 针对八爪鱼在微博的应用上,除了用户信息之外还包括话题内容方面的采集,目前绝大多数企业均在微博设有官方微博,八爪鱼可以协助企业快速及时的抓取与企业产品相关联的话题信息,规则市 ...
最新文章
- 读书笔记:《Aspx开发200问》——如何实现Repeater控件的分页
- 管你MySQL还是Oracle,数据库管理就完事了
- laravel5.6 Session
- make 命令_Vim 命令大全
- 简单干净的C#方法设计案例:SFCUI.AjaxLoadPage()之一
- 【知云】第六期:数据级异地容灾如何实现?阿里云帮你打通数据的“任督二脉”...
- oracle10gr2安装教程,Solaris10安装Oracle10gR2时的注意事项
- linux DISPLAY变量
- stringbuffer java API_java API中Object,String,Stringbuffer,StringBuilder的总结
- 计算机无法卸载软件,电脑安装的软件无法卸载怎么办?
- HDU - 5699(79/600)
- 芯片达人教你如何看数据手册
- tspl 重置打印机命令_打印机取消任务命令
- 第三章第二十一题(科学:某天是星期几)(Science: day of the week)
- 实战一个项目后,谈谈 Rust 语言的优点和缺点
- Source Insight前进和后退(返回上一步)快捷键
- spin_lock浅析
- web前端svg图标使用(关于阿里iconfont的symbol 引用)
- 蓝牙4.0 BLE协议结构图详解
- w ndows7如何卸载,Windows7系统如何卸载软件?