Python爬取百度百科,BeautifulSoup提取关键信息
本文主要爬取演员杨幂的百度百科,用到的python库有:requests和BeautifulSoup
主要内容共分为以下两个方面:
1、 用requests爬取网页内容
2、 用BeautifulSoup提取关键信息
以下为全部代码:
import requests
from bs4 import BeautifulSoup
url="https://baike.baidu.com/item/%E6%9D%A8%E5%B9%82/149851?fr=aladdin"
r=requests.get(url)
r.encoding=r.apparent_encoding
demo=r.text
soup=BeautifulSoup(demo,"html.parser")
print(soup.title.get_text())
p=soup.find_all("dt","basicInfo-item name")
t=soup.find_all("dd","basicInfo-item value")
print(p[0].get_text(),":")
print(t[0].get_text())#中文名
print(p[1].get_text(),":")
print(t[1].get_text())#外文名
print(p[2].get_text(),":")
print(t[2].get_text())#别名
print(p[3].get_text(),":")
print(t[3].get_text())#国籍
print(p[4].get_text(),":")
print(t[4].get_text())#民族
print(p[5].get_text(),":")
print(t[5].get_text())#星座
print(p[6].get_text(),":")
print(t[6].get_text())#血型
print(p[7].get_text(),":")
print(t[7].get_text())#身高
print(p[8].get_text(),":")
print(t[8].get_text())#体重
print(p[9].get_text(),":")
print(t[9].get_text())#出生地
print(p[10].get_text(),":")
print(t[10].get_text())#出生日期
print(p[11].get_text(),":")
print(t[11].get_text())#职业
print(p[12].get_text(),":")
print(t[12].get_text())#毕业院校
print(p[13].get_text(),":")
print(t[13].get_text())#经纪公司
print(p[14].get_text(),":")
print(t[14].get_text())#代表作品
print(p[15].get_text(),":")
print(t[15].get_text())#主要成就
print(p[16].get_text(),":")
print(t[16].get_text())#唱片公司
print(p[17].get_text(),":")
print(t[17].get_text())#配偶
print(p[18].get_text(),":")
print(t[18].get_text())#女儿
print(p[19].get_text(),":")
print(t[19].get_text())#生肖
print(p[20].get_text(),":")
print(t[20].get_text())#粉丝名
运行结果为:
杨幂_百度百科
中文名 :
杨幂
外文名 :
Yang Mi,Mini
别 名 :
紫曦、幂幂、狐狸、小幂、狐小幂、大幂幂
国 籍 :
中国
民 族 :
汉族
星 座 :
处女座
血 型 :
B型
身 高 :
166.5cm(净身高)
体 重 :
45kg
出生地 :
北京市
出生日期 :
1986年9月12日
职 业 :
演员、歌手、制片人
毕业院校 :
北京电影学院
经纪公司 :
嘉行杨幂工作室
代表作品 :
宫锁心玉、三生三世十里桃花、小时代、我是证人、逆时营救、仙剑奇侠传三、亲爱的翻译官、王昭君
主要成就 :
中国电视金鹰奖最具人气女演员
上海电视节白玉兰奖最具人气女演员
休斯顿国际电影节最佳女主角
唱片公司 :
少城时代
配 偶 :
刘恺威(2014年1月8日婚礼)
女 儿 :
小糯米(2014年6月1日出生)
生 肖 :
虎
粉丝名 :
蜜蜂
Python爬取百度百科,BeautifulSoup提取关键信息相关推荐
- python爬取百度百科获取中国高校信息
公众号看到的文章,感觉不错,适合练手.所以就自己做了一遍. 废话不多说开整. 目的:手头有一份<学校名称.xlsx>的表格.想要这些学校的英文名称.描述.简称 学校名称.xlsx 最终成果 ...
- 用python 爬取百度百科内容-爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释 我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果 但是自己又没有心思做这样一个数 ...
- python爬取百度百科表格_第一个python爬虫(python3爬取百度百科1000个页面)
以下内容参考自:http://www.imooc.com/learn/563 一.爬虫简介 爬虫:一段自动抓取互联网信息的程序 爬虫可以从一个url出发,访问其所关联的所有的url.并从每个url指向 ...
- python爬取百度百科词条-python简单爬虫爬取百度百科python词条网页
目标分析: 目标:百度百科python词条相关词条网页 - 标题和简介 入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL: ...
- python爬取百度百科保存scv
import urllib import io import sys import requests from bs4 import BeautifulSoup from lxml import et ...
- python爬取百度百科搜索结果_用Python抓取百度搜索结果,python,爬取,的
前言 前几天爬的今天整理了一下发现就两个需要注意的点 一是记得用带cookie的方式去访问,也就是实例化requests.session() 二是转化一下爬取到的url,访问爬到的url得到返回的Lo ...
- 用python 爬取百度百科内容-使用python爬取小说全部内容
爬取代码为import urllib.request from bs4 import BeautifulSoup #coding: utf-8 class xiaoShuo(): def __init ...
- python 爬取百度知道,Python 爬虫爬取百度百科网站
利用python写一个爬虫,爬取百度百科的某一个词条下面的全部链接和每一个链接内部的词条主题和摘要.利用request库爬取页面,然后利用BeautifulSoup对爬取到的页面提取url和关键内容. ...
- python 百度百科 爬虫_爬虫爬取百度百科数据
以前段时间<青春有你2>为例,我们使用Python来爬取百度百科中<青春有你2>所有参赛选手的信息. 什么是爬虫? 为了获取大量的互联网数据,我们自然想到使用爬虫代替我们完成这 ...
最新文章
- Confluence 6 服务器硬件要求指南
- 亚马逊AWS EC2云实例AMI安装LNMP环境(1)——Nginx安装
- C++显式隐式构造函数
- 可以把兴趣变成工作吗?
- 操作系统概念 ppt_智能家居操作系统三国拉锯,要出结果了吗?
- CDN百科第三讲|如果用了云服务器,还需要做CDN加速吗?
- 自研云原生数据仓库AnalyticDB再破权威评测TPC-DS世界纪录
- Hadoop——MapReduce(3)
- dtw算法 c语言实现,DTW算法的python实现
- 百度金融与农业银行战略合作,AI +金融的开放故事讲得好吗?
- AEC回声消除基础知识
- matlab绘图工具
- VS2005 安装WTL
- Games102_lecture8几何建模与处理基础_离散微分几何,Utopia框架介绍
- RadStudio 10.3.3 Rio (Delphi C++ Builder)及TMS TAdvStringGrid控件安装方法
- 淘宝API接口(item_search_img-按图搜索淘宝商品)(拍立淘)
- 【操作系统】概念、功能、特征、分类、运行机制、内核、体系结构、中断和异常、系统调用简介
- 老司机阿里巴巴为什么要带着这些YunOS硬件小伙伴一路向西?
- 音乐和计算机跨界融合,上海尝试音乐创新:中国传统文化与西方艺术跨界融合...
- 50行代码教你打造一个公众号文章采集器