爬取豆瓣图书排行榜前十并使用图表的形式展示
爬取豆瓣图书
最近在学习爬虫的基础使用,发现最好爬的网站就是豆瓣了,随随便便都是可以爬到数据。
下面就是使用Python中间的requests模块实现豆瓣图书排行榜的爬取:
import requests
from lxml import etree
import urllib3
from matplotlib import pyplot as plt
import matplotlib
matplotlib.rcParams['font.sans-serif'] = ['SimHei']
matplotlib.rcParams['axes.unicode_minus'] = False
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
}
url = 'https://book.douban.com/'
def get_url(url):dict_book = {}response = requests.get(url, verify=False).textresponse = etree.HTML(response)for i in range(0,10):ret = response.xpath('//*[@id="content"]/div/div[1]/div[4]/div[2]/ul/li['+ str(i+1)+']/div[2]/h4/a/text()')grade = response.xpath('//*[@id="content"]/div/div[1]/div[4]/div[2]/ul/li['+ str(i+1)+']/div[2]/p[1]/span[2]/text()')grade = ''.join(grade).strip()dict_book[''.join(ret)] = gradereturn dict_book
def show_date(dict_book):name = list(dict_book.keys())value = []for i in dict_book.values():i = float(i)value.append(i)print(name, value)plt.barh(range(10), value)plt.yticks(range(10), name)plt.xlim(0, 10)plt.xlabel('价格')plt.title('豆瓣图书评分')for x, y in enumerate(value):plt.text(y + 0.5, x - 0.1, '%s' % y)plt.show()
dict_book = get_url(url)
show_date(dict_book)
想要获取Python学习资料的小伙伴可以加QQ:728711576
爬取豆瓣图书排行榜前十并使用图表的形式展示相关推荐
- 基于Requests的Python爬虫入门实例------爬取豆瓣图书排行榜的前25本图书(小白福利)
话不多说,先上代码: # -*- coding:utf-8 -*- import sys import requests import lxml from bs4 import BeautifulSo ...
- 爬取豆瓣电影排行榜前250
环境:python3.6 + BeautifulSoup 爬取一页的电影信息 对应网址:https://movie.douban.com/top250 import requests # 导入网页请求 ...
- Python3爬取豆瓣图书Top250并写入txt文件当中
首先简单介绍一下过程 1.解析url 2.获得html文件 3.解析数据 4.写入txt文本(按页写入) 5.上传代码 转载前可以备注一下ytouch的名字 '''爬取豆瓣图书前250名''' #au ...
- python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)
''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...
- 爬取豆瓣电影排行榜,并制作柱状图与3d柱状图
**爬取豆瓣电影排行榜,并简单制作柱状图 一.首先,我们需要获取页面的信息,下图是从排行第25到50的电影,由此可见start可以想象为偏移量,我们把start的值换为0,得到了第一到25排名的电影, ...
- R语言爬取豆瓣图书Top250
新手爬虫,使用R中最简单的读取网页,然后获取所需内容所在行进行解析.下面介绍爬取豆瓣图书Top250的案例. 1.首先,我们知道网页规律为:"http://book.douban.com/t ...
- [爬虫] 爬取豆瓣电影排行榜
申明:本文对爬取的数据仅做学习使用,不涉及任何商业活动,侵删 爬取豆瓣电影排行榜 这是一个Scrapy框架入门级的项目, 它可以帮助我们基本了解Scrapy的操作流程和运行原理 这次我们要做例子的网站 ...
- requests 获取div_爬虫系列第五篇 使用requests与BeautifulSoup爬取豆瓣图书Top250
上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析 我们爬取的网页的url是https://book.douban.com/top250?i ...
- python爬虫爬取豆瓣图书
爬取豆瓣图书top250的第一页 我最终爬取的是图书的书名,链接 先要做个说明,如果你是编程高手的话,这边文章你就不用看了,如果你是个python爬虫小白的话,可以看看这篇原创 我将用到的软件是pyc ...
最新文章
- centos安装anaconda_每天三分钟之TensorFlow学习03:Win下安装TF2
- Scrapy框架的学习(2.scrapy入门,简单爬取页面,并使用管道(pipelines)保存数据)
- qml中loader加载页面会闪屏_Qml动态语言切换
- 阿里HBase高可用8年抗战回忆录
- Hapoxy+keepalived实现双主高可用负载均衡
- python通信原理实验报告_【Python之旅】第五篇(一):Python Socket通信原理-阿里云开发者社区...
- html好看英文字体,js显示漂亮的英文字体实例
- linux检测主机网络配置和状况的命令是,Linux常用网络状态测试命令
- Html中 发光字体 的CSS属性
- 总结--linux常用配置文件总结
- Aras innovator: 怎样把excel文件导入到Aras数据库
- 计算机绘图综合训练大题,工程制图与计算机绘图综合实训报告汇编.doc
- 狂野飙车显示无法连接服务器,狂野飙车8:极速凌云无法连接服务器是什么原因...
- Windows技术文章汇集
- 采购订单历史表EKBE和物料凭证表MSEG的关系
- 2019 小米校招笔试题 小米大礼包
- 《惢客创业日记》2021.05.16(周日)需要用钱吱一声
- 1000道Python编程题
- 一、Tomcat概述
- 中国高校智能机器人比赛经验总结与分享——1V1擂台机器人