爬取豆瓣图书

最近在学习爬虫的基础使用,发现最好爬的网站就是豆瓣了,随随便便都是可以爬到数据。
下面就是使用Python中间的requests模块实现豆瓣图书排行榜的爬取:

import requests
from lxml import etree
import urllib3
from matplotlib import pyplot as plt
import matplotlib
matplotlib.rcParams['font.sans-serif'] = ['SimHei']
matplotlib.rcParams['axes.unicode_minus'] = False
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
}
url = 'https://book.douban.com/'
def get_url(url):dict_book = {}response = requests.get(url, verify=False).textresponse = etree.HTML(response)for i in range(0,10):ret = response.xpath('//*[@id="content"]/div/div[1]/div[4]/div[2]/ul/li['+ str(i+1)+']/div[2]/h4/a/text()')grade = response.xpath('//*[@id="content"]/div/div[1]/div[4]/div[2]/ul/li['+ str(i+1)+']/div[2]/p[1]/span[2]/text()')grade = ''.join(grade).strip()dict_book[''.join(ret)] = gradereturn dict_book
def show_date(dict_book):name = list(dict_book.keys())value = []for i in dict_book.values():i = float(i)value.append(i)print(name, value)plt.barh(range(10), value)plt.yticks(range(10), name)plt.xlim(0, 10)plt.xlabel('价格')plt.title('豆瓣图书评分')for x, y in enumerate(value):plt.text(y + 0.5, x - 0.1, '%s' % y)plt.show()
dict_book = get_url(url)
show_date(dict_book)

想要获取Python学习资料的小伙伴可以加QQ:728711576

爬取豆瓣图书排行榜前十并使用图表的形式展示相关推荐

  1. 基于Requests的Python爬虫入门实例------爬取豆瓣图书排行榜的前25本图书(小白福利)

    话不多说,先上代码: # -*- coding:utf-8 -*- import sys import requests import lxml from bs4 import BeautifulSo ...

  2. 爬取豆瓣电影排行榜前250

    环境:python3.6 + BeautifulSoup 爬取一页的电影信息 对应网址:https://movie.douban.com/top250 import requests # 导入网页请求 ...

  3. Python3爬取豆瓣图书Top250并写入txt文件当中

    首先简单介绍一下过程 1.解析url 2.获得html文件 3.解析数据 4.写入txt文本(按页写入) 5.上传代码 转载前可以备注一下ytouch的名字 '''爬取豆瓣图书前250名''' #au ...

  4. python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)

    ''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...

  5. 爬取豆瓣电影排行榜,并制作柱状图与3d柱状图

    **爬取豆瓣电影排行榜,并简单制作柱状图 一.首先,我们需要获取页面的信息,下图是从排行第25到50的电影,由此可见start可以想象为偏移量,我们把start的值换为0,得到了第一到25排名的电影, ...

  6. R语言爬取豆瓣图书Top250

    新手爬虫,使用R中最简单的读取网页,然后获取所需内容所在行进行解析.下面介绍爬取豆瓣图书Top250的案例. 1.首先,我们知道网页规律为:"http://book.douban.com/t ...

  7. [爬虫] 爬取豆瓣电影排行榜

    申明:本文对爬取的数据仅做学习使用,不涉及任何商业活动,侵删 爬取豆瓣电影排行榜 这是一个Scrapy框架入门级的项目, 它可以帮助我们基本了解Scrapy的操作流程和运行原理 这次我们要做例子的网站 ...

  8. requests 获取div_爬虫系列第五篇 使用requests与BeautifulSoup爬取豆瓣图书Top250

    上一篇我们学习了BeautifulSoup的基本用法,本节我们使用它来爬取豆瓣图书Top250. 一.网页分析 我们爬取的网页的url是https://book.douban.com/top250?i ...

  9. python爬虫爬取豆瓣图书

    爬取豆瓣图书top250的第一页 我最终爬取的是图书的书名,链接 先要做个说明,如果你是编程高手的话,这边文章你就不用看了,如果你是个python爬虫小白的话,可以看看这篇原创 我将用到的软件是pyc ...

最新文章

  1. centos安装anaconda_每天三分钟之TensorFlow学习03:Win下安装TF2
  2. Scrapy框架的学习(2.scrapy入门,简单爬取页面,并使用管道(pipelines)保存数据)
  3. qml中loader加载页面会闪屏_Qml动态语言切换
  4. 阿里HBase高可用8年抗战回忆录
  5. Hapoxy+keepalived实现双主高可用负载均衡
  6. python通信原理实验报告_【Python之旅】第五篇(一):Python Socket通信原理-阿里云开发者社区...
  7. html好看英文字体,js显示漂亮的英文字体实例
  8. linux检测主机网络配置和状况的命令是,Linux常用网络状态测试命令
  9. Html中 发光字体 的CSS属性
  10. 总结--linux常用配置文件总结
  11. Aras innovator: 怎样把excel文件导入到Aras数据库
  12. 计算机绘图综合训练大题,工程制图与计算机绘图综合实训报告汇编.doc
  13. 狂野飙车显示无法连接服务器,狂野飙车8:极速凌云无法连接服务器是什么原因...
  14. Windows技术文章汇集
  15. 采购订单历史表EKBE和物料凭证表MSEG的关系
  16. 2019 小米校招笔试题 小米大礼包
  17. 《惢客创业日记》2021.05.16(周日)需要用钱吱一声
  18. 1000道Python编程题
  19. 一、Tomcat概述
  20. 中国高校智能机器人比赛经验总结与分享——1V1擂台机器人

热门文章

  1. 4g物联网卡融合智能领域构建物联网生态大网
  2. CSS的选择器 :first-child和:last-child
  3. python的常见矩阵除法_Python矩阵除法
  4. CSS实现圆角,三角,五角星,五边形,爱心,12角星,8角星,圆,椭圆,圆圈,八卦等等
  5. 基于Python的简单数据处理
  6. 哈工大软件构造笔记1
  7. 2017年Android百大框架排行榜
  8. 小米盒子4C刷机教程
  9. 关于华为设备ospf进程中RID重叠的问题
  10. labview事件结构的使用