代码如下:

from bs4 import BeautifulSoup

import requests

ready_url="https://book.douban.com/top250?start="

#豆瓣把top250的图书放在了10个页面,分别是ready+url+0 25 50 75 100 125 150 175 200 225

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}#伪装成浏览器

n=0

f=open("L:/豆瓣图书.txt",'w',encoding='utf-8')

while n <=225:

url=ready_url+str(n)

req=requests.get(url,headers=headers)

soup=BeautifulSoup(req.text,"lxml")#以lxml解释器读取下载的网页文本

alldiv=soup.find_all("div",class_="pl2")#alldiv是所有div 下class=pl2的

bookname=[a.find("a")["title"]for a in alldiv]#生成列表:用alldiv的yitle属性值

alldiv=soup.find_all("p",class_='pl')

author=[a.get_text() for a in alldiv]

alldiv=soup.find_all("span",class_="rating_nums")

point=[a.get_text() for a in alldiv]

alldiv=soup.find_all("span",class_='inq')

word=[a.get_text() for a in alldiv]

#这样,该网站就算剽窃成功了,但也可以将这些东西存到一个txt中去

# 前面再开个文件夹,再把书的封面搞下来是最好的

for b,a,p,w in zip(bookname,author,point,word):#用zip整合遍历多个列表

all=("书名:"+b+'\n')+("作者:"+a+'\n')+("评分:"+p+'\n')+("致辞:"+w+'\n')+("\n---------------------\n")

f.write(all)

n=n+25

f.close()

python爬虫豆瓣图书评价_Python爬虫入门-爬取豆瓣图书Top25相关推荐

  1. python爬取豆瓣电影信息_Python爬虫入门 | 爬取豆瓣电影信息

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

  2. python爬虫电影信息_Python爬虫入门 | 爬取豆瓣电影信息

    这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...

  3. Python爬虫:现学现用xpath爬取豆瓣音乐

    爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能 三种爬虫方式的对比. 这样一比较我我选择了Lxml(xpa ...

  4. Python数据爬虫学习笔记(21)Scrapy爬取当当图书数据并存储至SQLite数据库

    一.需求:在当当网的程序设计类图书商品界面中,爬取图书的名称.详情链接以及评论数,并将信息存储至SQLite数据库. 二.URL及网页源码分析: 1.URL分析,注意到商品搜索页的URL具有以下结构: ...

  5. 爬虫实战(一)利用scrapy爬取豆瓣华语电影

    爬虫第一个项目是爬取豆瓣华语电影,后面将对这部分数据进行分析. 本文也是发表于『运筹OR帷幄』微信公众号的<用数据带你了解电影行业-华语篇>的爬虫介绍篇. 1. 爬取思路 在观察了豆瓣每个 ...

  6. python爬豆瓣电视剧_python requests库爬取豆瓣电视剧数据并保存到本地详解

    首先要做的就是去豆瓣网找对应的接口,这里就不赘述了,谷歌浏览器抓包即可,然后要做的就是分析返回的json数据的结构: https://movie.douban.com/j/search_subject ...

  7. python爬虫豆瓣电影评价_Python 爬虫实战(1):分析豆瓣中最新电影的影评

    目标总览 主要做了三件事: 抓取网页数据 清理数据 用词云进行展示 使用的python版本是3.6 一.抓取网页数据 第一步要对网页进行访问,python中使用的是urllib库.代码如下: from ...

  8. 【Python 爬虫】(二)使用 Requests 爬取豆瓣短评

    文章目录 Requests库介绍 Requests库安装 Requests库的简单用法 实战 爬虫协议 Requests库介绍 Requests库官方的介绍有这么一句话:Requests,唯一的一个非 ...

  9. 爬虫自学day4:requests模块之爬取豆瓣电影分类排行榜

    豆瓣电影排行榜界面: 选择喜剧分类: 我们要爬取的数据是:电影名称.导演.演员.上映时间.国家等这些数据. 如何进行爬取: 这些信息是当前页面的局部信息,那么是否会遇到数据解析. 除了数据解析还可以使 ...

  10. python提取支付宝的账单_python通过adb爬取支付宝移动端账单信息

    python通过adb连接爬取支付宝移动端的账单信息,操作过程如下: 于是此文件就可以分解为如下四个主要功能: 1.图片识别;2.模拟点击;3.模拟滑动;4.截图功能 一.对账单详情页的处理: 对账单 ...

最新文章

  1. 「基于GNN的图分类研究」最新2022综述
  2. Spring3 MVC 注解---注解基本配置及@controller和 @RequestMapping 常用解释
  3. 除了数据,生活中还有这些......
  4. 你成为不了架构师的原因!!!
  5. HTML怎么把文字分栏_JS将HTML生成PDF并下载
  6. Android自定义RadioButton
  7. 允许使用抽象类类型 isearchboxinfo 的对象_此对象非彼对象(面向对象)3
  8. 【Codeforces - 127D】Password(思维,二分+字符串Hash)
  9. java怎么设置404界面_如何使用Spring MVC显示自定义的404 Not Found页面
  10. JAVA集合Collection与泛型<T>→List、ArrayList、LinkedList、→Set、HashSet、hashCode()→Map、HashMap、→Properties
  11. 客户端VS2010 Team Foundation Server中删除项目
  12. Install Air Conditioning HDU - 4756(最小生成树+树形dp)
  13. 怀揣Windows 10沙盒,放心“作死”
  14. vue根据拼音选择城市better-scroll
  15. win7、10无法修改mac地址_教一招如何修改MAC地址
  16. 计算机进入启动死循环,Win10开机死循环重启解决方法
  17. USB TO I2C(上海同旺电子)调试器调试LM75A--TI
  18. python 列表作业
  19. arm linux 中littlevgl支持tslib的方法
  20. SQL必知必会笔记(上)

热门文章

  1. 云应用百宝云交互界面专题分析
  2. 学校运动会管理系统 c语言,学校运动会管理系统
  3. 最炫学习风8月24号在成都传智播客刮起
  4. h3cminia51使用手册_H3CMiniA51室内放装型双频AP产品彩页.PDF
  5. HTM---main函数的流程及类结构
  6. 乐灵机器人_都说STEAM教育好,你真的了解什么是STEAM教育吗?
  7. 有点小资金想投资,但是没有太多时间花费去关注项目,该怎么投资
  8. U盘删除的文件能恢复吗,删除文件怎么恢复
  9. SSM公寓管理系统毕业设计源码171958
  10. MDaemon邮件服务器系统与普通企业邮箱的比较