python爬虫豆瓣图书评价_Python爬虫入门-爬取豆瓣图书Top25
代码如下:
from bs4 import BeautifulSoup
import requests
ready_url="https://book.douban.com/top250?start="
#豆瓣把top250的图书放在了10个页面,分别是ready+url+0 25 50 75 100 125 150 175 200 225
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}#伪装成浏览器
n=0
f=open("L:/豆瓣图书.txt",'w',encoding='utf-8')
while n <=225:
url=ready_url+str(n)
req=requests.get(url,headers=headers)
soup=BeautifulSoup(req.text,"lxml")#以lxml解释器读取下载的网页文本
alldiv=soup.find_all("div",class_="pl2")#alldiv是所有div 下class=pl2的
bookname=[a.find("a")["title"]for a in alldiv]#生成列表:用alldiv的yitle属性值
alldiv=soup.find_all("p",class_='pl')
author=[a.get_text() for a in alldiv]
alldiv=soup.find_all("span",class_="rating_nums")
point=[a.get_text() for a in alldiv]
alldiv=soup.find_all("span",class_='inq')
word=[a.get_text() for a in alldiv]
#这样,该网站就算剽窃成功了,但也可以将这些东西存到一个txt中去
# 前面再开个文件夹,再把书的封面搞下来是最好的
for b,a,p,w in zip(bookname,author,point,word):#用zip整合遍历多个列表
all=("书名:"+b+'\n')+("作者:"+a+'\n')+("评分:"+p+'\n')+("致辞:"+w+'\n')+("\n---------------------\n")
f.write(all)
n=n+25
f.close()
python爬虫豆瓣图书评价_Python爬虫入门-爬取豆瓣图书Top25相关推荐
- python爬取豆瓣电影信息_Python爬虫入门 | 爬取豆瓣电影信息
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...
- python爬虫电影信息_Python爬虫入门 | 爬取豆瓣电影信息
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...
- Python爬虫:现学现用xpath爬取豆瓣音乐
爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能 三种爬虫方式的对比. 这样一比较我我选择了Lxml(xpa ...
- Python数据爬虫学习笔记(21)Scrapy爬取当当图书数据并存储至SQLite数据库
一.需求:在当当网的程序设计类图书商品界面中,爬取图书的名称.详情链接以及评论数,并将信息存储至SQLite数据库. 二.URL及网页源码分析: 1.URL分析,注意到商品搜索页的URL具有以下结构: ...
- 爬虫实战(一)利用scrapy爬取豆瓣华语电影
爬虫第一个项目是爬取豆瓣华语电影,后面将对这部分数据进行分析. 本文也是发表于『运筹OR帷幄』微信公众号的<用数据带你了解电影行业-华语篇>的爬虫介绍篇. 1. 爬取思路 在观察了豆瓣每个 ...
- python爬豆瓣电视剧_python requests库爬取豆瓣电视剧数据并保存到本地详解
首先要做的就是去豆瓣网找对应的接口,这里就不赘述了,谷歌浏览器抓包即可,然后要做的就是分析返回的json数据的结构: https://movie.douban.com/j/search_subject ...
- python爬虫豆瓣电影评价_Python 爬虫实战(1):分析豆瓣中最新电影的影评
目标总览 主要做了三件事: 抓取网页数据 清理数据 用词云进行展示 使用的python版本是3.6 一.抓取网页数据 第一步要对网页进行访问,python中使用的是urllib库.代码如下: from ...
- 【Python 爬虫】(二)使用 Requests 爬取豆瓣短评
文章目录 Requests库介绍 Requests库安装 Requests库的简单用法 实战 爬虫协议 Requests库介绍 Requests库官方的介绍有这么一句话:Requests,唯一的一个非 ...
- 爬虫自学day4:requests模块之爬取豆瓣电影分类排行榜
豆瓣电影排行榜界面: 选择喜剧分类: 我们要爬取的数据是:电影名称.导演.演员.上映时间.国家等这些数据. 如何进行爬取: 这些信息是当前页面的局部信息,那么是否会遇到数据解析. 除了数据解析还可以使 ...
- python提取支付宝的账单_python通过adb爬取支付宝移动端账单信息
python通过adb连接爬取支付宝移动端的账单信息,操作过程如下: 于是此文件就可以分解为如下四个主要功能: 1.图片识别;2.模拟点击;3.模拟滑动;4.截图功能 一.对账单详情页的处理: 对账单 ...
最新文章
- 「基于GNN的图分类研究」最新2022综述
- Spring3 MVC 注解---注解基本配置及@controller和 @RequestMapping 常用解释
- 除了数据,生活中还有这些......
- 你成为不了架构师的原因!!!
- HTML怎么把文字分栏_JS将HTML生成PDF并下载
- Android自定义RadioButton
- 允许使用抽象类类型 isearchboxinfo 的对象_此对象非彼对象(面向对象)3
- 【Codeforces - 127D】Password(思维,二分+字符串Hash)
- java怎么设置404界面_如何使用Spring MVC显示自定义的404 Not Found页面
- JAVA集合Collection与泛型<T>→List、ArrayList、LinkedList、→Set、HashSet、hashCode()→Map、HashMap、→Properties
- 客户端VS2010 Team Foundation Server中删除项目
- Install Air Conditioning HDU - 4756(最小生成树+树形dp)
- 怀揣Windows 10沙盒,放心“作死”
- vue根据拼音选择城市better-scroll
- win7、10无法修改mac地址_教一招如何修改MAC地址
- 计算机进入启动死循环,Win10开机死循环重启解决方法
- USB TO I2C(上海同旺电子)调试器调试LM75A--TI
- python 列表作业
- arm linux 中littlevgl支持tslib的方法
- SQL必知必会笔记(上)