python爬虫豆瓣图书评价_Python爬虫入门-爬取豆瓣图书Top25

代码如下：

from bs4 import BeautifulSoup

import requests

ready_url="https://book.douban.com/top250?start="

#豆瓣把top250的图书放在了10个页面，分别是ready+url+0 25 50 75 100 125 150 175 200 225

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}#伪装成浏览器

n=0

f=open("L:/豆瓣图书.txt",'w',encoding='utf-8')

while n <=225:

url=ready_url+str(n)

req=requests.get(url,headers=headers)

soup=BeautifulSoup(req.text,"lxml")#以lxml解释器读取下载的网页文本

alldiv=soup.find_all("div",class_="pl2")#alldiv是所有div 下class=pl2的

bookname=[a.find("a")["title"]for a in alldiv]#生成列表：用alldiv的yitle属性值

alldiv=soup.find_all("p",class_='pl')

author=[a.get_text() for a in alldiv]

alldiv=soup.find_all("span",class_="rating_nums")

point=[a.get_text() for a in alldiv]

alldiv=soup.find_all("span",class_='inq')

word=[a.get_text() for a in alldiv]

#这样，该网站就算剽窃成功了，但也可以将这些东西存到一个txt中去

# 前面再开个文件夹，再把书的封面搞下来是最好的

for b,a,p,w in zip(bookname,author,point,word):#用zip整合遍历多个列表

all=("书名："+b+'\n')+("作者："+a+'\n')+("评分："+p+'\n')+("致辞："+w+'\n')+("\n---------------------\n")

f.write(all)

n=n+25

f.close()

python爬虫豆瓣图书评价_Python爬虫入门-爬取豆瓣图书Top25相关推荐

python爬取豆瓣电影信息_Python爬虫入门 | 爬取豆瓣电影信息
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...
python爬虫电影信息_Python爬虫入门 | 爬取豆瓣电影信息
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...
Python爬虫：现学现用xpath爬取豆瓣音乐
爬虫的抓取方式有好几种,正则表达式,Lxml(xpath)与BeautifulSoup,我在网上查了一下资料,了解到三者之间的使用难度与性能三种爬虫方式的对比. 这样一比较我我选择了Lxml(xpa ...
Python数据爬虫学习笔记（21）Scrapy爬取当当图书数据并存储至SQLite数据库
一.需求:在当当网的程序设计类图书商品界面中,爬取图书的名称.详情链接以及评论数,并将信息存储至SQLite数据库. 二.URL及网页源码分析: 1.URL分析,注意到商品搜索页的URL具有以下结构: ...
爬虫实战（一）利用scrapy爬取豆瓣华语电影
爬虫第一个项目是爬取豆瓣华语电影,后面将对这部分数据进行分析. 本文也是发表于『运筹OR帷幄』微信公众号的<用数据带你了解电影行业-华语篇>的爬虫介绍篇. 1. 爬取思路在观察了豆瓣每个 ...
python爬豆瓣电视剧_python requests库爬取豆瓣电视剧数据并保存到本地详解
首先要做的就是去豆瓣网找对应的接口,这里就不赘述了,谷歌浏览器抓包即可,然后要做的就是分析返回的json数据的结构: https://movie.douban.com/j/search_subject ...
python爬虫豆瓣电影评价_Python 爬虫实战（1）：分析豆瓣中最新电影的影评
目标总览主要做了三件事: 抓取网页数据清理数据用词云进行展示使用的python版本是3.6 一.抓取网页数据第一步要对网页进行访问,python中使用的是urllib库.代码如下: from ...
【Python 爬虫】（二）使用 Requests 爬取豆瓣短评
文章目录 Requests库介绍 Requests库安装 Requests库的简单用法实战爬虫协议 Requests库介绍 Requests库官方的介绍有这么一句话:Requests,唯一的一个非 ...
爬虫自学day4：requests模块之爬取豆瓣电影分类排行榜
豆瓣电影排行榜界面: 选择喜剧分类: 我们要爬取的数据是:电影名称.导演.演员.上映时间.国家等这些数据. 如何进行爬取: 这些信息是当前页面的局部信息,那么是否会遇到数据解析. 除了数据解析还可以使 ...
python提取支付宝的账单_python通过adb爬取支付宝移动端账单信息
python通过adb连接爬取支付宝移动端的账单信息,操作过程如下: 于是此文件就可以分解为如下四个主要功能: 1.图片识别;2.模拟点击;3.模拟滑动;4.截图功能一.对账单详情页的处理: 对账单 ...

python爬虫豆瓣图书评价_Python爬虫入门-爬取豆瓣图书Top25

python爬虫豆瓣图书评价_Python爬虫入门-爬取豆瓣图书Top25相关推荐

最新文章

热门文章