python3.6爬取豆瓣读书《鱼王》前50条短评内容和平均分数

这里先获取平均分／／待续

打开网页
https://book.douban.com/subject/26853356/comments/
综合下一页可以知道：
后面的页码
https://book.douban.com/subject/26853356/comments/hot?p=2

<ul class="comment-paginator"><li class="p"><span class="page-disabled">第一页</span></li><li class="p"><span class="page-disabled">前一页</span></li><li class="p"><a class="page-btn" href="hot?p=2">后一页</a></li>
</ul>

# -*- coding: utf-8 -*-
"""抽取某本书的前 50 条短评内容并计算评分的平均值
"""
import requests
from bs4 import BeautifulSoup
import re
sum = 0
url = 'https://book.douban.com/subject/26853356/comments/'
pattern_s = re.compile('<span class="user-stars allstar(.*?) rating"')#匹配分数的正则
p = []
while len(p) < 50:r = requests.get(url)  # 豆瓣 《鱼王》短评soup = BeautifulSoup(r.text, 'lxml')  # 这里需要下载lxml包p.extend(re.findall(pattern_s, r.text))  # #返回列表btn = soup.find_all('a','page-btn',text="后一页") #下一页的urlurl += btn[0].attrs['href']#调试时，可以将btn打印出来看看详细，然后进一步打印btn[0].attrs···
for star in p:sum += int(star)
print("the average value is : {:.2f} ".format(sum/len(p)))

这里p.extend(re.findall(pattern_s, r.text))用了列表的extend函数:
用于2个列表顺序相加

>>>a = [1,2,3,4]
>>>b = [1,2,3,4,5]
>>>a.extend(b)
>>>a
[1, 2, 3, 4, 1, 2, 3, 4, 5]
>>> c = 'test'
>>> a.extend(c)
>>> a
[1, 2, 3, 4, 1, 2, 3, 4, 5, 't', 'e', 's', 't']
>>> c

python3.6爬取豆瓣读书《鱼王》前50条短评内容和平均分数相关推荐

用python爬取豆瓣某本书的前n条书评并计算评分（star）的平均值
这个爬虫小项目是中国大学MOOC的"用Python玩转数据"课程的一个课后作业,由南京大学张莉老师主讲,有兴趣的同学可以看一看. 虽然老师已经给出了参考代码,但由于豆瓣读书网站已经 ...
2019-12-03 Python3 作业爬取豆瓣读书所有出版商信息
用urllib去做 #会触发反爬 HttpError 418: pattern = '<div class="name">(\w+)</div>' impo ...
python——利用正则表达式爬取豆瓣读书中的图书信息
本来可以使用一条正则表达式完成图书信息的爬取,结果发现在CPU性能较差的电脑上进行爬取时耗时非常长,几乎无法将结果获取到.所以,将大的html源码先经过一次简单的匹配以获取到一个中间结果,然后再从中间 ...
Requests+Xpath 爬取豆瓣读书TOP并生成txt,csv,json,excel文件
说明: ##来源:https://www.cnblogs.com/yizhiamumu/p/10270926.html 1 Requests+Xpath 爬取豆瓣读书TOP ''' Requests+ ...
爬虫beautifulsoup爬取豆瓣读书数据
爬虫beautifulsoup爬取豆瓣读书数据:主要是爬取收集书的名字.类别.简介,用于接下来的聚类学习. 豆瓣链接:https://book.douban.com/tag/?view=type&am ...
爬取豆瓣读书的图书信息和评论信息
最近在做毕业设计,需要收集用户的评分数据做协同过滤算法,同时收集评论数据做情感分析坑点豆瓣图书可以没有评分,或者用户评论了但没给评分.而且豆瓣图书的编码方式很无奈呀,热门书籍附近总是冷门书籍,无评 ...
Python-爬虫（Scrapy爬虫框架，爬取豆瓣读书和评分）
文章目录 1.Scrapy注意点 2. Scrapy爬取豆瓣读书和评分代码部分数据定义items.py 爬虫部分spiders/book.py 数据存储部分pipelines.py 启动爬虫执行c ...
python爬取豆瓣读书并进行图形化分析
python爬取豆瓣读书并进行图形化分析豆瓣读书网页数据爬取并保存至csv 对数据进行分析并汇成图形绘制散点图图形效果展示以下代码内容大多是团队小伙伴的杰作,而本人只是为了能让更多的人学习到知 ...
爬取豆瓣读书-豆瓣成员常用的标签（Python爬虫实战）
前两篇博客,我们介绍了如何对豆瓣读书历史记录进行抓取,这一篇博客是一个收尾工作. 传送门: 爬取豆瓣读书-用户信息页链接(Python爬虫实战) 爬取豆瓣读书-用户所有阅读书籍名称.日期和书籍链接(P ...

python3.6爬取豆瓣读书《鱼王》前50条短评内容和平均分数

这里先获取平均分／／待续

python3.6爬取豆瓣读书《鱼王》前50条短评内容和平均分数相关推荐

最新文章

热门文章

python3.6爬取豆瓣读书《鱼王》前50条短评内容和平均分数

这里先获取平均分 ／／待续

python3.6爬取豆瓣读书《鱼王》前50条短评内容和平均分数相关推荐

最新文章

热门文章

这里先获取平均分／／待续