这里先获取平均分 //待续

打开网页
https://book.douban.com/subject/26853356/comments/
综合下一页可以知道:
后面的页码
https://book.douban.com/subject/26853356/comments/hot?p=2

<ul class="comment-paginator"><li class="p"><span class="page-disabled">第一页</span></li><li class="p"><span class="page-disabled">前一页</span></li><li class="p"><a class="page-btn" href="hot?p=2">后一页</a></li>
</ul>
# -*- coding: utf-8 -*-
"""抽取某本书的前 50 条短评内容并计算评分的平均值
"""
import requests
from bs4 import BeautifulSoup
import re
sum = 0
url = 'https://book.douban.com/subject/26853356/comments/'
pattern_s = re.compile('<span class="user-stars allstar(.*?) rating"')#匹配分数的正则
p = []
while len(p) < 50:r = requests.get(url)  # 豆瓣 《鱼王》短评soup = BeautifulSoup(r.text, 'lxml')  # 这里需要下载lxml包p.extend(re.findall(pattern_s, r.text))  # #返回列表btn = soup.find_all('a','page-btn',text="后一页") #下一页的urlurl += btn[0].attrs['href']#调试时,可以将btn打印出来看看详细,然后进一步打印btn[0].attrs···
for star in p:sum += int(star)
print("the average value is : {:.2f} ".format(sum/len(p)))

这里p.extend(re.findall(pattern_s, r.text))用了列表的extend函数:
用于2个列表顺序相加

>>>a = [1,2,3,4]
>>>b = [1,2,3,4,5]
>>>a.extend(b)
>>>a
[1, 2, 3, 4, 1, 2, 3, 4, 5]
>>> c = 'test'
>>> a.extend(c)
>>> a
[1, 2, 3, 4, 1, 2, 3, 4, 5, 't', 'e', 's', 't']
>>> c

python3.6爬取豆瓣读书《鱼王》前50条短评内容和平均分数相关推荐

  1. 用python爬取豆瓣某本书的前n条书评并计算评分(star)的平均值

    这个爬虫小项目是中国大学MOOC的"用Python玩转数据"课程的一个课后作业,由南京大学张莉老师主讲,有兴趣的同学可以看一看. 虽然老师已经给出了参考代码,但由于豆瓣读书网站已经 ...

  2. 2019-12-03 Python3 作业 爬取豆瓣读书所有出版商信息

    用urllib去做 #会触发反爬 HttpError 418: pattern = '<div class="name">(\w+)</div>' impo ...

  3. python——利用正则表达式爬取豆瓣读书中的图书信息

    本来可以使用一条正则表达式完成图书信息的爬取,结果发现在CPU性能较差的电脑上进行爬取时耗时非常长,几乎无法将结果获取到.所以,将大的html源码先经过一次简单的匹配以获取到一个中间结果,然后再从中间 ...

  4. Requests+Xpath 爬取豆瓣读书TOP并生成txt,csv,json,excel文件

    说明: ##来源:https://www.cnblogs.com/yizhiamumu/p/10270926.html 1 Requests+Xpath 爬取豆瓣读书TOP ''' Requests+ ...

  5. 爬虫beautifulsoup爬取豆瓣读书数据

    爬虫beautifulsoup爬取豆瓣读书数据:主要是爬取收集书的名字.类别.简介,用于接下来的聚类学习. 豆瓣链接:https://book.douban.com/tag/?view=type&am ...

  6. 爬取豆瓣读书的图书信息和评论信息

    最近在做毕业设计,需要收集用户的评分数据做协同过滤算法,同时收集评论数据做情感分析 坑点 豆瓣图书可以没有评分,或者用户评论了但没给评分.而且豆瓣图书的编码方式很无奈呀,热门书籍附近总是冷门书籍,无评 ...

  7. Python-爬虫(Scrapy爬虫框架,爬取豆瓣读书和评分)

    文章目录 1.Scrapy注意点 2. Scrapy爬取豆瓣读书和评分 代码部分 数据定义items.py 爬虫部分spiders/book.py 数据存储部分pipelines.py 启动爬虫执行c ...

  8. python爬取豆瓣读书并进行图形化分析

    python爬取豆瓣读书并进行图形化分析 豆瓣读书网页数据爬取并保存至csv 对数据进行分析并汇成图形 绘制散点图 图形效果展示 以下代码内容大多是团队小伙伴的杰作,而本人只是为了能让更多的人学习到知 ...

  9. 爬取豆瓣读书-豆瓣成员常用的标签(Python爬虫实战)

    前两篇博客,我们介绍了如何对豆瓣读书历史记录进行抓取,这一篇博客是一个收尾工作. 传送门: 爬取豆瓣读书-用户信息页链接(Python爬虫实战) 爬取豆瓣读书-用户所有阅读书籍名称.日期和书籍链接(P ...

最新文章

  1. Apache POI和EasyExcel 第五集:Apache POI的Excel读取不同类型的数据
  2. keil查看程序运行时间_Keil系列教程05_工程目标选项配置(一)
  3. STM32F1笔记(四)NVIC中断优先级管理
  4. 揭秘高德地图如何利用MaxCompute管理海量数据
  5. mysql union all 别名_mysql union和union all
  6. php radio js,如何使用JavaScript设置radio选中的示例
  7. 2345王牌浏览器网页加载慢怎么办 网页加载慢解决
  8. Postman用法简介-Http请求模拟工具
  9. 互联网的逻辑和电商的逻辑是不一样的
  10. Useful link
  11. python判断素数的函数_使用Python判断质数(素数)的简单方法讲解
  12. Web版本的国际通讯工具合集
  13. Linux终端快捷键的使用
  14. java创建mysql视图_Mysql视图的创建及使用
  15. 作为程序员,如何防辐射?
  16. rf 433/868MHZ sub-1g 无线通信知识系列(1):RF信道冲突
  17. python制作聊天机器人_如何制作一个聊天机器人?
  18. 英语口语练习系列-C13-聚会
  19. 【AI好书】KK大神带你俯瞰未来20-30年的科技发展趋势,早阅读一天就让你在互联网时代先行一步!...
  20. 《zw版·Halcon-delphi系列原创教程》 Halcon分类函数013,shape模型

热门文章

  1. 1-强化学习(RL)初印象
  2. 微信公众号 php支付代码,微信支付PHPSDK之微信公众号支付代码详解
  3. 山大计算机科学与技术2015级,只如初见:2015级新生的山大初印象
  4. VMware Ubuntu18.04找不到网卡ens33问题解决
  5. 装修风格如何选?极家家居生活馆好吗?
  6. gt2e支持升级鸿蒙,鸿蒙测试版下月发布,Mate40或率先升级
  7. Android YUV旋转花屏解决、Camera获取图像
  8. 双一流高校同寝室博士生连续三次打架,背后和科研压力大的环境密不可分
  9. 绝对值得收藏的十位电影配乐大师 (上)
  10. [洛谷P1095]NOIP2007 普及组T3 守望者的逃离