自己写的代码:

import requests
import re
import time
from bs4 import BeautifulSoupurl = ["https://book.douban.com/subject/26630480/comments/hot?p=" + str(i) for i in range(1,5)]
count1, count2 = 1,1
s = 0for i in range(1,5):requset = requests.get(url[i-1])soup = BeautifulSoup(requset.text, "lxml")comments = soup.find_all('span', 'short')for comment in comments:if count1 < 50:with open("26630480comments.txt", "a", encoding="utf-8")as f:f.write(comment.string + "\n")count1 += 1pattern = re.compile('<span class="user-stars allstar(.*?) rating"')p = re.findall(pattern, requset.text)for star in p:s += int(star)count2 += 1if count2 == 50:print(s/count2)time.sleep(5)

别人写的代码:

import requests, re, time
from bs4 import BeautifulSoupcount = 0
i = 0
s, count_s = 0, 0
while count < 50:try:r = requests.get('https://book.douban.com/subject/26630480/comments/hot?p=' + str(i+1))except Exception as err:print(err)breaksoup = BeautifulSoup(r.text, 'lxml')comments = soup.find_all('span', 'short')for item in comments:count = count + 1print(count, item.string)if count == 50:breakpattern = re.compile('<span class="user-stars allstar(.*?) rating"')p = re.findall(pattern, r.text)for star in p:count_s = count_s + 1s += int(star)time.sleep(5) # delay request from douban's robots.txti += 1if count == 50:print('\n平均分是:%d' %(s // count_s))

爬取豆瓣《毒木圣经》短书评前50条及其评分相关推荐

  1. python3.6爬取豆瓣读书《鱼王》前50条短评内容和平均分数

    这里先获取平均分 //待续 打开网页 https://book.douban.com/subject/26853356/comments/ 综合下一页可以知道: 后面的页码 https://book. ...

  2. 爬取“豆瓣电影Top250”的电影排名、电影名和评分并写入文档

    想要爬取豆瓣电影Top250的电影排名.电影名和评分并写入文档吗?其实很简单. 打开Pycharm 得到豆瓣电影Top250的网址: https://movie.douban.com/top250?s ...

  3. Python网络爬虫:爬取豆瓣上《小王子》书评

    本文为南大<用Python玩转数据>学习笔记 用到的库或模块: 1.Requests第三方库 用于中小型网络爬虫的信息抓取. 基本方法: requests.get() 请求获取指定YRL位 ...

  4. Python爬取豆瓣电影的Top250(链接、电影名、评分和相关描述等属性)

    用了三天的时间学习了简单的爬虫爬取网站数据的过程,循序渐进但也充满趣味,涉及的知识点也很多,尤其是伪装成浏览器.正则表达式.解析网页内容.爬取的数据存档数据库等内容,这是笔者使用python跟做的第一 ...

  5. 【网络爬虫】爬取豆瓣电影Top250评论

    前言 本爬虫大致流程为: (1)分析网页--分析网站结构 (2)发送请求--通过requests发送请求 (3)响应请求--得到请求响应的页面 (4)解析响应--分析页面,得到想要的数据 (5)存储文 ...

  6. 爬取豆瓣短影评(发布城市,加入时间,点赞人数,用户名,评分,发布时间,短评)

    由于本人爬取豆瓣影评的时候,我想爬取的比较完善,因为我看大多都是爬取短评而已,本人想爬取其他内容所以写下这篇,希望对大家有帮助. 一.pip对库的调用 下载命令 pip install -i http ...

  7. 《进击的虫师》爬取豆瓣电影海报(Top250)

    有人想学一点编程, 但是一直没有找到感兴趣的切入点,可以简单的爬虫入手! 几十行代码, 轻松爬取豆瓣Top250电影数据,即刻体会编程的乐趣... 工具介绍: Python3(python是很容易上手 ...

  8. 摆脱剧荒!教你用 Python 一步步爬取豆瓣电影新榜单

    本文以豆瓣电影(非TOP250)为例,从数据爬取.清洗与分析三个维度入手,详解和还原数据爬取到分析的全链路. 作者 | 周志鹏 责编 | 郭   芮 旁友,暑假,已经过了一大半了. 这个遥远而炙热的名 ...

  9. 爬虫实战-爬取豆瓣读书书籍信息

    1. 豆瓣读书书籍种类列表 在下面这个URL, 我们可以获得所有的种类链接 https://book.douban.com/tag/ 如下图: 可以通过bs4和re库进行筛选, 得到所有图书种类, 结 ...

最新文章

  1. 优秀开发者和差的开发者之间区别
  2. 使用克隆配置任务配置边缘传输服务器角色
  3. MySQL中的索引(普通索引篇)
  4. MSDN、RTM、OEM、VOL四大版本之区别
  5. mysql数据库rp集群,使用MySQL-Cluster搭建MySQL数据库集群
  6. GDB调试程序(二)
  7. mysql根据ID的顺序查找_求救:mysql 如何根据给定的 ID顺序查找结果?
  8. 周志华任大会首个华人程序主席!
  9. 精通android学习笔记(一)---广播
  10. python使用sphinx自动生成文档
  11. 深入了解JavaScript目录(持续更新)
  12. 数组reduce()方法
  13. 地图Web服务API接口——搜索POI(以高德地图为例)
  14. php全面记录日志_全面解读PHP框架的日志系统
  15. 实现计算机系统的资源共享,实现多操作系统计算机的资源共享.pdf
  16. 奇迹服务器gs无响应,奇迹服务端1.03K比较有特色的拓展GS
  17. 遇到这样的一个求职者,真心无力吐槽了
  18. 12个最应该使用的Linux服务器OS(上)
  19. filezilla显示无法连接服务器,FileZilla 错误:无法连接到服务器
  20. 串口调试助手 安卓版 附下载地址

热门文章

  1. 使用Vitamio库打造万能播放器(一)
  2. 【小月电子】安路国产FPGA开发板系统学习教程-LESSON1点亮LED灯
  3. pycharm 光标闪烁问题
  4. 【PPT】高质量免费 PPT模板
  5. 软件测试基础介绍 --摘自软件测试培训中心
  6. Fedora 21下使用金山快盘
  7. ThinkPad X220安装Centos问题记录
  8. 夜光带你走进通信网络(七) 新的领域
  9. 实地地产全力赋能行业新基建,科技成为制胜法宝
  10. 什么叫SMART原则?