爬取豆瓣《毒木圣经》短书评前50条及其评分
自己写的代码:
import requests
import re
import time
from bs4 import BeautifulSoupurl = ["https://book.douban.com/subject/26630480/comments/hot?p=" + str(i) for i in range(1,5)]
count1, count2 = 1,1
s = 0for i in range(1,5):requset = requests.get(url[i-1])soup = BeautifulSoup(requset.text, "lxml")comments = soup.find_all('span', 'short')for comment in comments:if count1 < 50:with open("26630480comments.txt", "a", encoding="utf-8")as f:f.write(comment.string + "\n")count1 += 1pattern = re.compile('<span class="user-stars allstar(.*?) rating"')p = re.findall(pattern, requset.text)for star in p:s += int(star)count2 += 1if count2 == 50:print(s/count2)time.sleep(5)
别人写的代码:
import requests, re, time
from bs4 import BeautifulSoupcount = 0
i = 0
s, count_s = 0, 0
while count < 50:try:r = requests.get('https://book.douban.com/subject/26630480/comments/hot?p=' + str(i+1))except Exception as err:print(err)breaksoup = BeautifulSoup(r.text, 'lxml')comments = soup.find_all('span', 'short')for item in comments:count = count + 1print(count, item.string)if count == 50:breakpattern = re.compile('<span class="user-stars allstar(.*?) rating"')p = re.findall(pattern, r.text)for star in p:count_s = count_s + 1s += int(star)time.sleep(5) # delay request from douban's robots.txti += 1if count == 50:print('\n平均分是:%d' %(s // count_s))
爬取豆瓣《毒木圣经》短书评前50条及其评分相关推荐
- python3.6爬取豆瓣读书《鱼王》前50条短评内容和平均分数
这里先获取平均分 //待续 打开网页 https://book.douban.com/subject/26853356/comments/ 综合下一页可以知道: 后面的页码 https://book. ...
- 爬取“豆瓣电影Top250”的电影排名、电影名和评分并写入文档
想要爬取豆瓣电影Top250的电影排名.电影名和评分并写入文档吗?其实很简单. 打开Pycharm 得到豆瓣电影Top250的网址: https://movie.douban.com/top250?s ...
- Python网络爬虫:爬取豆瓣上《小王子》书评
本文为南大<用Python玩转数据>学习笔记 用到的库或模块: 1.Requests第三方库 用于中小型网络爬虫的信息抓取. 基本方法: requests.get() 请求获取指定YRL位 ...
- Python爬取豆瓣电影的Top250(链接、电影名、评分和相关描述等属性)
用了三天的时间学习了简单的爬虫爬取网站数据的过程,循序渐进但也充满趣味,涉及的知识点也很多,尤其是伪装成浏览器.正则表达式.解析网页内容.爬取的数据存档数据库等内容,这是笔者使用python跟做的第一 ...
- 【网络爬虫】爬取豆瓣电影Top250评论
前言 本爬虫大致流程为: (1)分析网页--分析网站结构 (2)发送请求--通过requests发送请求 (3)响应请求--得到请求响应的页面 (4)解析响应--分析页面,得到想要的数据 (5)存储文 ...
- 爬取豆瓣短影评(发布城市,加入时间,点赞人数,用户名,评分,发布时间,短评)
由于本人爬取豆瓣影评的时候,我想爬取的比较完善,因为我看大多都是爬取短评而已,本人想爬取其他内容所以写下这篇,希望对大家有帮助. 一.pip对库的调用 下载命令 pip install -i http ...
- 《进击的虫师》爬取豆瓣电影海报(Top250)
有人想学一点编程, 但是一直没有找到感兴趣的切入点,可以简单的爬虫入手! 几十行代码, 轻松爬取豆瓣Top250电影数据,即刻体会编程的乐趣... 工具介绍: Python3(python是很容易上手 ...
- 摆脱剧荒!教你用 Python 一步步爬取豆瓣电影新榜单
本文以豆瓣电影(非TOP250)为例,从数据爬取.清洗与分析三个维度入手,详解和还原数据爬取到分析的全链路. 作者 | 周志鹏 责编 | 郭 芮 旁友,暑假,已经过了一大半了. 这个遥远而炙热的名 ...
- 爬虫实战-爬取豆瓣读书书籍信息
1. 豆瓣读书书籍种类列表 在下面这个URL, 我们可以获得所有的种类链接 https://book.douban.com/tag/ 如下图: 可以通过bs4和re库进行筛选, 得到所有图书种类, 结 ...
最新文章
- 优秀开发者和差的开发者之间区别
- 使用克隆配置任务配置边缘传输服务器角色
- MySQL中的索引(普通索引篇)
- MSDN、RTM、OEM、VOL四大版本之区别
- mysql数据库rp集群,使用MySQL-Cluster搭建MySQL数据库集群
- GDB调试程序(二)
- mysql根据ID的顺序查找_求救:mysql 如何根据给定的 ID顺序查找结果?
- 周志华任大会首个华人程序主席!
- 精通android学习笔记(一)---广播
- python使用sphinx自动生成文档
- 深入了解JavaScript目录(持续更新)
- 数组reduce()方法
- 地图Web服务API接口——搜索POI(以高德地图为例)
- php全面记录日志_全面解读PHP框架的日志系统
- 实现计算机系统的资源共享,实现多操作系统计算机的资源共享.pdf
- 奇迹服务器gs无响应,奇迹服务端1.03K比较有特色的拓展GS
- 遇到这样的一个求职者,真心无力吐槽了
- 12个最应该使用的Linux服务器OS(上)
- filezilla显示无法连接服务器,FileZilla 错误:无法连接到服务器
- 串口调试助手 安卓版 附下载地址