《python简单爬取流浪地球影评 | CSDN创作打卡》
今天呢!给大家带来很火的流浪地球的爬虫
我们爬取的是它的影评!!!!
嘿嘿嘿!!!
首先:
我们会用到以下的库
import requests
from bs4 import BeautifulSoup
接下来爬取的代码如下:
def getHTMLText(url,headers,code='utf8'):
try:
r=requests.get(url,headers=headers,timeout=30)
r.raise_for_status()
r.encoding=code
#r.encoding=r.apparent_encoding
#print(r.text[:1000])
return r.text
except:
return "爬取失败"
def getComment(url,headers):
html=getHTMLText(url,headers)
soup=BeautifulSoup(html,'html.parser')
comment=soup.findAll('span','short')
lst=[]
for com in comment:
lst.append(com.getText()+'\n')
return lst
def main():
headers={'Accept':'*/*',
'Accept-Encoding':'gzip, deflate, br',
'Accept-Language':'zh-CN,zh;q=0.9',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36'
'(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
f=open('流浪地球豆瓣评论.txt', 'w', encoding='utf-8')
for page in range(10):
url='https://movie.douban.com/subject/26266893/comments?start='+ str(20*page) +'&limit=20&sort=new_score&status=P'
print ("正在爬取第%s页的评论:" % (page+1))
print (url+'\n')
for i in getComment(url,headers):
f.write(i)
print("爬取完成")
if __name__=='__main__':
main()
爬取的结果如下:
喜欢的话,点个赞吧!!!
《python简单爬取流浪地球影评 | CSDN创作打卡》相关推荐
- ComeFuture英伽学院——2020年 全国大学生英语竞赛【C类初赛真题解析】(持续更新)
视频:ComeFuture英伽学院--2019年 全国大学生英语竞赛[C类初赛真题解析]大小作文--详细解析 课件:[课件]2019年大学生英语竞赛C类初赛.pdf 视频:2020年全国大学生英语竞赛 ...
- ComeFuture英伽学院——2019年 全国大学生英语竞赛【C类初赛真题解析】大小作文——详细解析
视频:ComeFuture英伽学院--2019年 全国大学生英语竞赛[C类初赛真题解析]大小作文--详细解析 课件:[课件]2019年大学生英语竞赛C类初赛.pdf 视频:2020年全国大学生英语竞赛 ...
- 信息学奥赛真题解析(玩具谜题)
玩具谜题(2016年信息学奥赛提高组真题) 题目描述 小南有一套可爱的玩具小人, 它们各有不同的职业.有一天, 这些玩具小人把小南的眼镜藏了起来.小南发现玩具小人们围成了一个圈,它们有的面朝圈内,有的 ...
- 信息学奥赛之初赛 第1轮 讲解(01-08课)
信息学奥赛之初赛讲解 01 计算机概述 系统基本结构 信息学奥赛之初赛讲解 01 计算机概述 系统基本结构_哔哩哔哩_bilibili 信息学奥赛之初赛讲解 02 软件系统 计算机语言 进制转换 信息 ...
- 信息学奥赛一本通习题答案(五)
最近在给小学生做C++的入门培训,用的教程是信息学奥赛一本通,刷题网址 http://ybt.ssoier.cn:8088/index.php 现将部分习题的答案放在博客上,希望能给其他有需要的人带来 ...
- 信息学奥赛一本通习题答案(三)
最近在给小学生做C++的入门培训,用的教程是信息学奥赛一本通,刷题网址 http://ybt.ssoier.cn:8088/index.php 现将部分习题的答案放在博客上,希望能给其他有需要的人带来 ...
- 信息学奥赛一本通 提高篇 第六部分 数学基础 相关的真题
第1章 快速幂 1875:[13NOIP提高组]转圈游戏 信息学奥赛一本通(C++版)在线评测系统 第2 章 素数 第 3 章 约数 第 4 章 同余问题 第 5 章 矩阵乘法 第 6 章 ...
- 信息学奥赛一本通题目代码(非题库)
为了完善自己学c++,很多人都去读相关文献,就比如<信息学奥赛一本通>,可又对题目无从下手,从今天开始,我将把书上的题目一 一的解析下来,可以做参考,如果有错,可以告诉我,将在下次解析里重 ...
- 信息学奥赛一本通(C++版) 刷题 记录
总目录详见:https://blog.csdn.net/mrcrack/article/details/86501716 信息学奥赛一本通(C++版) 刷题 记录 http://ybt.ssoier. ...
- 最近公共祖先三种算法详解 + 模板题 建议新手收藏 例题: 信息学奥赛一本通 祖孙询问 距离
首先什么是最近公共祖先?? 如图:红色节点的祖先为红色的1, 2, 3. 绿色节点的祖先为绿色的1, 2, 3, 4. 他们的最近公共祖先即他们最先相交的地方,如在上图中黄色的点就是他们的最近公共祖先 ...
最新文章
- iOS lldb调试
- 必备 | 人工智能和数据科学的七大 Python 库
- JAVA从下载到浏览器运行完整篇,写给lewis
- 云桌面技术在全国计算机等级考试中发挥护航作用
- 微软2019暑期实习笔试题
- 两平面平行方向向量关系_立体几何平行证明的四大必杀绝技------赞!很赞!!非常赞!!!...
- opensip db mysql_opensip和opensip_cp安装配置
- java解析xml串标签_Java反射解析XML字符串并封装到指定的JavaBean
- 无线传感器网络 | 期末复习知识点1
- c++注释快捷键_是不是晚了点:Visual Studio可以自动生成注释啦!
- 由SELECT ... FROM ... FOR UPDATE想到的
- 最完美的matlab绘图教程集合
- 如果面试官问您还有什么问题要问的,应该如何巧妙的回答才算合适呢?
- 远程连接服务器数据库报错:Host ‘XXXXXX’ is blocked because of many connection errors
- $.ajax %5b%5d,数据传回后台数带有%5B%5D的问题
- metro风格的特点
- Labelme对图像标注、json转化png格式
- 中国水疗市场趋势报告、技术动态创新及市场预测
- 设置Windows默认登录方式为智能卡登录
- unity入门精要之第6 章 Unity 中的基础光照概述-1