今天呢!给大家带来很火的流浪地球的爬虫

我们爬取的是它的影评!!!!

嘿嘿嘿!!!

首先:

我们会用到以下的库

import requests
from bs4 import BeautifulSoup

接下来爬取的代码如下:

def getHTMLText(url,headers,code='utf8'):
    try:
        r=requests.get(url,headers=headers,timeout=30)
        r.raise_for_status()
        r.encoding=code
        #r.encoding=r.apparent_encoding
        #print(r.text[:1000])
        return r.text
    except:
        return "爬取失败"
    
def getComment(url,headers):
    html=getHTMLText(url,headers)
    soup=BeautifulSoup(html,'html.parser')
    comment=soup.findAll('span','short')
    lst=[]
    for com in comment:
        lst.append(com.getText()+'\n')
    return lst

def main():
    headers={'Accept':'*/*',
             'Accept-Encoding':'gzip, deflate, br',
             'Accept-Language':'zh-CN,zh;q=0.9',
             'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36'
                          '(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
            }
    f=open('流浪地球豆瓣评论.txt', 'w', encoding='utf-8')
    for page in range(10):
        url='https://movie.douban.com/subject/26266893/comments?start='+ str(20*page) +'&limit=20&sort=new_score&status=P'
        print ("正在爬取第%s页的评论:" % (page+1))
        print (url+'\n')
        for i in getComment(url,headers):
            f.write(i)
    print("爬取完成")

if __name__=='__main__':
    main()

爬取的结果如下:

喜欢的话,点个赞吧!!!

《python简单爬取流浪地球影评 | CSDN创作打卡》相关推荐

  1. ComeFuture英伽学院——2020年 全国大学生英语竞赛【C类初赛真题解析】(持续更新)

    视频:ComeFuture英伽学院--2019年 全国大学生英语竞赛[C类初赛真题解析]大小作文--详细解析 课件:[课件]2019年大学生英语竞赛C类初赛.pdf 视频:2020年全国大学生英语竞赛 ...

  2. ComeFuture英伽学院——2019年 全国大学生英语竞赛【C类初赛真题解析】大小作文——详细解析

    视频:ComeFuture英伽学院--2019年 全国大学生英语竞赛[C类初赛真题解析]大小作文--详细解析 课件:[课件]2019年大学生英语竞赛C类初赛.pdf 视频:2020年全国大学生英语竞赛 ...

  3. 信息学奥赛真题解析(玩具谜题)

    玩具谜题(2016年信息学奥赛提高组真题) 题目描述 小南有一套可爱的玩具小人, 它们各有不同的职业.有一天, 这些玩具小人把小南的眼镜藏了起来.小南发现玩具小人们围成了一个圈,它们有的面朝圈内,有的 ...

  4. 信息学奥赛之初赛 第1轮 讲解(01-08课)

    信息学奥赛之初赛讲解 01 计算机概述 系统基本结构 信息学奥赛之初赛讲解 01 计算机概述 系统基本结构_哔哩哔哩_bilibili 信息学奥赛之初赛讲解 02 软件系统 计算机语言 进制转换 信息 ...

  5. 信息学奥赛一本通习题答案(五)

    最近在给小学生做C++的入门培训,用的教程是信息学奥赛一本通,刷题网址 http://ybt.ssoier.cn:8088/index.php 现将部分习题的答案放在博客上,希望能给其他有需要的人带来 ...

  6. 信息学奥赛一本通习题答案(三)

    最近在给小学生做C++的入门培训,用的教程是信息学奥赛一本通,刷题网址 http://ybt.ssoier.cn:8088/index.php 现将部分习题的答案放在博客上,希望能给其他有需要的人带来 ...

  7. 信息学奥赛一本通 提高篇 第六部分 数学基础 相关的真题

    第1章   快速幂 1875:[13NOIP提高组]转圈游戏 信息学奥赛一本通(C++版)在线评测系统 第2 章  素数 第 3 章  约数 第 4 章  同余问题 第 5 章  矩阵乘法 第 6 章 ...

  8. 信息学奥赛一本通题目代码(非题库)

    为了完善自己学c++,很多人都去读相关文献,就比如<信息学奥赛一本通>,可又对题目无从下手,从今天开始,我将把书上的题目一 一的解析下来,可以做参考,如果有错,可以告诉我,将在下次解析里重 ...

  9. 信息学奥赛一本通(C++版) 刷题 记录

    总目录详见:https://blog.csdn.net/mrcrack/article/details/86501716 信息学奥赛一本通(C++版) 刷题 记录 http://ybt.ssoier. ...

  10. 最近公共祖先三种算法详解 + 模板题 建议新手收藏 例题: 信息学奥赛一本通 祖孙询问 距离

    首先什么是最近公共祖先?? 如图:红色节点的祖先为红色的1, 2, 3. 绿色节点的祖先为绿色的1, 2, 3, 4. 他们的最近公共祖先即他们最先相交的地方,如在上图中黄色的点就是他们的最近公共祖先 ...

最新文章

  1. iOS lldb调试
  2. 必备 | 人工智能和数据科学的七大 Python 库
  3. JAVA从下载到浏览器运行完整篇,写给lewis
  4. 云桌面技术在全国计算机等级考试中发挥护航作用
  5. 微软2019暑期实习笔试题
  6. 两平面平行方向向量关系_立体几何平行证明的四大必杀绝技------赞!很赞!!非常赞!!!...
  7. opensip db mysql_opensip和opensip_cp安装配置
  8. java解析xml串标签_Java反射解析XML字符串并封装到指定的JavaBean
  9. 无线传感器网络 | 期末复习知识点1
  10. c++注释快捷键_是不是晚了点:Visual Studio可以自动生成注释啦!
  11. 由SELECT ... FROM ... FOR UPDATE想到的
  12. 最完美的matlab绘图教程集合
  13. 如果面试官问您还有什么问题要问的,应该如何巧妙的回答才算合适呢?
  14. 远程连接服务器数据库报错:Host ‘XXXXXX’ is blocked because of many connection errors
  15. $.ajax %5b%5d,数据传回后台数带有%5B%5D的问题
  16. metro风格的特点
  17. Labelme对图像标注、json转化png格式
  18. 中国水疗市场趋势报告、技术动态创新及市场预测
  19. 设置Windows默认登录方式为智能卡登录
  20. unity入门精要之第6 章 Unity 中的基础光照概述-1

热门文章

  1. OSChina 周日乱弹 ——不会Ctrl+S的笨蛋
  2. JavaScript入门基础学习总结
  3. 190321 逆向-花指令去除(脚本)
  4. opencv神经网络库之SVM和ANN_MLP的使用【 OpenCV 技能树评测】
  5. 腾讯云的云直播和即时通讯IM开发(全网最详细之一)
  6. Kong系列-05-使用入门
  7. 电路原理实验八:受控源特性测试
  8. SSDsim simulation function:simulate()
  9. 洛谷 P2495 [SDOI2011]消耗战 虚树
  10. C语言学习笔记13-文件