1.目标数据:

数据来源:

目标描述:

建立一个爬虫项目,抓取豆瓣上对电影《我不是药神》的热门短评,采集字段包括:

用户昵称

评论时间

觉得有用的人数

短评内容

2.开始爬虫

采集策略:

本次采集数据拟使用Requests库的requests.get()函数自动爬取html页面,然后使用Beautifulsoup库对下载的“标签树”html文本进行解析和遍历。

实现模拟登陆:

由于豆瓣设有反爬虫机制,若未登录的话则一次只能爬取60条评论,所以本次爬虫获取数据最主要的一个部分是实现模拟登陆:

def Login(headers,loginUrl,formData):

r = s.post(loginUrl, data=formData, headers=headers) # 提交登录信息

print (r.url)

print (formData["redir"])

if r.url == formData["redir"]:

print ("登陆成功") # 若登录后返回的页面是想要爬取的页面则说明登录成功

else:

print ("第一次登陆失败")

page = r.text

soup = BeautifulSoup(page, "html.parser")

captchaAddr = s

python爬虫豆瓣电影我不是药神的评价_Python | 爬取《我不是药神》电影热门短评...相关推荐

  1. Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称

    Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称   这一节主要是使用xpath解析爬取全国城市名称 这里使用的网址是:空气质量历史数据查询   这一个案例体现的点主要是xpat ...

  2. 【爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】

    [爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj

  3. 【【数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】-哔哩哔哩】 https://b23.tv/iTt30QG

    [[数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩]-哔哩哔哩] https://b23.tv/iTt30QG ht ...

  4. 零基础入门python爬虫之《青春有你2》选手信息爬取

    零基础入门python爬虫之<青春有你2>选手信息爬取 完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...

  5. python爬虫教程(五):解析库bs4及爬取实例

    大家好,今天分享的是解析库中的bs4,本文章的目的是让你知道如何使用bs4,并且附带爬取实例. 目录 一.bs4简介 二.安装及初始印象 1.安装 2.解析器 3.初始印象 三.选择元素的方法 1.方 ...

  6. python爬虫之Scrapy介绍八——Scrapy-分布式(以爬取京东读书为示例)

    Scrapy-分布式(scrapy-redis)介绍 1 Scrapy-分布式介绍 1.1 Scrapy-redis工作原理 1.2 Scrapy-redis 安装和基本使用 1.2.1 安装 1.2 ...

  7. python爬虫你们最爱的YY小姐姐,这不爬取下来看看?

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 ( 想要学习Python?Python学习交流群:1039649593,满足你的需 ...

  8. Python爬虫入门实例五之淘宝商品信息定向爬取(优化版)

    文章目录 写在前面 一.爬取原页面 二.编程思路 1.功能描述 2.程序的结构设计 三.编程过程 1.解决翻页问题 2.编写getHTMLText()函数 3.编写parsePage()函数 (1). ...

  9. python爬虫——用selenium和phantomjs对新浪微博PC端进行爬取(二)

    .,.上一篇文章里我选择爬取简单的微博移动端,由于移动端构造简单,一般都优先爬取移动端,且因为是静态页面,我们可以直接使用xpath或者正则表达式搞定,但pc端结构就复杂得多,不能使用前面的方法.这篇 ...

最新文章

  1. Java快速教程--vamei 学习笔记(基础篇)
  2. Javascript高级调试——console.table()
  3. 从零到一:用Phaser.js写意地开发小游戏(Chapter 4 - 游戏即将开始)
  4. hbase集群部署与测试(2017)
  5. android中SO文件动态调试
  6. 什么是整除,什么是素数
  7. mysql 内存表使用教程_MySQL的内存表的基础学习教程
  8. 电脑硬件知识学习_电脑故障小知识自己动手不再花冤枉钱
  9. WebAPI性能监控-MiniProfiler与Swagger集成
  10. ionic + angular + cordova, 打造专属自己的App!
  11. Atitit.软件开发的几大规则,法则,与原则p821.doc
  12. 认识影片版本(CAM、TS、TC、DVD、HD、BD、TVRIP等)
  13. 如何实现某个软件的单独断网/稳定地解决fluent断网计算中止问题/tecplot联网后打开程序出现报错问题
  14. 世界坐标系和相机坐标系,图像坐标系的关系
  15. 智力测验题(面试用)
  16. shopify独立站用户行为分析工具推荐-趣迹
  17. android room表关联,Android Room的用法
  18. R语言入门(2)时间序列分析原理
  19. 获取复选框的状态判断复选框是否选中状态
  20. kali下载速度慢_kali Linux 2020.1最新安装教程,绝对能帮你安装好!不是root、没有桌面、中文乱码、下载太慢、ssh链接等问题!...

热门文章

  1. Scrapy爬取伯乐在线所有文章
  2. 关于58同城自媒体号注册的链接问题!
  3. Spring Cloud 学习笔记(3 3)
  4. 从2013安防展看网络摄像机该何去何从
  5. 【JavaEE】Vincent's Understand of JPA(XMind Picture)
  6. adk java,Epson Java Pos ADK异常:它未初始化
  7. 项目初始化——HTML模板
  8. 工程院院士李德毅:数据挖掘就是云环境下的搜索服务
  9. 学习笔记(03):自然语言处理Word2Vec视频学习教程-CBOW模型实例
  10. 深入对比数据仓库模式:Kimball vs Inmon