python爬虫豆瓣电影我不是药神的评价_Python | 爬取《我不是药神》电影热门短评...
1.目标数据:
数据来源:
目标描述:
建立一个爬虫项目,抓取豆瓣上对电影《我不是药神》的热门短评,采集字段包括:
用户昵称
评论时间
觉得有用的人数
短评内容
2.开始爬虫
采集策略:
本次采集数据拟使用Requests库的requests.get()函数自动爬取html页面,然后使用Beautifulsoup库对下载的“标签树”html文本进行解析和遍历。
实现模拟登陆:
由于豆瓣设有反爬虫机制,若未登录的话则一次只能爬取60条评论,所以本次爬虫获取数据最主要的一个部分是实现模拟登陆:
def Login(headers,loginUrl,formData):
r = s.post(loginUrl, data=formData, headers=headers) # 提交登录信息
print (r.url)
print (formData["redir"])
if r.url == formData["redir"]:
print ("登陆成功") # 若登录后返回的页面是想要爬取的页面则说明登录成功
else:
print ("第一次登陆失败")
page = r.text
soup = BeautifulSoup(page, "html.parser")
captchaAddr = s
python爬虫豆瓣电影我不是药神的评价_Python | 爬取《我不是药神》电影热门短评...相关推荐
- Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称
Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称 这一节主要是使用xpath解析爬取全国城市名称 这里使用的网址是:空气质量历史数据查询 这一个案例体现的点主要是xpat ...
- 【爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】
[爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj
- 【【数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】-哔哩哔哩】 https://b23.tv/iTt30QG
[[数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩]-哔哩哔哩] https://b23.tv/iTt30QG ht ...
- 零基础入门python爬虫之《青春有你2》选手信息爬取
零基础入门python爬虫之<青春有你2>选手信息爬取 完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...
- python爬虫教程(五):解析库bs4及爬取实例
大家好,今天分享的是解析库中的bs4,本文章的目的是让你知道如何使用bs4,并且附带爬取实例. 目录 一.bs4简介 二.安装及初始印象 1.安装 2.解析器 3.初始印象 三.选择元素的方法 1.方 ...
- python爬虫之Scrapy介绍八——Scrapy-分布式(以爬取京东读书为示例)
Scrapy-分布式(scrapy-redis)介绍 1 Scrapy-分布式介绍 1.1 Scrapy-redis工作原理 1.2 Scrapy-redis 安装和基本使用 1.2.1 安装 1.2 ...
- python爬虫你们最爱的YY小姐姐,这不爬取下来看看?
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 ( 想要学习Python?Python学习交流群:1039649593,满足你的需 ...
- Python爬虫入门实例五之淘宝商品信息定向爬取(优化版)
文章目录 写在前面 一.爬取原页面 二.编程思路 1.功能描述 2.程序的结构设计 三.编程过程 1.解决翻页问题 2.编写getHTMLText()函数 3.编写parsePage()函数 (1). ...
- python爬虫——用selenium和phantomjs对新浪微博PC端进行爬取(二)
.,.上一篇文章里我选择爬取简单的微博移动端,由于移动端构造简单,一般都优先爬取移动端,且因为是静态页面,我们可以直接使用xpath或者正则表达式搞定,但pc端结构就复杂得多,不能使用前面的方法.这篇 ...
最新文章
- Java快速教程--vamei 学习笔记(基础篇)
- Javascript高级调试——console.table()
- 从零到一:用Phaser.js写意地开发小游戏(Chapter 4 - 游戏即将开始)
- hbase集群部署与测试(2017)
- android中SO文件动态调试
- 什么是整除,什么是素数
- mysql 内存表使用教程_MySQL的内存表的基础学习教程
- 电脑硬件知识学习_电脑故障小知识自己动手不再花冤枉钱
- WebAPI性能监控-MiniProfiler与Swagger集成
- ionic + angular + cordova, 打造专属自己的App!
- Atitit.软件开发的几大规则,法则,与原则p821.doc
- 认识影片版本(CAM、TS、TC、DVD、HD、BD、TVRIP等)
- 如何实现某个软件的单独断网/稳定地解决fluent断网计算中止问题/tecplot联网后打开程序出现报错问题
- 世界坐标系和相机坐标系,图像坐标系的关系
- 智力测验题(面试用)
- shopify独立站用户行为分析工具推荐-趣迹
- android room表关联,Android Room的用法
- R语言入门(2)时间序列分析原理
- 获取复选框的状态判断复选框是否选中状态
- kali下载速度慢_kali Linux 2020.1最新安装教程,绝对能帮你安装好!不是root、没有桌面、中文乱码、下载太慢、ssh链接等问题!...
热门文章
- Scrapy爬取伯乐在线所有文章
- 关于58同城自媒体号注册的链接问题!
- Spring Cloud 学习笔记(3 3)
- 从2013安防展看网络摄像机该何去何从
- 【JavaEE】Vincent's Understand of JPA(XMind Picture)
- adk java,Epson Java Pos ADK异常:它未初始化
- 项目初始化——HTML模板
- 工程院院士李德毅:数据挖掘就是云环境下的搜索服务
- 学习笔记(03):自然语言处理Word2Vec视频学习教程-CBOW模型实例
- 深入对比数据仓库模式:Kimball vs Inmon