教你用python登陆豆瓣并爬取影评

一起来 日常学python

这是我的第二篇原创文章

在上篇文章爬取豆瓣电影top250后,想想既然爬了电影,干脆就连影评也爬了,这样可以看看人们评价的电影,再加上刚出不久的移动迷官3好像挺热的,干脆就爬他吧,爬完看看好不好看!

进入主题

1.去找目标网页并找到所要找的数据

一进去网页就条件反射打开开发者工具,很容易就看到了这个

鼠标所点的就是我接下来要爬的网站,先看看他的response和请求头之类的信息,他的请求方式时get,response是一个网页结构,这就好办了,我们就可以用正则来匹配出所要的数据,正则还是个很好用的东西,请大家务必要学会啊。那接下来就动手敲代码咯!

2.用re+requests获取数据

获取信息

先把数据写入txt文件中(打开的文件要指定编码为utf-8,要不会出现编码问题,因为window的默认编码方式是gbk,而你的编码为utf-8)

正则表达式和网址

一点击运行,只运行了两页,就出了问题,因为这个评论不止两页

调试了下,在获取完第二页的时候他返回了个不存在的网页,导致我的正则表达式捕捉不到数据,出现了个空的page,所以就只下载了两页,这应该是被反爬了,继续回网页看看需要加什么请求头,然而我把全部的请求头的信息都加了,还是没用,这就触及到我的盲区了(尴尬脸),但是我可以百度啊,百度一看,看见有人说模拟登陆就可以了,那好,我就来模拟登陆一波!!!

3.模拟登陆豆瓣

首先需要看看登陆需要什么参数,这个参数是在豆瓣的登陆网址,先打开登陆,打开开发者工具(要不会看不到后面这个所需要的网页),填好信息点击登陆,然后点击这个login网页,往下拉就会看到From Data 这个框,这个就是登陆所要的参数

直接把他们复制过来即可

然后就用post把信息发到服务器完成登陆,但是这有个问题,怎么保存登陆信息呢?这就需要用到Session()来保留了,但是注意,只需要建立一个会话信息就可以了,不是每个都用这个方法,我初学时就是犯这个错误以至于我搞了很久还没有登陆成功。代码如下

然后用这个post上去,注意!注意!注意!post的网址是登陆网址,不是你要爬的网址,我刚学时也是被这个坑了很久(怎么感觉我很多问题),还有其他用requests的都需要替换成self.ssession()

最后这样

大功告成,由于只能获取500条这是因为豆瓣只开放了500条评论信息,多一条都不肯给

4.登陆多了需要填验证码

由于我多次登陆注销,然后我就需要填验证码了,然而这还是难不到我,还是分析网页找出验证码图片然后下载下来自己填写,还没有那些大佬那么厉害可以用人工智能来填写,代码如下

还有将数据保留到数据库,我就不贴了,代码和上篇文章的差不多

通过这个我学会了使用session来保存会话信息来登陆简单网页,还可以填写验证码,自己还是觉得有点高大上的,嘻嘻。由于本人还没学数据分析,就只能到这里,而生成词云也有点不会,直接复制粘贴来无趣,所以就先不写了,等大神你来写吧!

最后非常感谢你看完了我的文章,如果觉得有用可以点赞,转发哈!若需要完整代码在我后台回复影评即可,若需要python相关的电子书也可以回复pdf获得,日后还会有更多福利发给你

python豆瓣影评_教你用python登陆豆瓣并爬取影评相关推荐

  1. python opencv手册_教你用Python实现5毛钱特效(给你的视频来点料)

    一.前言 请务必看到最后.Python牛已经不是一天两天的事了,但是我开始也没想到,Python能这么牛.前段时间接触了一个批量抠图的模型库,而后在一些视频中找到灵感,觉得应该可以通过抠图的方式,给视 ...

  2. 用python做头像_教你用python下载和拼接微信好友头像图片

    相信微信大家是用得再多也不过了.那么,对于python+微信,又能玩出什么新的花样呢?下面就给大家带来一个好玩的东西.用python下载所有的微信好友的头像,然后拼接成一张大图.这样,大家就可以转载到 ...

  3. python头像教程_教你用 Python 生成一张全体微信好友的头像墙

    |前言 还记得前阵子这篇文章么: 『又来瞎鼓捣』微信群友相隔远?那也一键生成全家福 ,用来给群好友生成一张头像全家福的. 搞完那个之后我就在想,要不写一个微信好友全家福的吧?我微信里有一千多号人,生成 ...

  4. python url拼接_教你写python爬虫——用python爬原图

    环境:python3.6 + pycharm "猎物":http://www.polayoutu.com (仅学习用) 动机1:想要爬一些尺寸比较大(不是尺度)的美图养养眼,仅此而 ...

  5. 微信python天天学_教你使用python实现微信每天给女朋友说晚安

    本文为大家分享了教你用微信每天给女朋友说晚安的python实战,供大家参考,具体内容如下 但凡一件事,稍微有些重复.我就考虑怎么样用程序来实现它. 这里给各位程序员朋友分享如何每天给朋友定时微信发送& ...

  6. python文本分类_教你用python做文本分类

    什么是文本分类 一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个.通俗点说,就是拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育.文本分类是一个监督学习的过程,常见的应用就是 ...

  7. python浪漫微信_教你用python做一个哄女友的微信自动回复机器人

    虽然题目是这样的,但是为了两人的幸福,还是尽量不要这么敷衍你的女朋友,毕竟这个世上还是有很多单身狗存在的 . 这是一个github最近刚刚上传的一个开源项目,短短几天就已经有了3000+star,原本 ...

  8. python画恐龙_教你用Python实现谷歌的小恐龙游戏

    谷歌流量器中有个很有名的彩蛋:当你网络出现问题时,就会出现一个"小恐龙游戏". (如果想要直接进行游戏,可以在地址栏输入:chrome://dino ) 今天我们就来给大家演示下, ...

  9. python广告搞笑_教你用 Python 写一个搞笑版的“笨鸟”游戏:牛逼的黄瓜

    我想你应该玩过这个鸟游戏: 想当年,小编和身边的朋友在玩这个游戏的时候玩到手到快废了... 今天心血来潮,要不咱们自己用 Python 撸一个这样的游戏吧,想想还是挺好玩的. 首先我们分析一下这个鸟游 ...

最新文章

  1. 【opencv】(2) 图像处理:边界填充、图像融合、图像阈值、数值计算
  2. springboot 集成jwt设置过期时间_传说中的jwt,我们来征服一下
  3. 使用C++实现多张BMP图片转换为YUV动画----附加淡入淡出转场(逐渐变明变暗),及垂直滑像转场(逐行渐变)
  4. 从 wiscKey 看 LSMtree 的不足
  5. 关于Visual Studio 2019的前期详情
  6. 二维温度场matlab编程,二维温度场重建算法(价钱可议)
  7. 线性运算和非线性运算
  8. 你不懂API接口是什么?怎么和程序员做朋友
  9. div生成图片_Vue生成分享海报(含二维码)
  10. 13. OD-内嵌补丁,过期的软件DVD Menu Studio破解,switch函数,break等于KillTimer
  11. java image getscaledinstance_使用getImage()和getScaledInstance()调整java.awt.Image的异常大小...
  12. 生产环境中的PHP WEB 简单架构
  13. 员工端电脑重装系统或者更换电脑处理方法
  14. Java爬虫学习——实例:获取起点中文网站小说并保存成txt文件
  15. 160个crackme 008 Andrénalin.1
  16. 数据可视化大屏-Vue项目
  17. NodeJS--NVM出现exit status 1解决方法
  18. matlab编程求卫星轨道长度,基于Matlab R2011b的卫星轨道计算
  19. Android—传感器-距离传感器(ProximitySensor)
  20. vbs的msgbox的恶搞文件

热门文章

  1. python矩阵变化_python矩阵变换
  2. 细胞膜包被纳米粒(M-NPs)|双重细胞膜包裹负载siEFNA1蛋黄脂质纳米药物|生物膜包裹血管生长因子
  3. js数组方法-改变原数组和不改变原数组的方法整理
  4. mysql事务ACID原理MVCC 幻读
  5. 10月1日回顾2021CBC街舞冠军赛,以舞会友,汇聚南宁掀起街舞狂潮!
  6. IDEA Serializable 序列化ID 快捷键
  7. Python自动化运维之异常处理
  8. 虚拟机迁移(QEMU动态迁移,Libvirt动(静)态迁移)
  9. (免费分享)springboot音乐网站
  10. 定制型的OA系统要了解一下吗?