阅读文本大概需要 4.2 分钟。

(一)

今年的夏天,重庆的天气一反常态,到如今快 6 月份,天气还是非常的凉快。以前这个时候重庆早已 40° 高温,稍微在街上行走十分钟,就跟在操场跑了十圈一样,满身是汗。而如今出门,还要再多穿一件外套,深怕独自在异乡的自己,患上感冒。

天气的凉爽,并没有给人带来平静的心情。重庆这座年轻的城市,就像它的外号一样“火炉”,时刻散发着它的活力。

(二)

这天小痴像往常一样,开始早起乘坐两路口的轻轨。小痴找到一个座位坐下,正准备拿出手机,看看今天都发生了趣事。但这时不远处传来嘈杂的声响。原来是三个女生和另一男生,吵了起来。男生一口一个MMP,宝批龙,非常的让人心生厌恶。而女生也不敢示弱,说着一口流利的重庆话,给予反击。

(三)

小痴对于他们为何吵起,没有任何的想法。但这样的场景让他想起,最近刚看的一篇电影《血观音》。里面同样讲述三个女人,但比这个吵架更加残酷。

(四)

《血观音》描述在女人组成的棠府里,住着3位不同世代但一样懂人心的女性,由棠夫人(惠英红饰)主持大局,穿梭权贵间,靠着高超手腕与柔软身段,在复杂的政商关系中生存取利;个性如刺猬般的大女儿棠宁(吴可熙饰)为求母亲肯定,勉力配合;乖巧的小女儿棠真(文淇饰)多半静静观察,唯母命是从。直到某天,棠家亲密友人惨遭灭门事件爆发,三人各自被牵扯其中,一向以大局为重的棠夫人,为了守护一切,费尽心机,却让三人走向不同的命运。

这是豆瓣给出的剧情简述。而今天给大家带来的就是,通过 python 爬虫技术,爬取《血观音》短评,对于其它电影只要修改下 url 也可以爬取。

豆瓣影评爬虫

此次的爬虫程序,是用 requests + 正则表达式进行抓取。也是一位读者昨天在后台问我,有没有类似豆瓣影评爬虫的程序。因为她在网上找的都不能用,刚好最近复习下正则表达式的使用,就顺便写了这个程序。(主要还是因为妹子)

程序抓取结果

运行程序最后会把爬取到的 User(用户名)、Time(发布日期)、Content(评论结果),保存到 csv 文件中。

程序结构

程序主要有三个函数,分别是 get_one()、parse_page()、write_to_file()。

程序逻辑

首先进行目标网站的分析,打开豆瓣《血观音》详细页面。在谷歌浏览器按 f12 进行页面的分析。

从图可以看出是用 GET 进行请求,还有一些请求头的信息。在程序中我设置了 User-Agent 简称 UA,这个请求头。UA 的设置是为了防止目标网站把我们的程序判定为是一个爬虫,从而无法爬取。

通过 get_one() 这个函数进行数据的请求,函数返回请求的源代码。接下来就是要进行数据的提取。

通过网页结构分析,很容易找到我们需要的数据。比如上面图中,就显示用户名这个信息是保存在 a 这个标签中。对应的我们就可以使用正则表达式来获取。当然你也可以使用其它的库进行抓取,比如 xpath、beatifulsoup。

数据获取到以后,再把得到的数据保存到,相应格式的文件中。此次的程序,我保存到 csv 文件中。

数据请求

字段提取

数据存放

完整代码我已上传到 Github 上,需要的同学点击「阅读原文」即可获取。觉得程序还不错的话,不妨点个 star。

点赞、点广告是一种态度。

推荐阅读:

每天分享 python 干货

56 行代码,带你爬取豆瓣影评相关推荐

  1. 怎么把4399小游戏的代码_25行代码带你爬取4399小游戏数据,看下童年的游戏是否还在...

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 还记得童年的网页小游戏吗?今天带大家爬取4399小游戏网站的数据,游戏名字+链接地址 目标网 ...

  2. 25行代码带你爬取4399小游戏数据,看下童年的游戏是否还在

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 还记得童年的网页小游戏吗?今天带大家爬取4399小游戏网站的数据,游戏名字+链接地址 目标网 ...

  3. python爬取4399小游戏数据_25行代码带你爬取4399小游戏数据,看下童年的游戏是否还在...

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 还记得童年的网页小游戏吗?今天带大家爬取4399小游戏网站的数据,游戏名字+链接地址 目标网 ...

  4. 5行代码带你爬取 “2021福布斯排行榜“,看看中国都有哪些人?

    今天是2021年8月20号,晚上坐在家里面,突然看到了2021福布斯排行榜的新闻.于是有感而发,写了这篇文章. 新闻 : 排行榜123网富豪频道为您提供2021年福布斯富豪榜,榜单包括2021世界首富 ...

  5. 5行代码带你爬取 2021福布斯排行榜,看看中国都有谁上榜?

    今天晚上坐在家里面,突然看到了2021福布斯排行榜的新闻.于是有感而发,写了这篇文章. 新闻 :排行榜123网公布了2021年福布斯富豪榜,榜单包括2021世界首富排行榜,以及全球各个国家富豪排名.目 ...

  6. 23行代码带你爬取美女图

    爬取妹子图可能在爬虫里面没有什么技术含量了,新手练练手还是可以的. 今天爬取的网址是:http://www.youzi4.cc/mm/meinv/index_1.html 注意:爬取图片一般要加上re ...

  7. 简单几行代码带你爬取王者荣耀皮肤

    爬取王者荣耀皮肤 分析思路 源代码 爬取王者荣耀皮肤 分析思路 url:https://pvp.qq.com/web201605/js/herolist.json url还是很容易拼接的 源代码 im ...

  8. python热搜排行功能_简单几行代码用Python爬取微博的热搜榜

    简单几行代码用Python爬取微博的热搜榜 想要实时的看微博热搜 但是又不想去微博网站看!怎么办呢?其实很简单! 我们学了这个requests_html 这个库之后 就更加的简单了! 小编只用了短短的 ...

  9. 100行代码教你爬取斗图网(Python多线程队列)

    100行代码教你爬取斗图网(Python多线程队列) 前言 根据之前写的两篇文章,想必大家对多线程和队列有了一个初步的了解,今天这篇文章就来实战一下,用多线程 + 队列 爬取斗图网的全网图片. 你还在 ...

最新文章

  1. python怎么做彩票概率_用Python一次性把论文作图与数据处理全部搞定!
  2. python编程培训多少钱-想要学习Python,武汉Python编程培训费用是多少?
  3. 东北能源大数据中心正式成立,一期将建设2.4万平方米数据中心
  4. argb888与rgb888转换程序_通过相机获取bayer 图像数据转换成RGB888数据并保存
  5. mysql 全连接问题_mysql 解决全连接问题
  6. 任务管理平台_基于notion详谈任务规划的思路(二):搭建任务管理平台
  7. oracle创建表空间blocksize,oracle表空间大小的限制和DB_BLOCK_SIZE的概念
  8. 工程之道 | CPU推理性能提高数十倍,MegEngine计算图、MatMul优化解析
  9. SpringCloud工作笔记73---Http协议操作工具集合
  10. Dedecms会员中心注入漏洞
  11. 全网首发:LINUX上编译ARM(AARCH)版本的OpenJDK8
  12. php 时间戳 24小时制,如何在php中添加24小时的unix时间戳?(How do I add 24 hours to a unix timestamp in php?)...
  13. 在线matlab,亲测好用
  14. 6 二十五项反措--防止锅炉事故
  15. android 测量距离 app,手机测距软件哪个好?6款手机测距APP推荐
  16. 语音共振峰的获取python
  17. firefox 屏蔽Backspace按键的后退功能
  18. 群晖7.0搭建discuz论坛
  19. mysql select from user_select * from user 这条 SQL 语句,背后藏着哪些不可告人的秘密?...
  20. android开发常用工具类、高仿客户端、附近厕所、验证码助手、相机图片处理等源码

热门文章

  1. 王者荣耀最低战力查询接口
  2. ImageEdit 展示图片(XAML, C#)
  3. 【已解决】java.lang.annotation.AnnotationFormatError: Invalid default: public abstract java.lang.Class or
  4. 服务器主板显示不了独立显卡,独立显卡故障——如何才知道显卡和主板不兼容...
  5. 29.顺时针打印矩阵
  6. c++顺时针螺旋方阵
  7. linux备份软件rear,linux系统 备份与还原
  8. [990]Geohash算法原理及实现
  9. Win10 解决小娜助手占用过高CPU资源问题
  10. JVM2-性能监控故障处理工具