久旱逢甘霖

西安连着几天温度排行全国三甲,也许是《哪吒之魔童降世》的剧组买通了老天,从踩着风火轮的小朋友首映开始,就全国性的持续高温,还好今天凌晨的一场暴雨,算是将大家从中暑边缘拯救回来了。不知道有多少人看了这部国产动漫,但5天破9亿的票房已然不错,可惜忙碌的我只能在朋友圈看看好友的观影评价+晒门票。

爬虫解析

最近更新爬虫的文章较多,对于这种投入量小,回报率高且装13效果好的python方向,大家都比较喜欢。其实单纯的爬虫很简单,麻烦的是网站的接口分析与数据解析。通常我们大量的时间,用在了对网站数据流的分析,最终得到数据接口的过程。这部分的内容,针对不同网站需要单独分析,没有一个可以套的公式,所以讲起来也没有太好的效果。那么,除去了网站分析,刚才提到的数据解析是否有可复用的地方呢?当然…

网站数据解析

说到网站的数据解析,那么我们首先得找一个供我们爬虫的网站,既然刚才提到了哪吒,我们就拿豆瓣评分来举例子吧:

点击网页短评的全部xxx条链接,即可进入该动画的全部影评网页:

之后我们来看看短评界面的数据结构:

我们可以看到,所有的评论都包裹在一个class=”mod-bd”和id=”comments”的div中,这里注意个html的常识,绝大多数的情况下,如果一个标签存在id和class,那么你请优先选择id作为你的定位游标,因为它具备唯一性。当然你也可以使用class定位,但它可能存在多个,如何判断是否唯一呢?这里教你个简单的方法…

console下编写js

我们F12打开浏览器的开发者工具,然后选择Console标签页,通过js代码输入你想了解的class等标签名称即可:

> document.getElementsByClassName("mod-bd").length
< 1
> document.getElementsByClassName("comment").length
< 20
> document.getElementsByTagName('a').length
< 133
> document.getElementsByName("description").length
< 1

土办法

如果你觉得F12看这很不习惯,就是想搜索,那么你可以再网页上右键+查看源代码(快捷键CTRL+U),但这种方式极其不推荐…

爬虫获取数据

分析了网页结构,就到了代码筛选网页数据的过程了。通常这个时候我们该考虑两件事,获取网站源码与数据过滤

获取网站源码

首先如何通过代码获取到网页的整体源码,并通过规则完成批量获取。我们点击豆瓣影评的下一页,会看到url如下:
https://movie.douban.com/subject/26794435/comments?start=20&limit=20&sort=new_score&status=P
其中问号以后,是网站get请求是附带的传参,其中只需要关注start=20即可,其他的参数都可以忽略不会影响到最终的数据获取。
所以,我们只需要定制匹配规则后,编写代码:

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/30 2:44
# @Software : PyCharm
# @version  :Python 3.7.3
# @File     : MovieComments.pyimport requestsclass MovieComments:def __init__(self):self.pages = 1def make_urls(self):for page in range(self.pages):r = requests.get("https://movie.douban.com/subject/26794435/comments?start={}".format(page * 20))print(r.text)if __name__ == '__main__':main = MovieComments()main.make_urls()

我们先获取第一页的数据,来进行下测试,针对返回的结果,我们找一个关键字确认下,就找刚才那个评分人名字吧丁凯乐,看看有没有

确认数据获取无误,下来我们就可以适当放开pages的数量,按照你想获取的页数,进行爬虫了。

数据过滤

按照上面的得到了网页的源码只是很小的一步,我们还需要将网页源码内容进行数据过滤,最终得到我们想要的数据…看过刚才的网页分析,我们了解到了需求内容,需要获取每一条影评中的影评人、推荐指数、影评内容、点赞数、评论时间。该怎么过滤出这些数据呢?通常的方式有两种:

  1. 直接使用正则去匹配所需内容

  2. 使用python的BeautifulSoup模块

re与BeautifulSoup比较

有一句话说的好,当一件事情遇到了正则,那么它将变为两件事。这句话的意思不言而喻,正则是一件让人头疼的事情,但为什么使用度还这么高,因为它的高效率。
那么BeautifulSoup有什么优势呢?抛开上纲上线的纯Python模块更加Pythonic的客套话,BeautifulSoup的定位方式与js、selenium、css selector等等同类型语言或者工具都大相径庭,所谓一通百通,学会了一种就相当于学会了一个范围的内容。但还是要说一点,纯python开发的模块,运行效率不如re高…,所以,说了半天你会选择哪个模块进行定位?

BeautifulSoup

介绍

BeautifulSoup 库的名字取自刘易斯 ·卡罗尔在《爱丽丝梦游仙境》里的同名诗歌:
“美味的汤,绿色的浓汤,
在热气腾腾的盖碗里装!
谁不愿意尝一尝,这样的好汤?
晚餐用的汤,美味的汤!”

这诗歌吧…恩,欣赏不来。

安装&导入

使用pip install beautifulsoup4命令,即可完成安装操作。
导入时,我们需要注意它的名称变更,需使用:from bs4 import BeautifulSoup

使用

当我们将网页的t.text传输给BeautifulSoup时,还需要引入语法分析器,默认使用较多的为lxml和html.parser,之前介绍手机打造python开发者桌面时,说过这两个模块html.parser是python自带的模块,而lxml则需要安装,切安装时在linux等环境下经常报错,但优点是效率高。

元素定位

BeautifulSoup的元素定位方式多种多样,下面我们挑选常用的集中方式进行讲解…为了方便测试,我们将刚才的网页保存至本地。

...
with open('comments.html', 'w', encoding='utf-8') as f:f.write(r.text)
...

之后我们在本地读取文件,免得每次去请求豆瓣影评:

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/30 3:32
# @Software : PyCharm
# @version  :Python 3.7.3
# @File     : LearnBeautifulsoup.pyfrom bs4 import BeautifulSoupwith open('comments.html', encoding='utf-8') as f:html = f.read()soup = BeautifulSoup(html, 'lxml')

标签定位

标签定位方式最为简单,print(soup.h1) >>> <h1>哪吒之魔童降世 短评</h1>
当然它也等同于:
print(soup.find('h1')) >>> <h1>哪吒之魔童降世 短评</h1>
print(soup.html.body.h1) >>> <h1>哪吒之魔童降世 短评</h1>

find与findAll

这两个方法在js、selenium中也有同类的方法,意味查找一个和查找所有。同事findAll返回结果为list,支持列表切片的操作。
find(tag, attributes, recursive, text, keywords)
findAll(tag, attributes, recursive, text, limit, keywords)
一般我们常使用的只要tag和attributes字段。
print(soup.findAll((‘h1’,’title’)))
print(soup.findAll(“div”, {“class”:”mod-bd”}))
recursive默认为True,表示递归抓取,如果设置成False,那么仅抓取游标的一级标签,而忽略器所有子标签
limit这是findAll的一个切片操作,类似于print(soup.findAll(“div”, {“class”:”comment”}))[:limit]
keyword为关键字,比如:print(soup.find(id=”comments”))。
注意:keyword中由于是使用赋值操作,当遇到class这种类关键字是,需要这么写:soup.find(class_=”mod-bd”)

巧用attrs


我们注意到每一个短评数据中,都有一个data-cid的属性,那么当我们巧用该属性,就可以立即定位到每个影评,方式如下:
print(soup.findAll(“div”, attrs={‘data-cid’:True}))

子与后代标签

child、children、descendants,都表示标签的子标签,只是descendants表示所有子孙标签,而child和children只是一级子标签,区别在于单个和所有的筛选

兄弟父子标签

next_siblings表示当前标签之后的所有子标签,要注意这个之后的操作,比如之前的comment-item,我们代码这么写:

for i in soup.findAll("div", attrs={'data-cid':True})[-3].next_siblings:print(i)

我们扎到本页所有评论后,定位到倒数第三条评论,然后使用next_siblings,那么代码只会找到这条评论之后的-2和-1两条评论。
至于parent和parents就再简单不过了,无非是我限定为到子级标签,之后逆推至它的父级标签:
print(soup.find("div", attrs={'data-cid':True}).parent)我们先定位到一条评论,之后获取其父标签,结果将是得到了整页的20条评论

引入正则

虽然不想单独说正则,但是BeautifulSoup在定位过程中,确实支持正则表达式的匹配使用的,简单举个例子吧:
print(soup.findAll("div", {"class":re.compile("comment-.*?")}))
通过re.compile制定匹配规则,一样可以获取到所有的评论信息…

The End

OK,今天的内容就到这里,如果觉得内容对你有所帮助,欢迎点击文章右下角的“在看”。
期待你关注我的公众号清风Python,如果觉得不错,希望能动动手指转发给你身边的朋友们。

作者:清风Python

通过哪吒动漫豆瓣影评,带你分析python爬虫与BeautifulSoup快速入门相关推荐

  1. python爬虫豆瓣电影短评_【Python爬虫】BeautifulSoup爬取豆瓣电影短评

    目的:爬取豆瓣[红海行动]电影的首页短评 步骤: 1.使用BeautifulSoup解析网页 soup = BeautifulSoup(r, 'lxml') // lxml 库解析速度快,也能解析复杂 ...

  2. 视频教程-手把手带你学会python爬虫-Python

    手把手带你学会python爬虫 曾在某大型公司大型互联网任职多年,在公司主要从事移动端开发.全栈开发.主要技术栈是Android.Java.Python.爬虫.Linux等等. 赵庆元 ¥99.00 ...

  3. 手把手带你飞Python爬虫+数据清洗新手教程(一)

    本文共有2394字,读完大约需要10分钟. 目录 简介 思考 撸起袖子开始干 1 获取网页源代码 2 在网页源代码里找出所需信息的位置 3 数据清洗 4 完整代码 5 优化后的代码 简介 本文使用An ...

  4. Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)

    Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1) 1.  爬虫设计的技术 1)数据获取,通过http获取网站的数据,如urllib,urllib2,requests等模块: ...

  5. python list find_一篇文章带你了解Python爬虫常用选择器

    原创 麦自香 Python爬虫案例 当我们初学爬虫的时候,我们都会选择一些最基本的网站,往往不带任何反爬措施.比如某个博客站点,我们要爬全站的话,就顺着列表页爬到文章页,再把文章的时间.作者.正文等信 ...

  6. 域名带后缀_[Python 爬虫]获取顶级域名及对应的 WHOIS Server 及 whoisservers.txt 下载...

    使用 Python 爬虫获取顶级域名及对应的 WHOIS Server 并保存可用于 WhoisCL.exe 的文件 whois-servers.txt. 环境: Windows 10 Python ...

  7. python安卓自动化实现方法_带你用 Python 实现自动化群控(入门篇)

    原标题:带你用 Python 实现自动化群控(入门篇) 来自公众号: AirPython 1. 前言 群控,相信大部分人都不会陌生!印象里是一台电脑控制多台设备完成一系列的操作,更多的人喜欢把它和 H ...

  8. 带你用 Python 实现自动化群控(入门篇)

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 别君去兮何时还?且放白鹿青崖间.须 ...

  9. python翻页爬豆瓣影评_Python超级简单的爬虫案例--爬豆瓣影评为例

    今天试了下Python的爬虫,果然简单的一批,适合懵懂的小白.就先放代码吧... from bs4 import BeautifulSoup import requests url = 'https: ...

最新文章

  1. mSystems和Microbiology Spectrum杂志“肠道微生态专题”论文征稿
  2. 腾讯新公开这张「图」,我看了眼,上面写满「智驾」二字
  3. Android通过for循环批量发送短信
  4. 项目中遇到Cannot read property 'length' of null
  5. 【MongoDB】增删改查基本操作
  6. mysql 枚举_是否推荐使用MySQL的enum类型?
  7. 【python之路10】python实例练习
  8. dispatcherServlet源码分析之doDispatch
  9. 7z源码的编译与使用_markdown 格式
  10. java 制作简历_个人简历java制作.doc
  11. 如何强制卸载Google浏览器,不用担心Google打开为白板,亲测有效。
  12. Ps 原来排版证件照如此简单(╹ڡ╹ )
  13. Tableau实战 Tableau官网各版块访问情况(一)总访问量树状图
  14. 初始化一个java空数组_Java 数组的两种初始化方式
  15. 王道数据结构2.2.4——1、设计递归算法删除不带头结点的单链表L中所有值为x的结点
  16. 高仿 IOS遨游哈哈最新版
  17. 蔚来事故背后真相:Pilot只是舒适性功能,NOP仅是公开测试版本
  18. 条码/RFID标签打印方案
  19. 遨游3存放数据的位置
  20. JAVA操作PDF文件

热门文章

  1. cass读取dat文件_南方CASS教程+视频讲解+插件汇总,小白快速上手的测绘神器
  2. 3mysql的引擎哪_你知道哪几种MySQL存储引擎?
  3. lisp读取天正轴号_第2天:Python 基础语法
  4. 中移物联网答案java_【分享】中移物联网校园招聘笔试-java
  5. java日期算前一天_java 根据系统日期获取前一天、后一天时间(根据初始日期推算出期望(向前/向后)日期)...
  6. http协议工作原理(精简)
  7. mysql 开启binglog
  8. MyBatis自学(1):MyBatis概述
  9. 某工程车零部件制造厂商
  10. Keras官方中文文档:Keras安装和配置指南(Windows)