原生爬虫（爬取熊猫直播人气主播排名）

此代码未采用任何反爬虫策略

''''This is a module
'''import refrom urllib import request
# 断点调试class Spider():'''This is a class'''# 私有方法# 匹配所有字符 [\s\S]*? 非贪婪url='https://www.panda.tv/all?pdt=1.27.psbar-menu.0.1oj9bbkfjbh'root_pattern = '<div class="video-info">([\w\W]*?)</div>'name_pattern = '</i>([\w\W]*?)</span>'number_pattern = '<span class="video-number">([\w\W]*?)</span>'def __fetch_content(self):# This is a HTTP requestr = request.urlopen(Spider.url)  # 字节码htmls = r.read()htmls = str(htmls,encoding='utf-8')return htmlsdef __analysis(self, htmls):root_html = re.findall(Spider.root_pattern, htmls)anchors = []for html in root_html:name = re.findall(Spider.name_pattern, html)number = re.findall(Spider.number_pattern, html)anchor = {'name':name,'number':number}anchors.append(anchor)# print(root_html[0])# print(anchors[0])# print(anchors)return anchorsdef __refine(self, anchors):# 匿名函数lambdal = lambda anchor: {'name':anchor['name'][0].strip(),'number':anchor['number'][0]}# r = map(l, anchors)# print(r)return map(l,anchors)def __sort(self, anchors):# 默认增序anchors = sorted(anchors, key = self.__sort_seed, reverse=True)return anchorsdef __sort_seed(self, anchor):r = re.findall('\d*', anchor['number'])number = float(r[0])if '万' in anchor['number']:number *= 10000return numberdef __show(self, anchors):for rank in range(0, len(anchors)):print('rank'+str(rank+1)+':'+anchors[rank]['name']+' '+anchors[rank]['number'])def go(self):htmls = self.__fetch_content()# self.__analysis(htmls)anchors = self.__analysis(htmls) # anchors = self.__refine(anchors)anchors = list(self.__refine(anchors))# print(anchors)# anchors = list(self.__refine(anchors))anchors = self.__sort(anchors)self.__show(anchors)# print(anchors)

spider = Spider()
spider.go()

运行该.py文件，终端显示部分结果如下：

转载于:https://www.cnblogs.com/KSYoon/p/9662812.html

原生爬虫（爬取熊猫直播人气主播排名）相关推荐

python原生爬虫爬取熊猫TV LOL主播人气排行
本文采取phthon原生爬虫,没有采用常用的爬虫框架,比较适合新手练手. 首先进入熊猫TV英雄联盟主页----https://www.panda.tv/cate/lol?pdt=1.24.s1.2.4 ...
nodejs爬虫爬取喜马拉雅FM 指定主播歌单并下载
最近一直在学英语,因此写了个爬虫爬取歌单并下载,然后随时都可以听. GitHub地址:https://github.com/leeseean/nodejs-crawler. 页面分析要用爬虫下载音频 ...
python熊猫小课成果_python实战之原生爬虫(爬取熊猫主播排行榜)
""" this is a module,多行注释 """ import re from urllib import request # B ...
原生爬虫爬取虎牙绝地求生直播热度排行榜
原生爬虫爬取虎牙绝地求生直播热度排行榜首先需要相应的知识储备: (1)import 导入方法 (2)面向对象思想 (3)for循环运用 (4)正则表达式 (5)lambda方法的应用本次原生爬虫爬 ...
使用seleinum模块动态爬取熊猫直播平台全部的主播房间。
爬取熊猫平台的数据也是使用面向对象的思想,和同样的逻辑思维,可以借鉴一下这种逻辑思维.至于解析可以参看我的这一篇博客:https://blog.csdn.net/qq_39198486/article ...
利用Python爬虫爬取斗鱼直播间信息，以及直播的实际人数！
首先我准备利用mysql来存储我爬取的信息,建一个host表如下: 然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作: Unit_Mtsql 然后就是使用Beautiful ...
使用Python自带的库和正则表达式爬取熊猫直播主播观看人气
主要是体现代码的规范性 from urllib import request import reclass Spider():url = 'https://www.panda.tv/cate/lol' ...
python3 [爬虫入门实战]爬取熊猫直播用户信息
爬取国内各大直播平台直播信息是以后要做的一个功课,还必须是做成一个系列的,可能远没有其他大神那么厉害,毕竟自己经历过的就是有用的,在此做个记录一下首先我们需要爬取的内容: 这里我们要爬取的有直播房 ...
【爬虫+数据分析】爬取了虎牙36709主播信息，发现虎牙每天都是在直播王者荣耀和英雄联盟
2021 年 3 月,虎牙交出了去年成绩单,披露发布了 2020 年 Q4 及全年财报.2020 年第四季度,虎牙总收入为 29.90 亿元,全年总收入为 109.14 亿元. 于是一个恶心的念头想起 ...

原生爬虫（爬取熊猫直播人气主播排名）

原生爬虫（爬取熊猫直播人气主播排名）相关推荐

最新文章

热门文章