原生爬虫(爬取熊猫直播人气主播排名)
此代码未采用任何反爬虫策略 ''''This is a module '''import refrom urllib import request # 断点调试class Spider():'''This is a class'''# 私有方法# 匹配所有字符 [\s\S]*? 非贪婪url='https://www.panda.tv/all?pdt=1.27.psbar-menu.0.1oj9bbkfjbh'root_pattern = '<div class="video-info">([\w\W]*?)</div>'name_pattern = '</i>([\w\W]*?)</span>'number_pattern = '<span class="video-number">([\w\W]*?)</span>'def __fetch_content(self):# This is a HTTP requestr = request.urlopen(Spider.url) # 字节码htmls = r.read()htmls = str(htmls,encoding='utf-8')return htmlsdef __analysis(self, htmls):root_html = re.findall(Spider.root_pattern, htmls)anchors = []for html in root_html:name = re.findall(Spider.name_pattern, html)number = re.findall(Spider.number_pattern, html)anchor = {'name':name,'number':number}anchors.append(anchor)# print(root_html[0])# print(anchors[0])# print(anchors)return anchorsdef __refine(self, anchors):# 匿名函数lambdal = lambda anchor: {'name':anchor['name'][0].strip(),'number':anchor['number'][0]}# r = map(l, anchors)# print(r)return map(l,anchors)def __sort(self, anchors):# 默认增序anchors = sorted(anchors, key = self.__sort_seed, reverse=True)return anchorsdef __sort_seed(self, anchor):r = re.findall('\d*', anchor['number'])number = float(r[0])if '万' in anchor['number']:number *= 10000return numberdef __show(self, anchors):for rank in range(0, len(anchors)):print('rank'+str(rank+1)+':'+anchors[rank]['name']+' '+anchors[rank]['number'])def go(self):htmls = self.__fetch_content()# self.__analysis(htmls)anchors = self.__analysis(htmls) # anchors = self.__refine(anchors)anchors = list(self.__refine(anchors))# print(anchors)# anchors = list(self.__refine(anchors))anchors = self.__sort(anchors)self.__show(anchors)# print(anchors) spider = Spider() spider.go()
运行该.py文件,终端显示部分结果如下:
转载于:https://www.cnblogs.com/KSYoon/p/9662812.html
原生爬虫(爬取熊猫直播人气主播排名)相关推荐
- python原生爬虫爬取熊猫TV LOL主播人气排行
本文采取phthon原生爬虫,没有采用常用的爬虫框架,比较适合新手练手. 首先进入熊猫TV英雄联盟主页----https://www.panda.tv/cate/lol?pdt=1.24.s1.2.4 ...
- nodejs爬虫爬取 喜马拉雅FM 指定主播歌单并下载
最近一直在学英语,因此写了个爬虫爬取歌单并下载,然后随时都可以听. GitHub地址:https://github.com/leeseean/nodejs-crawler. 页面分析 要用爬虫下载音频 ...
- python熊猫小课成果_python实战之原生爬虫(爬取熊猫主播排行榜)
""" this is a module,多行注释 """ import re from urllib import request # B ...
- 原生爬虫爬取虎牙绝地求生直播热度排行榜
原生爬虫爬取虎牙绝地求生直播热度排行榜 首先需要相应的知识储备: (1)import 导入方法 (2)面向对象思想 (3)for循环运用 (4)正则表达式 (5)lambda方法的应用 本次原生爬虫爬 ...
- 使用seleinum模块动态爬取熊猫直播平台全部的主播房间。
爬取熊猫平台的数据也是使用面向对象的思想,和同样的逻辑思维,可以借鉴一下这种逻辑思维.至于解析可以参看我的这一篇博客:https://blog.csdn.net/qq_39198486/article ...
- 利用Python爬虫爬取斗鱼直播间信息,以及直播的实际人数!
首先我准备利用mysql来存储我爬取的信息,建一个host表如下: 然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作: Unit_Mtsql 然后就是使用Beautiful ...
- 使用Python自带的库和正则表达式爬取熊猫直播主播观看人气
主要是体现代码的规范性 from urllib import request import reclass Spider():url = 'https://www.panda.tv/cate/lol' ...
- python3 [爬虫入门实战]爬取熊猫直播用户信息
爬取国内各大直播平台直播信息是以后要做的一个功课,还必须是做成一个系列的,可能远没有其他大神那么厉害,毕竟自己经历过的就是有用的,在此做个记录一下 首先我们需要爬取的内容: 这里我们要爬取的有 直播房 ...
- 【爬虫+数据分析】爬取了虎牙36709主播信息,发现虎牙每天都是在直播王者荣耀和英雄联盟
2021 年 3 月,虎牙交出了去年成绩单,披露发布了 2020 年 Q4 及全年财报.2020 年第四季度,虎牙总收入为 29.90 亿元,全年总收入为 109.14 亿元. 于是一个恶心的念头想起 ...
最新文章
- 13个JavaScript图表图形绘制插件
- Android - could not install *smartsocket* listener
- The 'Microsoft Jet OLEDB 4.0 Provider' is not registered on the local machine
- 【Python相关】jupyter平台最强插件没有之一
- Java for循环的几种用法
- msdn画圆弧函数_三角函数常识2020
- 网页添加马赛克模糊插件工具
- MySQL SQL 优化命令行问题 SQL 抓取方式
- 图解TCP/IP第一章学习
- bzoj 2244: [SDOI2011]拦截导弹
- TF-IDF算法-golang实现
- [1034]安装Xposed框架+JustTrustMe
- 电子邮箱邮件怎么撤回,邮箱如何撤回邮件?
- 2019.3 计算机考试资料大放送
- docker容器搭建discuz论坛
- 谈谈我个人对WEB3.0对一些看法
- echarts实现省份地图
- 该怎么去学UI设计?UI设计学习路线分享
- 分享99个JS幻灯片代码,总有一款适合您
- 检测下你的显示器是否有问题