此代码未采用任何反爬虫策略

''''This is a module
'''import refrom urllib import request
# 断点调试class Spider():'''This is a class'''# 私有方法# 匹配所有字符 [\s\S]*? 非贪婪url='https://www.panda.tv/all?pdt=1.27.psbar-menu.0.1oj9bbkfjbh'root_pattern = '<div class="video-info">([\w\W]*?)</div>'name_pattern = '</i>([\w\W]*?)</span>'number_pattern = '<span class="video-number">([\w\W]*?)</span>'def __fetch_content(self):# This is a HTTP requestr = request.urlopen(Spider.url)  # 字节码htmls = r.read()htmls = str(htmls,encoding='utf-8')return htmlsdef __analysis(self, htmls):root_html = re.findall(Spider.root_pattern, htmls)anchors = []for html in root_html:name = re.findall(Spider.name_pattern, html)number = re.findall(Spider.number_pattern, html)anchor = {'name':name,'number':number}anchors.append(anchor)# print(root_html[0])# print(anchors[0])# print(anchors)return anchorsdef __refine(self, anchors):# 匿名函数lambdal = lambda anchor: {'name':anchor['name'][0].strip(),'number':anchor['number'][0]}# r = map(l, anchors)# print(r)return map(l,anchors)def __sort(self, anchors):# 默认增序anchors = sorted(anchors, key = self.__sort_seed, reverse=True)return anchorsdef __sort_seed(self, anchor):r = re.findall('\d*', anchor['number'])number = float(r[0])if '万' in anchor['number']:number *= 10000return numberdef __show(self, anchors):for rank in range(0, len(anchors)):print('rank'+str(rank+1)+':'+anchors[rank]['name']+' '+anchors[rank]['number'])def go(self):htmls = self.__fetch_content()# self.__analysis(htmls)anchors = self.__analysis(htmls) # anchors = self.__refine(anchors)anchors = list(self.__refine(anchors))# print(anchors)# anchors = list(self.__refine(anchors))anchors = self.__sort(anchors)self.__show(anchors)# print(anchors)

spider = Spider()
spider.go()

运行该.py文件,终端显示部分结果如下:

转载于:https://www.cnblogs.com/KSYoon/p/9662812.html

原生爬虫(爬取熊猫直播人气主播排名)相关推荐

  1. python原生爬虫爬取熊猫TV LOL主播人气排行

    本文采取phthon原生爬虫,没有采用常用的爬虫框架,比较适合新手练手. 首先进入熊猫TV英雄联盟主页----https://www.panda.tv/cate/lol?pdt=1.24.s1.2.4 ...

  2. nodejs爬虫爬取 喜马拉雅FM 指定主播歌单并下载

    最近一直在学英语,因此写了个爬虫爬取歌单并下载,然后随时都可以听. GitHub地址:https://github.com/leeseean/nodejs-crawler. 页面分析 要用爬虫下载音频 ...

  3. python熊猫小课成果_python实战之原生爬虫(爬取熊猫主播排行榜)

    """ this is a module,多行注释 """ import re from urllib import request # B ...

  4. 原生爬虫爬取虎牙绝地求生直播热度排行榜

    原生爬虫爬取虎牙绝地求生直播热度排行榜 首先需要相应的知识储备: (1)import 导入方法 (2)面向对象思想 (3)for循环运用 (4)正则表达式 (5)lambda方法的应用 本次原生爬虫爬 ...

  5. 使用seleinum模块动态爬取熊猫直播平台全部的主播房间。

    爬取熊猫平台的数据也是使用面向对象的思想,和同样的逻辑思维,可以借鉴一下这种逻辑思维.至于解析可以参看我的这一篇博客:https://blog.csdn.net/qq_39198486/article ...

  6. 利用Python爬虫爬取斗鱼直播间信息,以及直播的实际人数!

    首先我准备利用mysql来存储我爬取的信息,建一个host表如下: 然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作: Unit_Mtsql 然后就是使用Beautiful ...

  7. 使用Python自带的库和正则表达式爬取熊猫直播主播观看人气

    主要是体现代码的规范性 from urllib import request import reclass Spider():url = 'https://www.panda.tv/cate/lol' ...

  8. python3 [爬虫入门实战]爬取熊猫直播用户信息

    爬取国内各大直播平台直播信息是以后要做的一个功课,还必须是做成一个系列的,可能远没有其他大神那么厉害,毕竟自己经历过的就是有用的,在此做个记录一下 首先我们需要爬取的内容: 这里我们要爬取的有 直播房 ...

  9. 【爬虫+数据分析】爬取了虎牙36709主播信息,发现虎牙每天都是在直播王者荣耀和英雄联盟

    2021 年 3 月,虎牙交出了去年成绩单,披露发布了 2020 年 Q4 及全年财报.2020 年第四季度,虎牙总收入为 29.90 亿元,全年总收入为 109.14 亿元. 于是一个恶心的念头想起 ...

最新文章

  1. 13个JavaScript图表图形绘制插件
  2. Android - could not install *smartsocket* listener
  3. The 'Microsoft Jet OLEDB 4.0 Provider' is not registered on the local machine
  4. 【Python相关】jupyter平台最强插件没有之一
  5. Java for循环的几种用法
  6. msdn画圆弧函数_三角函数常识2020
  7. 网页添加马赛克模糊插件工具
  8. MySQL SQL 优化命令行问题 SQL 抓取方式
  9. 图解TCP/IP第一章学习
  10. bzoj 2244: [SDOI2011]拦截导弹
  11. TF-IDF算法-golang实现
  12. [1034]安装Xposed框架+JustTrustMe
  13. 电子邮箱邮件怎么撤回,邮箱如何撤回邮件?
  14. 2019.3 计算机考试资料大放送
  15. docker容器搭建discuz论坛
  16. 谈谈我个人对WEB3.0对一些看法
  17. echarts实现省份地图
  18. 该怎么去学UI设计?UI设计学习路线分享
  19. 分享99个JS幻灯片代码,总有一款适合您
  20. 检测下你的显示器是否有问题

热门文章

  1. Android10 修改音量级别和默认音量
  2. 弹性盒模型响应式布局
  3. 【记录】开源软件缺陷定位工具合集(fault localization tool)
  4. Mac系统下MySQL的下载安装和配置教程
  5. 修改word作者以及用户信息(即最后一次保存者)
  6. 第五章 数据库设计和事务 ① 笔记
  7. 将 Google 登录集成到您的 Android 应用中
  8. 通过压力测试提升服务器并发性能实例
  9. 云计算:openstack neutron(tap、qvb、qvo、qbr详解)
  10. python可以在苹果系统上装吗_在 Mac OS X 装不上 TensorFlow?看了这篇就会装