"""
Created by Young on 2019/1/16 17:00
"""from bs4 import BeautifulSoup
import requests
import json as js
import reheaders = {'user-agent':''}#之前爬取错了,这个只能爬取一页
def parsing_webpage(url):wb_data = requests.get(url,headers=headers)wb_data.encoding = "utf-8"  #解决乱码soup = BeautifulSoup(wb_data.text,'lxml',from_encoding="utf8")rooms = soup.find('ul',class_='live-list clearfix')single_rooms = rooms.find_all('li',class_='game-live-item')for single_room in single_rooms:room_title = single_room.find_all('a',class_='title new-clickstat')[0].get_text()nick_title = single_room.find_all('i',class_='nick')[0].get_text()room_popularity = single_room.find_all('i',class_='js-num')[0].get_text()print({"room_title":room_title,"nick_title":nick_title,"room_popularity":room_popularity})#正则爬取
def parsing_json(true_url):wb_data = requests.get(true_url, headers=headers)wb_data.encoding = "utf-8"  # 解决乱码temps = js.loads(wb_data.text)datas = str(temps)introduction = re.findall(" 'introduction': '(.*?)', 'recommendStatus': ", datas, re.S)totalCount = re.findall(" 'totalCount': '(.*?)', 'roomName': ", datas, re.S)nick = re.findall(" 'nick': '(.*?)', 'avatar180': ", datas, re.S)for introduction, totalCount, nick, in zip(introduction, totalCount, nick,):data = {'介绍': introduction,'人气': totalCount,'主播名': nick,}print(data)def main():for i in range(1,30):urls = {'https://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&gameId=1&tagAll=0&page={}'.format(i),#lol'https://www.huya.com/cache.php?m=LiveList&do=getLiveListByPage&gameId=279&tagAll=0&page={}'.format(i),#绝地求生}for url in urls:parsing_json(url)if __name__ == '__main__':main()

效果图:

有疑问下方评论,我看到就回回复

爬取虎牙TV全站主播信息相关推荐

  1. python怎么爬虎牙_Python爬虫:爬取虎牙星秀主播图片

    动态爬取思路讲解 1.简单的爬虫只需要访问网站搜索栏处的url,就可以在开发者工具(F12)处,利用正则表达式.Xpath.css等进行定位并抓取数据: 2.虎牙星秀页面不同于简单的网页,随时都在更新 ...

  2. python原生爬虫爬取熊猫TV LOL主播人气排行

    本文采取phthon原生爬虫,没有采用常用的爬虫框架,比较适合新手练手. 首先进入熊猫TV英雄联盟主页----https://www.panda.tv/cate/lol?pdt=1.24.s1.2.4 ...

  3. Pyhotn3,爬取B站up主的信息!

    今天搞一下,B站UP主前100名的数据信息~ 不要多想,不要多问,纯粹为了技术,不为数据~ 说我的都信了!! 接下来,老规矩,上代码,看看怎么实现爬取B站up主的信息: # -*- coding:ut ...

  4. Python爬虫:爬取某鱼颜值主播MM图片,你的最爱!?

    一.准备 1.创建scrapy项目 scrapy startproject douyu cd douyu scrapy genspider spider "www.douyu.com&quo ...

  5. Python爬虫:爬取某鱼颜值主播图片并保存到本地升级版!

    一.准备 1.创建scrapy项目 scrapy startproject douyucd douyuscrapy genspider spider "www.douyu.com" ...

  6. 使用scrapy爬取手机版斗鱼主播的房间图片及昵称

    目的:通过fiddler在电脑上对手机版斗鱼主播进行抓包,爬取所有主播的昵称和图片链接 关于使用fiddler抓取手机包的设置: 把手机和装有fiddler的电脑处在同一个网段(同一个wifi),手机 ...

  7. nodejs爬虫爬取 喜马拉雅FM 指定主播歌单并下载

    最近一直在学英语,因此写了个爬虫爬取歌单并下载,然后随时都可以听. GitHub地址:https://github.com/leeseean/nodejs-crawler. 页面分析 要用爬虫下载音频 ...

  8. python爬斗鱼直播房间名和主播名_斗鱼爬虫,爬取颜值频道的主播图片和名字

    在斗鱼的界面中,如果滚动条没有拉下去,那么下面的图片都只是一条鱼的图片,所以要使浏览器自动拉动滚动条,可以用到python的selenium库, 1.配置浏览器 要使用selenium,还需要安装 c ...

  9. 原生爬虫(爬取熊猫直播人气主播排名)

    此代码未采用任何反爬虫策略 ''''This is a module '''import refrom urllib import request # 断点调试class Spider():'''Th ...

最新文章

  1. C++ VARIANT 学习小记录
  2. mysql一个事务多个log_MySQL识别一个binlog中的一个事物
  3. lucene的Query类型
  4. 自动驾驶帆船,有史以来第一次成功横渡大西洋
  5. java 自己的 pid_Java获取自身PID方法搜集
  6. 联想Y9000P安装Ubuntu18.04+PX4+mavros+QGC
  7. python实现 模糊C均值聚类算法(Fuzzy-C-Means)-基于iris数据集
  8. 电脑配置挑选速成攻略
  9. html5抢答题,2017最新趣味数学抢答题
  10. bzoj5369 [Pkusc2018]最大前缀和(状压dp)
  11. DeepFool: a simple and accurate method to fool deep neural networks
  12. 一维码识别技术与二维码识别技术
  13. Excel数据驱动框架实战
  14. 归一法的计算方法讲解_初三化学计算题中归一法,XY法,拆分法,分配法,K值法是怎样的,最好有具体的例子...
  15. Replication进阶(三) 复制心跳详解
  16. Web安全之:WebShell的获取与查杀
  17. 南天收藏库为什么大不了_参加技术会议:有什么大不了的?
  18. Artefact China 获得CCPS网络安全等保三级证书
  19. CSS实现元素水平垂直居中的各种方法
  20. 机器学习笔记——kd树及python实现

热门文章

  1. 带你玩东方外传系列一 ~ 十游戏链接
  2. 基于QT+Opencv的红眼去除
  3. IoT物联网嵌入式设备中30种常见传感器模块简介及原理讲解
  4. 谷歌浏览器扩展v3版本总结
  5. 洗地机什么牌子最好?洗地机品牌排行榜前十名
  6. 安卓的NFC开发,简单入门
  7. 拆字在线版-扌斥字在纟戋片反
  8. 初识R语言之常见符号篇
  9. PCL学习笔记3-KdTree
  10. 使用sql server Management Studio(企业管理器)或查询分析器管理数据库