用了selenium,才深刻的体会到它的好处,更加的方便更加的快捷,更容易的获取网页的信息。

这里用selenium爬取某鱼直播下面的前五页的直播间信息,例如直播房间名,主播名,直播热度,以及直播的类别。即图片红色下横线的东西。首先进入斗鱼的页面,选择直播,接着复制url备用,然后就按F12去分析

做爬虫的步骤还是那样,先去原网页的地址找到数据的位置,接着提取出需要的数据,在整理起来,保存起来。

这里我获取的只有前5页的直播间信息。当然可以获取更多的内容。做爬虫只是为了方便统计以及数据的可视化,便于学习和观察,并不能做什么非法操作。主要目的都是为了学习。

用selenium爬取网页的坑就只有一两个:

第一:获取url后,需要等待个几秒,让网页充分缓冲之后才去提取网页的数据,这样才能提取到数据,否则就是一个框架,并不能得到有用的消息。

第二,如果要实现换页功能的话,需要将解析网页的语句也放入循环,不然也会报错

第三,就是用selenium的时候一定要匹配好单引号和双引号,在python的习惯下,字符串就一般使用单引号去用,而网页的数据是双引号的话也提取不到数据。

第四,换页操作的时候,选择正确的class名字至关重要

如果用浏览器的f12的选择的功能,他会定位到这里黑色下划线的地方,但是要实现换行要选择红色下划线的class名,才能实现。

关于用selenium去爬取的东西也没其他的了,详细的操作可以去这里看

下面贴一下代码,代码仅供参考,如若有错,欢迎指出:from selenium import webdriver

import time

path = '这里是你的selenium的驱动的地址'

url = 'https://www.douyu.com/directory/all'

browser = webdriver.Chrome(executable_path=path)

browser.maximize_window()

browser.get(url)

time.sleep(10)

allzhibo = []

nnum = 0

page = 0

while page<1:

li_list = browser.find_elements_by_xpath('//ul[@class="layout-Cover-list"]/li')

num = 0

for i in li_list:

zhibo = {}

if num >=10:

zhibo['数目'] = nnum

num+=1

nnum+=1

zhibo['直播房间名'] = i.find_element_by_class_name("DyListCover-intro").text

zhibo['主播'] = i.find_element_by_class_name("DyListCover-user").text

zhibo['直播热度'] = i.find_element_by_class_name("DyListCover-hot").text

zhibo['分类'] = i.find_element_by_class_name("DyListCover-zone").text

allzhibo.append(zhibo)

else:

num+=1

nextpage = browser.find_element_by_class_name("dy-Pagination-next")

nextpage.click()

page+=1

time.sleep(10)

#这里实现的是将数据保存到文本里去

with open('某鱼直播.txt','w',encoding='utf-8') as f:

for i in allzhibo:

for j in i.keys():

print(j+':'+str(i[j])+' ')

f.write(j+':'+str(i[j])+' ')

f.write('\n')

browser.close()

最后得到结果就是这样的:

然后可以对这些数据进行分类排序,就可以得到一些热度最高的直播间,或者是什么分类的直播间有那些的操作。

python 爬取直播_python---爬取某鱼直播相关推荐

  1. python爬取流浪地球_python爬取《流浪地球》获十几万评论点赞,超给力!

    原标题:python爬取<流浪地球>获十几万评论点赞,超给力! 我自己到现在其实还没看这部电影,毕竟这电影这么火,电影院现在都很难买到好的位置.所以我打算不如先看看大家是怎么评价这部电影的 ...

  2. python获取天气分析_Python爬取南京市往年天气预报,使用pyecharts进行分析

    上一次分享了使用matplotlib对爬取的豆瓣书籍排行榜进行分析,但是发现python本身自带的这个绘图分析库还是有一些局限,绘图不够美观等,在网上搜索了一波,发现现在有很多的支持python的绘图 ...

  3. python分析b站_Python爬取并分析B站最热排行榜,我发现了这些秘密

    现在大家的生活中,已经越来越离不开B站了,2020年的第一季度,B站月活跃用户达到了1.72亿,日活跃用户也已经突破了5000万个用户.源源不断的流量让B站的up主们也是粉丝数目不断暴涨,百万粉丝的u ...

  4. python制作手机壁纸_Python爬取手机壁纸图片

    使用Python爬取图片. 1 说明 本文通过爬虫程序的编写,实现了一个简单易懂的爬虫程序,方便初学者理解,主要程序分为网页获取函数,以及保存下载函数,这就是所有爬虫程序的基本思想.(本文不涉及反爬, ...

  5. python微信爬取教程_python爬取微信文章方法

    本文给大家分享的是使用python通过搜狗入口,爬取微信文章的小程序,非常的简单实用,有需要的小伙伴可以参考下 本人想搞个采集微信文章的网站,无奈实在从微信本生无法找到入口链接,网上翻看了大量的资料, ...

  6. python动态爬取实时_python爬取动态数据实战---猫眼专业版-实时票房(二)

    学习python进行简单的数据爬取(基于python 3.x).再进行数据页面解析之后,使用scrapy框架进行爬取数据.没有实现自己预想的效果,着实是自己能力有限,无法灵活使用该框架.就使用自己的办 ...

  7. python微博爬虫分析_python爬取和分析新浪微博(一):scrapy构建新浪微博榜单、博主及微博信息爬虫...

    1. 爬虫项目介绍 爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格 ...

  8. python爬取评论_Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特

    ### 1. 需求说明 本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件.然后对影评进行分词分析,使用词云生成树人格鲁特的形象照片. ### 2. 代码实现 此部 ...

  9. python爬取流浪地球_python爬取《流浪地球》16w评论

    今年春节档电影<流浪地球>火的不要不要,截止到今天 2 月 17 日,上映 13 天,目前票房已达 36 亿,可喜可贺. 我自己到现在其实还没看这部电影,毕竟这电影这么火,电影院现在都很难 ...

  10. python向上取整_python向上取整

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! import math f = 11.2print math.ceil(f) # ...

最新文章

  1. jieba如何空文本记录
  2. 五一扣球练习2021-05-01
  3. 国家自科委管文科学部认定的国内30种重要期刊
  4. 作者:王志强(1975-),男,中国标准化研究院高新技术与信息标准化研究所副研究员、副所长。...
  5. AD域首次登陆修改密码设置
  6. [2019杭电多校第一场][hdu6579]Operation(线性基)
  7. Codeforces Round #436 (Div. 2)
  8. 中拉光伏产业合作蓬勃发展前景远大
  9. android studio定位gps
  10. win10计算机盘符如何,删除win10电脑多余无需使用的盘符教程
  11. ysoserial exploit/JRMPClient
  12. H3C的前世今生及它的基础配置
  13. 2016届毕业设计(论文) 基本规范及档案袋封面填写要求
  14. Swiper的安装及使用
  15. 迅雷下载Linux Oracle11gR2和Oracle12c
  16. 试验Windows Embedded Standard 7 Service Pack 1 Evaluation Edition
  17. 使用Rufus安装Windows系统
  18. microbit的投篮游戏
  19. AVProVideo视频插件使用
  20. 动力节点最新SSM框架项目「米米商城」实战教程分享

热门文章

  1. Linux 性能分析工具
  2. 树莓派搭建VSFTP记录---自用简记
  3. SpringCloud知识点复习(第一次)
  4. java怎样将多个list写入txt中并且不覆盖原有数据_深入理解JVM,Java程序猿必备修炼之路...
  5. excel两列数据绘制单折线图
  6. css小球落地阴影,CSS3球体掉落动画带阴影效果
  7. 如何让windows控制台程序运行时不显示黑色框,直接运行
  8. c#下实现GUI编程_写给初学者的C#教程[专题1S7通信](1)
  9. 命令行编译java文件
  10. 赌博小游戏java开发_Java打飞机小游戏(附完整源码)