精准找到B站大家爱看的王冰冰——用Python

需求

  • 我们在视频网站检索视频时,通常有对检索内容进一步筛选的需求。比如说,在B站检索某一关键词后,希望得到播放量、弹幕量大于某值,发布时间和视频时长在某个区间的视频列表。但是,B站只提供简单的排序,而没有更高级的筛选功能。因此,自己用Python实现这一功能。

分析

  1. 需要用Python爬到检索页面;
  2. 定位到检索页面的视频信息,包括播放量、弹幕量、发布时间和视频时长;
  3. 将结果导出到Excel中,并筛选出符合条件的视频;

实现

1. 爬虫检索界面

  • B站搜索王冰冰的url网址为:https://search.bilibili.com/all?keyword=%E7%8E%8B%E5%86%B0%E5%86%B0

  • 视频时长的位置:

  • 观看数、弹幕数、视频时长的位置:

  • 源代码:

    from bs4 import BeautifulSoup
    import requestsurl = "https://search.bilibili.com/all?keyword=%E7%8E%8B%E5%86%B0%E5%86%B0" #url网址
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'
    } # 浏览器身份标识, 伪装成正常访问f = requests.get(url, headers=headers)  # 获取该网页的html内容
    print(f.status_code) # 打印状态码,200表示正确soup = BeautifulSoup(f.content, "lxml")  # 用lxml解析器解析该网页的内容title = soup.find_all('a',{"class": {"title"}})  # 视频标题
    time = soup.find_all('span',{"class": {"so-imgTag_rb"}}) # 视频时长
    watchnum = soup.find_all('span', {"class": {"so-icon watch-num"}})  # 视频观看数
    bullet = soup.find_all('span', {"class": {"so-icon hide"}})  # 视频弹幕数
    date = soup.find_all('span', {"class": {"so-icon time"}}) # 视频发布日期
    
  • 测试效果:

2. 将结果导出到Excel中

  • 源代码:

    import xlwt # 利用xlwt,实现Python对Excel的写入workbook = xlwt.Workbook(encoding='ascii') # 创建Workbook, 编码格式设置为ascii;
    worksheet = workbook.add_sheet('My Worksheet') # 创建Excel表单, 命名为My Worksheet;for i in range(len(watchnum)):worksheet.write(i , 0, title[i+1].text) # 标题写到第1列, 第一个爬到的text.text是冰冰up主的ID, worksheet.write(i , 1, time[i].text) # 视频时长写到第2列  worksheet.write(i , 2, watchnum[i].text) # 观看次数写到第3列worksheet.write(i , 3, bullet[i].text) # 弹幕数量写到第4列worksheet.write(i , 4, date[i].text) # 发布时间写到第5列
    workbook.save('bingbing.xls')  # 保存文件, 文件名为bingbing.xls
    
  • 写出的bingbing.xls文件效果:

3. 在Excel中对视频进行筛选

  • 需要先用trim() 函数,将数据前后的空格删掉;
  • 筛选出播放数量>100w,弹幕数量>1w的视频,然后就可以快乐了呀;

备注

  • 如果想爬其他关键字的视频,可以自行修改url网址;
  • 只演示如何爬取第一页的视频列表,如果需要所有页的视频列表,写一个循环即可,第二页的网址为https://search.bilibili.com/all?keyword=%E7%8E%8B%E5%86%B0%E5%86%B0&page=2,后面依次类推;

精准找到B站大家爱看的王冰冰——用Python相关推荐

  1. 收藏|2021年阿里云开源镜像站最热门镜像王全梳理 (附下载链接和Top20镜像王排名)

    阿里云官方镜像站:https://developer.aliyun.com/mirror/?utm_content=g_1000307095 简介: 阿里云开源镜像站的初衷在于宣传自由软件的价值,提高 ...

  2. 央视最美记者王冰冰火爆B站,单个视频1800万播放,都说了啥?

    公众号关注 "菜鸟学Python" 第434篇原创,设为 "星标",一起学编程! 提起央视最近最火的女记者,想必很多的小伙伴都会第一时间想到王冰冰,她凭借着自己 ...

  3. 60深度解密六十:利用互联网精准找到企业负责人的联系方式

    网络营销推广技术.技巧深度解密(六十)指南: 1.本文档适合零基础以及互联网营销推广工作者,主要讲解利用互联网精准找到负责人联系方式的问题. 2.原创版权文档,任何抄袭或者全部.部分模仿都是侵权行为. ...

  4. 教你如何精准找到国外采购商决策人联系方式

    外贸客户开发是大部分外贸人的比较头疼的问题,尤其是外贸新人,刚进入行业如果没人带的,那大部分时候都不知道如何下手.找到客户的方法其实有很多,其实也有分享过很多,今天就不过多赘述.随着做业务水平的不断提 ...

  5. 【学习记录】【B 站忠厚老实的老王】自动驾驶控制算法第一讲 绪论与前期准备

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.对自动驾驶的态度 工具 软件 书籍 自动驾驶技术漫谈 总结 前言 本文内容是对B站忠厚老实的老王视频的整理.侵删. ...

  6. 用Python爬取王冰冰vlog弹幕并制作词云

    大家好,最近的"瓜",多到我们措手不及,可谓是"热点不断".作为程序员,我们还可能随时为此而加班. 各种评论视频"爆炸"网络,打开首页全是热 ...

  7. 央视记者王冰冰为何走红?博导和研究生写了一篇论文进行了分析

    最近一期的<东南传播>杂志上发表了上海大学博士生导师周宇豪与郑州大学新闻与传播学院研究生郭歌共同署名的一篇论文--<主流电视媒体出镜记者的转型路径探析--以央视记者王冰冰为例> ...

  8. 央视美女记者王冰冰身上,我看到了一个职场人特别需要的能力

    从走红的央视美女记者王冰冰身上,我看到了一个职场人特别需要的能力.   你看到的人缘特别好的同事,身上往往就具备了这一点.   那就是亲和力.   亲和力强的人为什么会特别吃香?   职场上有一个说法 ...

  9. 完美抠图王冰冰!字节实习生开发的AI,实现4K60帧视频实时抠图,连头发丝都根根分明...

    鱼羊 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 看这一头蓬松的秀发,加上帅气的动作,你以为是在绿幕前拍大片? No.No.No 这其实是AI拿来视频实时抠图后的效果. 没想到吧,实时 ...

最新文章

  1. 多版本python共存,安装三方库到指定python版本 多Python版本和虚拟环境
  2. Numpy.genfromtxt
  3. Forrtl: severe(157): Program Exception - access violation
  4. 2017年会是Serverless爆发之年吗?
  5. python实现文件上传下载
  6. oracle删除定义变量,Oracle存储过程,临时表的创建、删除,变量的定义和使用
  7. s1机试补考补习 9206
  8. python编程学习_使用EduBlocks轻松学习Python编程
  9. Java 面向对象 之 静态内部类
  10. tcp通信程序发送图片_Unit11:TCP通信、wechat小程序
  11. 图像处理八:前向映射和后向映射
  12. 微信HOOK协议软件,已实现云控,将微信的效率最大化
  13. 2022“美亚杯”第八届中国电子数据取证大赛-团队赛题目
  14. python语言开发什么_python语言是什么语言开发的_Python语言的由来,编程语言简史...
  15. 微软编程规范(文档)
  16. Meta Learning在NLP领域的应用
  17. 腾讯文档导出Excel文档显示‘文件已损坏,无法打开‘解决方法
  18. 关于 RabbitMQ,应该没有比这更详细的教程了!
  19. C++怎样获取当前系统时间?
  20. Bugku Misc 清凉一夏 wp

热门文章

  1. 面向单目深度估计的基于几何的预训练方式 -- Geometric Pretraining for Monocular Depth Estimation
  2. 读论文- pix2pix
  3. 图片加载框架之Glide
  4. Win10家庭版下载安装并启用组策略编辑器
  5. 富士施乐服务器系统安装,富士施乐打印机怎么安装 富士施乐打印机安装技巧【图文教程】...
  6. 虚拟服务器开启伪静态设置,虚拟主机能设置伪静态吗
  7. 7-5 模拟EXCEL排序 (15 分)
  8. 计算机集成资质要学什么用,国家四级计算机信息系统集成资质可承接什么规模工程?...
  9. 涂鸦移动2021校招软件工程师测试题
  10. 字节跳动面试,倒在了终面上