我们知道编写一个爬虫之前最重要的是进行网页结构的分析,确定你要抓取的部分是属于网页结构的哪一部分。以“你绝对没听过的梁朝伟唱歌 一开口就苏了 可惜被梁家辉开腔了”为例子,打开谷歌浏览器的开发者工具,分析网页结构。

我们会发现,弹幕列表一栏对应的网页结构并不是我们想抓取的弹幕文件,那么弹幕文件在哪那?很简单,由于弹幕是滚动播放的,所以有一个快速找到弹幕文件的方法。在开发者工具中点击network。

重新加载页面(一定要刷新一下),在搜索里输入xml(弹幕一般为xml文件)

在新的窗口将其打开,来看看到底是不是我们要找的弹幕文件

确实是,分析一下这个弹幕文件的网址,图中框起来的是视频的cid号,并不是av番号。所以有两种抓取方式,一种是用正则表达式匹配cid,一种是直接抓取整个网页的方式。

我确实尝试了两种方式,正则表达式是借鉴别人的,但是代码只能用运行两次,就会被封号(因为这种方法要写代理)。我就自己写了一个直接抓取网页的代码,比较简单也没有风险,唯一麻烦的是爬取弹幕之前要先查找出cid。这就再次说明了,在写爬虫的时候urllib2和BeautifulSoup的方式要比正则表达式更健壮。下面直接上代码(python3.6环境,抓取弹幕文本并将其写入名为text30的文件中)

今天的分享就是这些了,下次将继续分享利用python进行数据分析和制作词云!比心

以人文之情怀

以学术为志业

···········

2018年最值得期待的活动:

三位教育部青年长江学者领衔,邀你深度研修社会科学研究方法,2018前沿社会科学研究方法暑期高级研修班(点击)正在火热报名中,按照报名顺序优先安排座位哦!

扫码报名

python爬取b站弹幕分析_如何爬取b站弹幕文件相关推荐

  1. python弹幕分析_《用python 玩转数据》项目——B站弹幕数据分析

    1. 背景 在视频网站上,一边看视频一边发弹幕已经是网友的习惯.在B站上有很多种类的视频,也聚集了各种爱好的网友.本项目,就是对B站弹幕数据进行分析.选取分析的对象是B站上点播量过1.4亿的一部剧&l ...

  2. python爬取岗位数据并分析_区块链岗位薪资高,Python爬取300个区块链岗位分析,龙虎榜出炉...

    原创: 菜鸟哥 菜鸟学Python 最近区块链技术再次被大家热议,既然区块链受到如此高的关注,我们就不妨去采集数据分析看看,目前所有与区块链相关的招聘信息吧. 1数据的爬取 首先是对于数据的爬取,由于 ...

  3. python爬取裁判文书并分析_裁判文书网爬虫攻克

    最近因为公司需要爬取裁判文书网的某一类别文章数据,于是简单研究了一下,发现网站数据全是js加载的,于是想都没想直接用selenium尝试爬取,没想到竟然有selenium都抓取不到的js(刚毕业的py ...

  4. python爬虫影评_Python爬虫(二十)_动态爬取影评信息

    本案例介绍从JavaScript中采集加载的数据.更多内容请参考:Python学习指南 #-*- coding:utf-8 -*- import requests import re import t ...

  5. python爬取豆瓣电影并分析_爬取豆瓣电影top250提取电影分类进行数据分析

    标签(空格分隔):python爬虫 一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250 页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入 ...

  6. python爬取微信小程序源代码_爬虫爬取微信小程序

    之前打算做个微信小程序的社区,所以写了爬虫去爬取微信小程序,后面发现做微信小程序没有前途,就把原来的项目废弃了做了现在的网站观点,不过代码放着也是放着,还不如公开让大家用,所以我把代码贴出来,有需要的 ...

  7. python爬取股票大单历史记录_定向爬取股票数据——记录一次爬虫实战

    今天是八月2号,自学python爬虫已经一整个月了.不学不理解,真正学了才发现,python不愧是一门博大精深的高级编程语言,我学到现在也才只见识到它冰山一脚,python应用的范围即便相比于c.c+ ...

  8. python爬取58同城租房信息_分页爬取58同城租房信息.py

    import requests,re,openpyxl,os headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleW ...

  9. python爬取知乎话题广场_用于爬取知乎某个话题下的精华问题中所有回答的爬虫...

    思路 我的整个算法的思路还是很简单的,文字版步骤如下: 1.通过话题广场进入某个话题的页面,避免了登陆注册页面的验证,查找到对应要爬取的话题,从 url 中得到话题id 2.该页面的所有资源采用了延迟 ...

最新文章

  1. 通信基站电池,再也不怕丢了
  2. 谁在“唱衰”OpenStack?
  3. Java连接数据库(1)
  4. SAP SD销售收入科目确定VKOA
  5. 移动web app开发必备 - 异步队列 Deferred
  6. input和output哪个是充电_input是什么接口?告诉大家这个小常识,以后音箱接线更容易...
  7. 物理实验数据处理(c语言)
  8. 【转载】为了我们的SZ4J代码
  9. 重新设置Visual Studio 环境
  10. pytorch自带网络_一篇长文学懂 pytorch
  11. ElasticSearch 5学习(2)——Kibana+X-Pack介绍使用(全)
  12. 微信小程序官方开发文档
  13. Java实现冒泡排序(详解)
  14. DeFi 2.0的LaaS协议Elephant,或许是你熊市下为数不多的获利手段
  15. 转换工具推荐:如何将PDF文档转换为PPT演示文稿
  16. 同一个实验室,硕士们进了大厂拿高薪,为什么博士却要挤破头进高校?
  17. BT5源码安装Python
  18. 【调制识别】基于高阶累积量的调制方式识别算法matlab仿真,课题识别BPSK, QPSK, 16QAM, 64QAM
  19. 90后小学计算机课,看着看着就哭了,那些年我们90后的小学语文课本
  20. sap假脱机打印机设置_SAP打印机设置

热门文章

  1. “特斯拉破解第一人”又造出“万能车破解器”:黑掉一辆车有多简单?
  2. 网管必读:交换机私接HUB追查,及端口保护措施
  3. 服务器可以挂协议吗,云服务器可以挂快手协议吗
  4. 华为手环B2鸿蒙,【华为手环B2】TalkBand B2功能性测评[多图]
  5. 要想经营不被动 思想必须先主动
  6. “hello world”C语言初体验
  7. UE4发布是报错:PackagingResults: Error: System.ArgumentException: 已添加了具有相同键的项
  8. 包茂高速两辆法拉利跑车撞栏 1辆面目全非(图)-法拉利
  9. php mysql表情符号_php + mysql 存入表情 【如何转义emoji表情,让它可以存入utf8的数据库】...
  10. 计算机中内存是什么符号,内存条ddr是什么意思?内存中的ddr含义介绍