Java爬虫——B站弹幕爬取
如何通过B站视频AV号找到弹幕对应的xml文件号
首先爬取视频网页,将对应视频网页源码获得
就可以找到该视频的av号aid=8678034
还有弹幕序号,cid=14295428
弹幕存放位置为 http://comment.bilibili.com/14295428.xml
获得该链接内容即可。
1 package BiliBili弹幕爬取; 2 3 import org.apache.http.HttpEntity; 4 import org.apache.http.client.methods.CloseableHttpResponse; 5 import org.apache.http.client.methods.HttpGet; 6 import org.apache.http.impl.client.CloseableHttpClient; 7 import org.apache.http.impl.client.HttpClients; 8 import org.apache.http.util.EntityUtils; 9 10 import java.util.regex.Matcher; 11 import java.util.regex.Pattern; 12 13 public class getBiliBiliBofqi { 14 public static void getBofqi(String aid) throws Exception{ 15 CloseableHttpClient closeableHttpClient = HttpClients.createDefault() ; 16 HttpGet httpGet = new HttpGet("https://www.bilibili.com/video/av"+aid+"/") ; 17 CloseableHttpResponse httpResponse = closeableHttpClient.execute(httpGet) ; 18 HttpEntity httpEntity = httpResponse.getEntity() ; 19 String en= EntityUtils.toString(httpEntity) ; 20 //"cid=16496518&aid=9979006&pre_ad=" 21 String con = "cid=(.*)?&aid=" ; 22 Pattern ah = Pattern.compile(con); 23 Matcher mr = ah.matcher(en); 24 while(mr.find()) { 25 String id = mr.group() ; 26 String newUrl = id.replace("cid=","") ; 27 String x = newUrl.replace("&aid=","") ; 28 HttpGet httpGet1 = new HttpGet("http://comment.bilibili.com/"+x+".xml"); 29 CloseableHttpResponse httpResponse1 = closeableHttpClient.execute(httpGet1) ; 30 HttpEntity httpEntity1 = httpResponse1.getEntity() ; 31 String en1 = EntityUtils.toString(httpEntity1) ; 32 String c = "\">(.*?)<" ; 33 Pattern a = Pattern.compile(c); 34 Matcher m = a.matcher(en1); 35 while(m.find()){ 36 String speak = m.group().replace("\">","") ; 37 speak = speak.replace("<","") ; 38 System.out.println(speak); 39 } 40 } 41 } 42 public static void main(String[] args) throws Exception{ 43 getBofqi("8678034"); 44 } 45 }
运行结果:
转载于:https://www.cnblogs.com/LexMoon/p/JavaBi.html
Java爬虫——B站弹幕爬取相关推荐
- java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一)
转载自 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一) 最近在找java的小项目自己写着玩,但是找不到合适的,于是写开始学一点爬虫,自己也是感觉爬虫比较有趣.这里自己找了一个 ...
- B站弹幕爬取并制成词云
B站弹幕爬取并制成词云 前言 作为一个经济学学生,数据分析和可视化是一定要掌握的,从今天开始进行一些Python项目的记录,就不进行Python基础知识的讲解了! 一.B站弹幕的爬取 弹幕地址获取 i ...
- JAVA爬虫-上海公交线路爬取
最开始的数据获取也有两个思路 虽然我的数据不是这么来的 一 .http://www.zuobus.com/line-overview.php?c=2 这个网站有所有的上海的公交线路 二.百度poi ...
- bilibili怎么设置弹幕数量_python爬虫:bilibili弹幕爬取+词云生成
如果你懒得看下边的文字,我录了一个完整的教学视频在b站上. 我的B站教学:https://www.bilibili.com/video/av75377135?p=2 工作原理 b站是提供弹幕接口的,所 ...
- python爬取bilibili弹幕_python爬虫:bilibili弹幕爬取+词云生成
如果你懒得看下边的文字,我录了一个完整的教学视频在b站上. 我的B站教学:https://www.bilibili.com/video/av75377135?p=2 工作原理 b站是提供弹幕接口的,所 ...
- java爬虫自动识别验证码_简单Java爬虫(一)爬取手机号码
原创 野狗菌 希望你能喜欢 今天 关于本文: 本文介绍一个简单Java爬虫,获取网页源码,爬取电话号码. 本篇教程用我的博客一个测试网页演示. --野狗菌[希望你能喜欢] 测试页面: https:// ...
- java爬虫,提供链接直接爬取网页代码
其实我只想要爬到整个网页的源代码的就好.通过java的一个包jsoup,就可以直接爬取了,后面有下载源代码(含jsoup包)的链接. 输入:网页链接 输出:网页源代码 代码比较简单,解析都在代码中: ...
- Java爬虫学习一一Jsoup爬取彼岸桌面分类下的图片
最近在找工作,在这个过程中我感到很迷茫,投了很多简历,被查看的却很少,其中也有到现场去面试,结果也很不理想(╥╯^╰╥). 哈哈,跑题了,我在看之前所做的项目时,在我的收藏夹中看到了以前收藏的有关爬虫 ...
- java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址
为什么80%的码农都做不了架构师?>>> 1. 目标 使用webmagic爬取动作电影列表信息 爬取电影**<海王>**详细信息[电影名称.电影迅雷下载地址列表] ...
最新文章
- 《编程匠艺》读书笔记
- 单片机有啥用?现在用的还多吗?
- 新手学电脑入门教程_炒股技巧大全丨炒股新手怎样才能长期稳定盈利
- 如何在Python中将一个字符串附加到另一个字符串?
- python进程join的用法_python 进程介绍 进程简单使用 join 验证空间隔离
- 拒绝经验过剩,“程序员的工作只能是代码”?
- UVALive 6884 GREAT + SWERC = PORTO dfs模拟
- 华为鸿蒙系统首发设备,鸿蒙首发设备包装曝光:安卓已成过去式,鸿蒙正式走上舞台...
- [C++] 关于delete和delete[]
- 亲民地理第39期-佛山(2)南风古灶
- MES系统在注塑行业中的应用
- 跟零计算机基础的房东女儿讲了一下午的中间人劫持京东事件后,她感激涕零,决定给我免除房租......
- python分析txt文件_python解析文本文件
- 7-33 统计素数并求和 (20 分)
- 快捷生成HTML代码的实现
- 嵌入式Linux引导过程之1.4——Xloader的ddr_init
- Java面试必备240个知识点
- 春招实习--海康威视凉--总结反思
- 2021.1.25-2021.1.31
- 谨防raid数据丢失不当操作及raid数据恢复方法
热门文章
- [WPF]自定义鼠标指针
- python requests模块使用
- Java设计模式-回调函数和观察者模式
- 转载-区分C#中的Abstract函数和Virtual函数
- Android Studio自定义模板代码
- 【剑指offer-Java版】03二维数组中的查找
- Android EventBus 的使用
- JAVA基础----java中E,T,?的区别?
- 行业 平均年龄_2019中国“新生力”白皮书:平均年龄35岁,千万资产家庭达198万户!...
- python代码转换为pytorch_python、PyTorch图像读取与numpy转换