如何通过B站视频AV号找到弹幕对应的xml文件号

首先爬取视频网页,将对应视频网页源码获得

就可以找到该视频的av号aid=8678034

还有弹幕序号,cid=14295428

弹幕存放位置为  http://comment.bilibili.com/14295428.xml

获得该链接内容即可。

 1 package BiliBili弹幕爬取;
 2
 3 import org.apache.http.HttpEntity;
 4 import org.apache.http.client.methods.CloseableHttpResponse;
 5 import org.apache.http.client.methods.HttpGet;
 6 import org.apache.http.impl.client.CloseableHttpClient;
 7 import org.apache.http.impl.client.HttpClients;
 8 import org.apache.http.util.EntityUtils;
 9
10 import java.util.regex.Matcher;
11 import java.util.regex.Pattern;
12
13 public class getBiliBiliBofqi {
14     public static void getBofqi(String aid) throws Exception{
15         CloseableHttpClient closeableHttpClient = HttpClients.createDefault() ;
16         HttpGet httpGet = new HttpGet("https://www.bilibili.com/video/av"+aid+"/") ;
17         CloseableHttpResponse httpResponse = closeableHttpClient.execute(httpGet) ;
18         HttpEntity httpEntity = httpResponse.getEntity() ;
19         String en= EntityUtils.toString(httpEntity) ;
20 //"cid=16496518&aid=9979006&pre_ad="
21         String con = "cid=(.*)?&aid=" ;
22         Pattern ah = Pattern.compile(con);
23         Matcher mr = ah.matcher(en);
24         while(mr.find()) {
25             String id = mr.group() ;
26             String newUrl = id.replace("cid=","") ;
27             String x = newUrl.replace("&aid=","") ;
28             HttpGet httpGet1 = new HttpGet("http://comment.bilibili.com/"+x+".xml");
29             CloseableHttpResponse httpResponse1 = closeableHttpClient.execute(httpGet1) ;
30             HttpEntity httpEntity1 = httpResponse1.getEntity() ;
31             String en1 = EntityUtils.toString(httpEntity1) ;
32             String c = "\">(.*?)<" ;
33             Pattern a = Pattern.compile(c);
34             Matcher m = a.matcher(en1);
35             while(m.find()){
36                 String speak = m.group().replace("\">","") ;
37                 speak = speak.replace("<","") ;
38                 System.out.println(speak);
39             }
40         }
41     }
42     public static void main(String[] args) throws Exception{
43         getBofqi("8678034");
44     }
45 }

运行结果:

转载于:https://www.cnblogs.com/LexMoon/p/JavaBi.html

Java爬虫——B站弹幕爬取相关推荐

  1. java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一)

    转载自 java爬虫的2种爬取方式(HTTP||Socket)简单Demo(一) 最近在找java的小项目自己写着玩,但是找不到合适的,于是写开始学一点爬虫,自己也是感觉爬虫比较有趣.这里自己找了一个 ...

  2. B站弹幕爬取并制成词云

    B站弹幕爬取并制成词云 前言 作为一个经济学学生,数据分析和可视化是一定要掌握的,从今天开始进行一些Python项目的记录,就不进行Python基础知识的讲解了! 一.B站弹幕的爬取 弹幕地址获取 i ...

  3. JAVA爬虫-上海公交线路爬取

    最开始的数据获取也有两个思路  虽然我的数据不是这么来的 一 .http://www.zuobus.com/line-overview.php?c=2 这个网站有所有的上海的公交线路 二.百度poi ...

  4. bilibili怎么设置弹幕数量_python爬虫:bilibili弹幕爬取+词云生成

    如果你懒得看下边的文字,我录了一个完整的教学视频在b站上. 我的B站教学:https://www.bilibili.com/video/av75377135?p=2 工作原理 b站是提供弹幕接口的,所 ...

  5. python爬取bilibili弹幕_python爬虫:bilibili弹幕爬取+词云生成

    如果你懒得看下边的文字,我录了一个完整的教学视频在b站上. 我的B站教学:https://www.bilibili.com/video/av75377135?p=2 工作原理 b站是提供弹幕接口的,所 ...

  6. java爬虫自动识别验证码_简单Java爬虫(一)爬取手机号码

    原创 野狗菌 希望你能喜欢 今天 关于本文: 本文介绍一个简单Java爬虫,获取网页源码,爬取电话号码. 本篇教程用我的博客一个测试网页演示. --野狗菌[希望你能喜欢] 测试页面: https:// ...

  7. java爬虫,提供链接直接爬取网页代码

    其实我只想要爬到整个网页的源代码的就好.通过java的一个包jsoup,就可以直接爬取了,后面有下载源代码(含jsoup包)的链接. 输入:网页链接 输出:网页源代码 代码比较简单,解析都在代码中: ...

  8. Java爬虫学习一一Jsoup爬取彼岸桌面分类下的图片

    最近在找工作,在这个过程中我感到很迷茫,投了很多简历,被查看的却很少,其中也有到现场去面试,结果也很不理想(╥╯^╰╥). 哈哈,跑题了,我在看之前所做的项目时,在我的收藏夹中看到了以前收藏的有关爬虫 ...

  9. java爬虫系列第二讲-爬取最新动作电影《海王》迅雷下载地址

    为什么80%的码农都做不了架构师?>>>    1. 目标 使用webmagic爬取动作电影列表信息 爬取电影**<海王>**详细信息[电影名称.电影迅雷下载地址列表] ...

最新文章

  1. 《编程匠艺》读书笔记
  2. 单片机有啥用?现在用的还多吗?
  3. 新手学电脑入门教程_炒股技巧大全丨炒股新手怎样才能长期稳定盈利
  4. 如何在Python中将一个字符串附加到另一个字符串?
  5. python进程join的用法_python 进程介绍 进程简单使用 join 验证空间隔离
  6. 拒绝经验过剩,“程序员的工作只能是代码”?
  7. UVALive 6884 GREAT + SWERC = PORTO dfs模拟
  8. 华为鸿蒙系统首发设备,鸿蒙首发设备包装曝光:安卓已成过去式,鸿蒙正式走上舞台...
  9. [C++] 关于delete和delete[]
  10. 亲民地理第39期-佛山(2)南风古灶
  11. MES系统在注塑行业中的应用
  12. 跟零计算机基础的房东女儿讲了一下午的中间人劫持京东事件后,她感激涕零,决定给我免除房租......
  13. python分析txt文件_python解析文本文件
  14. 7-33 统计素数并求和 (20 分)
  15. 快捷生成HTML代码的实现
  16. 嵌入式Linux引导过程之1.4——Xloader的ddr_init
  17. Java面试必备240个知识点
  18. 春招实习--海康威视凉--总结反思
  19. 2021.1.25-2021.1.31
  20. 谨防raid数据丢失不当操作及raid数据恢复方法

热门文章

  1. [WPF]自定义鼠标指针
  2. python requests模块使用
  3. Java设计模式-回调函数和观察者模式
  4. 转载-区分C#中的Abstract函数和Virtual函数
  5. Android Studio自定义模板代码
  6. 【剑指offer-Java版】03二维数组中的查找
  7. Android EventBus 的使用
  8. JAVA基础----java中E,T,?的区别?
  9. 行业 平均年龄_2019中国“新生力”白皮书:平均年龄35岁,千万资产家庭达198万户!...
  10. python代码转换为pytorch_python、PyTorch图像读取与numpy转换