一、写在前面

因为自己有蓝调口琴曲谱采集需求,于是就断断续续花了大概2~3天的时间写了这个爬虫。

目前只能采集蓝调口琴曲谱和伴奏音频,后续会慢慢添加文字教程与视频教程的爬取。

PS:这里我使用到了Cookie来获取查看权限,所以这个爬虫也只面向有会员权限的小伙伴使用。

二、细节介绍

1.登录

采用Cookie验证的方式登录:

 httpGet.setHeader("Cookie", prop.getProperty("Cookie"));httpGet.setHeader("User-Agent", prop.getProperty("User-Agent"));

2.资源爬取方式

采用的是资源链接获取->请求资源->下载资源的方式,以获取曲谱资源为例:

     // 获取到当前图片的地址 并重新发送请求url = imageMap.get("url");httpGet = new HttpGet(url);response = httpClient.execute(httpGet);httpEntity = response.getEntity();file_img = new File(rootDir+"/"+name+".png");if(file_img.exists()){file_img.delete();}BufferedOutputStream bw_img = new BufferedOutputStream(new FileOutputStream(file_img,true));byte[] byt = EntityUtils.toByteArray(httpEntity);bw_img.write(byt);bw_img.close();

3.使用到的Java包

主要是使用到了以下包

 <!-- 日志 -->  <dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version></dependency><!-- 爬虫包 --><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.11.3</version></dependency><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.5</version></dependency>

jsoup用来解析获取的页面,用来提取我们想要的资源链接
httpclient用来发送网络请求,用来请求我们获取到的资源地址
log4j用来做日志打印,用来提示下载进度

三、源码获取

所有代码我都放在我的GitHub仓库:tenholes-blues-down 中,有需要的小伙伴自行获取

不过因为时间匆忙,后面也因为三次元事情变多没时间,所以代码依旧很丑陋。

使用Java爬虫爬取蓝调口琴网 口琴曲谱与伴奏资源相关推荐

  1. 使用python爬虫爬取蓝调口琴网乐谱

    学习目标:使用python爬虫爬取蓝调口琴网乐谱 提示:这里可以添加学习目标 例如:一周掌握 Java 入门知识 学习内容: 使用爬虫爬取需要动态验证码(如手机短信验证码)登录的网站. 提示:这里可以 ...

  2. python java 爬数据_如何用java爬虫爬取网页上的数据

    当我们使用浏览器处理网页的时候,有时候是不需要浏览的,例如使用PhantomJS适用于无头浏览器,进行爬取网页数据操作.最近在进行java爬虫学习的小伙伴们有没有想过如何爬取js生成的网络页面吗?别急 ...

  3. Java爬虫 --- 爬取王者荣耀英雄图片

    Java爬虫 - 爬取王者荣耀英雄图片 import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Docu ...

  4. Java爬虫 爬取某招聘网站招聘信息

    Java爬虫 爬取某招聘网站招聘信息 一.系统介绍 二.功能展示 1.需求爬取的网站内容 2.实现流程 2.1数据采集 2.2页面解析 2.3数据存储 三.获取源码 一.系统介绍 系统主要功能:本项目 ...

  5. java爬虫爬取笔趣阁小说

    java爬虫爬取笔趣阁小说 package novelCrawler;import org.jsoup.Connection; import org.jsoup.HttpStatusException ...

  6. Java爬虫爬取wallhaven的图片

    Java爬虫爬取wallhaven的图片 参考文章:JAVA Jsoup爬取网页图片下载到本地 需要的jar包:jsuop wallhaven网站拒绝java程序访问,所以要伪装报头. 发送请求时 C ...

  7. 我的第一个开源项目:Java爬虫爬取旧版正方教务系统课程表、成绩表

    Java爬虫爬取旧版正方教务系统课程表.成绩表 一.项目展示 1.正方教务系统 首页 2.爬虫系统 首页: 成绩查询: 课表查询: 二.项目实现 1.爬取思路描述 无论是成绩查询或课表查询亦或者其它的 ...

  8. Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情

    Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情 先识别商品url,区分平台提取商品编号,再根据平台带着商品编号爬取数据. 1.导包 <!-- 爬虫相关Jar包依赖 --><d ...

  9. 网络爬虫爬取拉勾招聘网

    网络爬虫爬取拉勾招聘网 搭配好环境 复制以下代码 # -*- coding: utf-8 -*- """ Created on Mon Sep 7 21:44:39 20 ...

最新文章

  1. cstring只获取到第一个数_一文讲透 Dubbo 负载均衡之最小活跃数算法
  2. 简单介绍六点nginx优化的方法
  3. InstallShield打包设置相对路径
  4. charset参数 sqluldr2_sqluldr2 学习心得
  5. 【学生选课系统经典】C#与SQLSERVER连接:ASP.NET网站(服务器端,IIS发布)
  6. java sapi.spvoice 更改发音人_我最喜欢的几个Java开发工具,推荐8个给你们!
  7. python rsa库_Python中rsa模块【sign 加签验签】的使用
  8. java提示框easyui风格_[Java教程]jQuery EasyUI 提示框(Messager)用法
  9. pyqtsignal()作用
  10. VS用c#创建记事本
  11. 如何在Mac之间进行数据迁移,macbook怎么迁移数据
  12. 华大MCU的IAP升级
  13. 线缆干扰编码器输出结果,双绞线引起的干扰编码器问题
  14. 设计模式四:用一个生产手机的简单例子说清楚工厂模式
  15. 翻译《有关编程、重构及其他的终极问题?》——13.表格化的格式化
  16. Crate 数据库安装与使用
  17. python实现excel单元格合并_python进行excel单元格合并逆操作
  18. 落日海鸥(Seagulls)
  19. oracle omf管理,论OMF管理文件的重要性
  20. 利用sympy库求解常微分方程:dsolve()函数

热门文章

  1. re.S、re.I、re.M
  2. 大陆“水货”笔记本 详细资料
  3. 平衡车直立PID调节总结
  4. 虫师 python_python 多线程就这么简单 - 虫师
  5. 计算机主板电池没电什么情况,主板电池没电了会出现什么情况
  6. Zotero win10/mac/iPad三台设备同步
  7. 基于java的在线古玩市场系统的设计与实现计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署
  8. cifs挂载 mount ubuntu_Ubuntu + mount cifs
  9. linux内核memset,Linux库memset函数实现
  10. 26进制的加法和除法codeforces1144E