使用Java爬虫爬取蓝调口琴网 口琴曲谱与伴奏资源
一、写在前面
因为自己有蓝调口琴曲谱采集需求,于是就断断续续花了大概2~3天的时间写了这个爬虫。
目前只能采集蓝调口琴曲谱和伴奏音频,后续会慢慢添加文字教程与视频教程的爬取。
PS:这里我使用到了Cookie来获取查看权限,所以这个爬虫也只面向有会员权限的小伙伴使用。
二、细节介绍
1.登录
采用Cookie验证的方式登录:
httpGet.setHeader("Cookie", prop.getProperty("Cookie"));httpGet.setHeader("User-Agent", prop.getProperty("User-Agent"));
2.资源爬取方式
采用的是资源链接获取
->请求资源
->下载资源
的方式,以获取曲谱资源为例:
// 获取到当前图片的地址 并重新发送请求url = imageMap.get("url");httpGet = new HttpGet(url);response = httpClient.execute(httpGet);httpEntity = response.getEntity();file_img = new File(rootDir+"/"+name+".png");if(file_img.exists()){file_img.delete();}BufferedOutputStream bw_img = new BufferedOutputStream(new FileOutputStream(file_img,true));byte[] byt = EntityUtils.toByteArray(httpEntity);bw_img.write(byt);bw_img.close();
3.使用到的Java包
主要是使用到了以下包
<!-- 日志 --> <dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version></dependency><!-- 爬虫包 --><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.11.3</version></dependency><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.5</version></dependency>
jsoup用来解析获取的页面,用来提取我们想要的资源链接
httpclient用来发送网络请求,用来请求我们获取到的资源地址
log4j用来做日志打印,用来提示下载进度
三、源码获取
所有代码我都放在我的GitHub仓库:tenholes-blues-down 中,有需要的小伙伴自行获取
不过因为时间匆忙,后面也因为三次元事情变多没时间,所以代码依旧很丑陋。
使用Java爬虫爬取蓝调口琴网 口琴曲谱与伴奏资源相关推荐
- 使用python爬虫爬取蓝调口琴网乐谱
学习目标:使用python爬虫爬取蓝调口琴网乐谱 提示:这里可以添加学习目标 例如:一周掌握 Java 入门知识 学习内容: 使用爬虫爬取需要动态验证码(如手机短信验证码)登录的网站. 提示:这里可以 ...
- python java 爬数据_如何用java爬虫爬取网页上的数据
当我们使用浏览器处理网页的时候,有时候是不需要浏览的,例如使用PhantomJS适用于无头浏览器,进行爬取网页数据操作.最近在进行java爬虫学习的小伙伴们有没有想过如何爬取js生成的网络页面吗?别急 ...
- Java爬虫 --- 爬取王者荣耀英雄图片
Java爬虫 - 爬取王者荣耀英雄图片 import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Docu ...
- Java爬虫 爬取某招聘网站招聘信息
Java爬虫 爬取某招聘网站招聘信息 一.系统介绍 二.功能展示 1.需求爬取的网站内容 2.实现流程 2.1数据采集 2.2页面解析 2.3数据存储 三.获取源码 一.系统介绍 系统主要功能:本项目 ...
- java爬虫爬取笔趣阁小说
java爬虫爬取笔趣阁小说 package novelCrawler;import org.jsoup.Connection; import org.jsoup.HttpStatusException ...
- Java爬虫爬取wallhaven的图片
Java爬虫爬取wallhaven的图片 参考文章:JAVA Jsoup爬取网页图片下载到本地 需要的jar包:jsuop wallhaven网站拒绝java程序访问,所以要伪装报头. 发送请求时 C ...
- 我的第一个开源项目:Java爬虫爬取旧版正方教务系统课程表、成绩表
Java爬虫爬取旧版正方教务系统课程表.成绩表 一.项目展示 1.正方教务系统 首页 2.爬虫系统 首页: 成绩查询: 课表查询: 二.项目实现 1.爬取思路描述 无论是成绩查询或课表查询亦或者其它的 ...
- Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情
Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情 先识别商品url,区分平台提取商品编号,再根据平台带着商品编号爬取数据. 1.导包 <!-- 爬虫相关Jar包依赖 --><d ...
- 网络爬虫爬取拉勾招聘网
网络爬虫爬取拉勾招聘网 搭配好环境 复制以下代码 # -*- coding: utf-8 -*- """ Created on Mon Sep 7 21:44:39 20 ...
最新文章
- cstring只获取到第一个数_一文讲透 Dubbo 负载均衡之最小活跃数算法
- 简单介绍六点nginx优化的方法
- InstallShield打包设置相对路径
- charset参数 sqluldr2_sqluldr2 学习心得
- 【学生选课系统经典】C#与SQLSERVER连接:ASP.NET网站(服务器端,IIS发布)
- java sapi.spvoice 更改发音人_我最喜欢的几个Java开发工具,推荐8个给你们!
- python rsa库_Python中rsa模块【sign 加签验签】的使用
- java提示框easyui风格_[Java教程]jQuery EasyUI 提示框(Messager)用法
- pyqtsignal()作用
- VS用c#创建记事本
- 如何在Mac之间进行数据迁移,macbook怎么迁移数据
- 华大MCU的IAP升级
- 线缆干扰编码器输出结果,双绞线引起的干扰编码器问题
- 设计模式四:用一个生产手机的简单例子说清楚工厂模式
- 翻译《有关编程、重构及其他的终极问题?》——13.表格化的格式化
- Crate 数据库安装与使用
- python实现excel单元格合并_python进行excel单元格合并逆操作
- 落日海鸥(Seagulls)
- oracle omf管理,论OMF管理文件的重要性
- 利用sympy库求解常微分方程:dsolve()函数
热门文章
- re.S、re.I、re.M
- 大陆“水货”笔记本 详细资料
- 平衡车直立PID调节总结
- 虫师 python_python 多线程就这么简单 - 虫师
- 计算机主板电池没电什么情况,主板电池没电了会出现什么情况
- Zotero win10/mac/iPad三台设备同步
- 基于java的在线古玩市场系统的设计与实现计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署
- cifs挂载 mount ubuntu_Ubuntu + mount cifs
- linux内核memset,Linux库memset函数实现
- 26进制的加法和除法codeforces1144E