java实现爬虫，爬取网易歌单信息

之前一直对爬虫很好奇，觉得它很神秘，而我有个朋友是做爬虫的，最近有空就向他学习了一下，并试着写了个小程序。

首先是获得httpclient对象及httpresponse对象，此两者是用于发送请求及接受数据。

    CloseableHttpClient httpClient = null;CloseableHttpResponse httpResponse = null;try {RequestConfig requestConfig = RequestConfig.custom().setConnectTimeout(10000).setSocketTimeout(10000).setConnectionRequestTimeout(10000).build();httpClient = HttpClients.createDefault();

然后是配置请求，去获得网站里的数据。

 HttpGet httpGet = new HttpGet("http://music.163.com/discover/toplist?id=3778678");httpGet.setConfig(requestConfig);httpGet.setHeader("Host", "music.163.com");httpGet.setHeader("Referer", "http://music.163.com/");httpGet.setHeader("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36");

上面包括url，请求头，代理等等，封装进httpget对象中。

 httpResponse = httpClient.execute(httpGet);String musicName = EntityUtils.toString(httpResponse.getEntity(), "UTF-8");logger.info(musicName);

执行该请求，通过http.util.EntityUtils把请求的数据转为string，这里把它写进日志文件里。下面是抓取的数据信息，可以看到歌名等以及网页的信息也出来了。

后面步骤需要对此数据进行解析，毕竟要的只是排行榜信息。

areastyle="display:none;">[{"copyrightId": 14026,"mvid": 0,"transNames": null,"status": 0,"ftype": 0,"privilege": {"st": 0,"flag": 0,"subp": 1,"fl": 320000,"fee": 0,"dl": 320000,"cp": 1,"cs": false,"toast": false,"maxbr": 999000,"id": 515803379,"pl": 320000,"sp": 7,"payed": 0},"djid": 0,"album": {"id": 36681200,"name": "别","picUrl": "http://p1.music.126.net/NUUQurj2vr85-ugkwORjWQ==/109951163052989882.jpg","tns": [],"pic_str": "109951163052989882","pic": 109951163052989882},"artists": [{"id": 5781,"name": "薛之谦","tns": [],"alias": []}],"no": 0,"alias": [],"score": 100.0,"commentThreadId": "R_SO_4_515803379","fee": 0,"name": "别","id": 515803379,"type": 0,"duration": 215664
},

java实现爬虫，爬取网易歌单信息相关推荐

python爬网易新闻_爬虫基本介绍 python3 爬虫爬取网易新闻排行榜
爬虫基本介绍 1. 什么是爬虫? 爬虫是请求⽹网站并提取数据的⾃自动化程序 2. 爬虫的基本流程发起请求通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers ...
用Java做爬虫爬取王者荣耀的英雄头像
大家好,今天我和大家分享一下用Java做爬虫爬取王者荣耀的英雄头像. 首先我们需要王者荣耀的网址,然后获取连接,通过IO读取网页的源代码,用正则表达式筛选我们需要的代码,在每个筛选对象(图片的地址)前 ...
网易云爬取首页歌单里的所有歌曲
网易云爬取首页歌单里的所有歌曲前言:本文章仅供个人参考使用,非商用用途,其中参考了其他的文献资料,如有不妥之处,请联系本人邮箱:wurenjie8@163.com 思路:通过首页URL获取所有首页的 ...
python 爬虫爬取高考录取分数线信息
原文链接: python 爬虫爬取高考录取分数线信息上一篇: axios 原生上传xlsx文件下一篇: pandas 表格数据补全空值网页 https://gkcx.eol.cn/scho ...
Java爬虫爬取网易汽车车型库
本文地址:http://blog.csdn.net/shanglianlm/article/details/70188385 最近由于工作需要,写了一个小的爬虫,主要用于爬取网易汽车车型库(http: ...
Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息
XPath 的安装以及使用 1 . XPath 的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事啊.其实我 ...
Python爬虫爬取知乎用户信息+寻找潜在客户
[Python应用]寻找社交网络中的目标用户日后的更新:由于是很久以前的课程设计项目,完整的源码已经不见了,关键的网页数据获取和解析的部分代码我在文章中已经贴出来了,但写的也不够好,如果想参考爬取知 ...
python爬虫requests源码链家_python爬虫——爬取链家房价信息（未完待续）
爬取链家房价信息(未完待续) items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # ...
利用Python爬虫爬取斗鱼直播间信息，以及直播的实际人数！
首先我准备利用mysql来存储我爬取的信息,建一个host表如下: 然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作: Unit_Mtsql 然后就是使用Beautiful ...

java实现爬虫，爬取网易歌单信息

java实现爬虫，爬取网易歌单信息相关推荐

最新文章

热门文章