之前一直对爬虫很好奇,觉得它很神秘,而我有个朋友是做爬虫的,最近有空就向他学习了一下,并试着写了个小程序。
首先是获得httpclient对象及httpresponse对象,此两者是用于发送请求及接受数据。

    CloseableHttpClient httpClient = null;CloseableHttpResponse httpResponse = null;try {RequestConfig requestConfig = RequestConfig.custom().setConnectTimeout(10000).setSocketTimeout(10000).setConnectionRequestTimeout(10000).build();httpClient = HttpClients.createDefault();
  }



然后是配置请求,去获得网站里的数据。
 HttpGet httpGet = new HttpGet("http://music.163.com/discover/toplist?id=3778678");httpGet.setConfig(requestConfig);httpGet.setHeader("Host", "music.163.com");httpGet.setHeader("Referer", "http://music.163.com/");httpGet.setHeader("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36");
上面包括url,请求头,代理等等,封装进httpget对象中。
 httpResponse = httpClient.execute(httpGet);String musicName = EntityUtils.toString(httpResponse.getEntity(), "UTF-8");logger.info(musicName);
执行该请求,通过http.util.EntityUtils把请求的数据转为string,这里把它写进日志文件里。下面是抓取的数据信息,可以看到歌名等以及网页的信息也出来了。
后面步骤需要对此数据进行解析,毕竟要的只是排行榜信息。
areastyle="display:none;">[{"copyrightId": 14026,"mvid": 0,"transNames": null,"status": 0,"ftype": 0,"privilege": {"st": 0,"flag": 0,"subp": 1,"fl": 320000,"fee": 0,"dl": 320000,"cp": 1,"cs": false,"toast": false,"maxbr": 999000,"id": 515803379,"pl": 320000,"sp": 7,"payed": 0},"djid": 0,"album": {"id": 36681200,"name": "别","picUrl": "http://p1.music.126.net/NUUQurj2vr85-ugkwORjWQ==/109951163052989882.jpg","tns": [],"pic_str": "109951163052989882","pic": 109951163052989882},"artists": [{"id": 5781,"name": "薛之谦","tns": [],"alias": []}],"no": 0,"alias": [],"score": 100.0,"commentThreadId": "R_SO_4_515803379","fee": 0,"name": "别","id": 515803379,"type": 0,"duration": 215664
},

java实现爬虫,爬取网易歌单信息相关推荐

  1. python爬网易新闻_爬虫基本介绍 python3 爬虫爬取网易新闻排行榜

    爬虫基本介绍 1. 什么是爬虫? 爬虫是请求⽹网站并提取数据的⾃自动化程序 2. 爬虫的基本流程 发起请求 通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers ...

  2. 用Java做爬虫爬取王者荣耀的英雄头像

    大家好,今天我和大家分享一下用Java做爬虫爬取王者荣耀的英雄头像. 首先我们需要王者荣耀的网址,然后获取连接,通过IO读取网页的源代码,用正则表达式筛选我们需要的代码,在每个筛选对象(图片的地址)前 ...

  3. 网易云爬取首页歌单里的所有歌曲

    网易云爬取首页歌单里的所有歌曲 前言:本文章仅供个人参考使用,非商用用途,其中参考了其他的文献资料,如有不妥之处,请联系本人邮箱:wurenjie8@163.com 思路:通过首页URL获取所有首页的 ...

  4. python 爬虫 爬取高考录取分数线 信息

    原文链接: python 爬虫 爬取高考录取分数线 信息 上一篇: axios 原生上传xlsx文件 下一篇: pandas 表格 数据补全空值 网页 https://gkcx.eol.cn/scho ...

  5. Java爬虫爬取网易汽车车型库

    本文地址:http://blog.csdn.net/shanglianlm/article/details/70188385 最近由于工作需要,写了一个小的爬虫,主要用于爬取网易汽车车型库(http: ...

  6. Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息

    XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊.其实我 ...

  7. Python爬虫爬取知乎用户信息+寻找潜在客户

    [Python应用]寻找社交网络中的目标用户 日后的更新:由于是很久以前的课程设计项目,完整的源码已经不见了,关键的网页数据获取和解析的部分代码我在文章中已经贴出来了,但写的也不够好,如果想参考爬取知 ...

  8. python爬虫requests源码链家_python爬虫——爬取链家房价信息(未完待续)

    爬取链家房价信息(未完待续) items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # ...

  9. 利用Python爬虫爬取斗鱼直播间信息,以及直播的实际人数!

    首先我准备利用mysql来存储我爬取的信息,建一个host表如下: 然后下载pymysql ,利用它与数据库链接,因为在这里我只涉及到写入的操作: Unit_Mtsql 然后就是使用Beautiful ...

最新文章

  1. CUPS Share Printer
  2. python读音发音器-python3-文本读音器
  3. 第三次作业——(涂江凤、邓洪虹)
  4. ashly理器4.8软件汉化版_AMD 处理器核心比英特尔多还更便宜?英特尔回应
  5. php 利用redis写一个聊天室,使用Redis完成聊天室功能
  6. 现代计算机网络发展为第几代,晶体管计算机是第几代_个人计算机使用的电子元器件_计算机网络最突出的(6)...
  7. Linux内核中的jiffies及其作用介绍及jiffies等相关函数详解
  8. 泛微OA如何重置管理员密码
  9. 【老生谈算法】基于matlab的指纹处理和识别算法详解及程序源码——指纹识别算法
  10. 苹果云服务器满,苹果云备份满了怎么清理
  11. gta5因为计算机丢失xinput1,GTA5 运行缺少这个xinput1-3.dll,怎样办
  12. 仿【咪咕动漫】列表下拉刷新上拉加载
  13. 【Storm】【一】简介
  14. JAVA内存文件映射
  15. 十七、网上商城项目(5)
  16. 孪生素数问题——素数(质数)指的是不能被分解的数,除了1和它本身之外没有其他数能够整除。如果两个素数之差为2,则这两个素数就是孪生素数,例如3和5为孪生素数,。找出1-100之间的所有孪生素数。
  17. 【数据结构】剑指 Offer P200——八皇后问题的排列解法
  18. 5 款逆向工具,7 款代码分析工具,11 项优化建议
  19. python绘制荷花_python解释器执行金额:¥%f 元 % 1.5000 的结果为( )
  20. 外部链接的建设,什么样的才是好的外部链接?

热门文章

  1. LWC 66: 759. Employee Free Time
  2. 车性能测试软件是什么,3DMark制造商推首款汽车性能测试软件
  3. GEEM2引擎微端架设基本教程
  4. 图灵学院Java开发笔记
  5. 标梵互动信息解说关于CSS-in-JS: 使用及优缺点
  6. GitHub快速上手指南
  7. Vue集成amCharts4
  8. 你是外包,麻烦不要偷吃零食。。。网友:...
  9. Python爬虫:抓取js生成的数据
  10. dlib检测人脸landmarks