最近项目中遇到需要大量爬取歌曲数据的需求,且需要爬取歌曲的网站比较多,自己写爬虫显然开发成本很高,所以找了个集搜客来用。

1.安装教程可以自行百度,基本都是直接下一步,不过这个软件需要.net4.0的支持这里给个官网的连接.net framework
2.打开软件,输入网址,这里以酷狗为例,在地址栏输入地址http://www.kugou.com/yy/html/rank.html
3.点击指定规则,输入主题名和网址,主题名是保存在该软件唯一的自己写就可以,输入完成点击查重,提示可用即可,如果不可用换一个即可

4.在工作台切换到创建规则tab页,点击新建,输入整理箱名,这里可以把整理箱看成一个没有任何作用的容器

5.右击酷狗->添加->包容

6.输入要抓取的内容,并点击关键内容连接(勾选该按钮,没有链接的歌曲会被过滤)


7.映射相应关系



8.上边已经完成一条数据的映射,需要把他当做一个模板
9.选择另一条数据的任意元素,映射为第二条

10.点击测试

11.点击右上角的存规则->爬数据

12.大功告成,去本地找数据吧
C:\Users\fxl\DataScraperWorks\kugou_paihang_fxl下的xml文件就是你需要的数据

转载于:https://www.cnblogs.com/fanxl/p/9123024.html

使用集搜客爬取酷狗排行歌曲信息相关推荐

  1. Python爬虫之爬取酷狗音乐歌曲

    Python爬虫之爬取酷狗音乐歌曲 1.安装第三方库 在Python的语言库中, 分为Python标准库和Python的第三方库. Python标准库是在你安装Python的时候已经包含在了安装目录下 ...

  2. 爬虫练习-爬取酷狗TOP500音乐信息

    前言: 同上篇爬虫练习-爬取小猪短租网北京地区短租房信息一样,均为极简的爬虫,仅仅爬取酷狗TOP500音乐信息(排名.歌手名.歌曲名.歌曲时长),可供入门和想入门的朋友学习. 本文为整理代码,梳理思路 ...

  3. 使用Python爬取酷狗TOP500歌曲

    一个简单的Python案例,爬取酷狗TOP500歌曲,仅供学习参考 import requests from bs4 import BeautifulSoup import time# 爬取酷狗TOP ...

  4. xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据 | 向死而生...

    为了爬点小数据同时试用了八爪鱼和集搜客.两者都有免费版本,但八爪鱼数据导出需要积分,集搜客可以不用积分.不过八爪鱼导出的数据有多种格式可选,而集搜客如果不用积分就只能得到一堆xml文件.本着能省则省的 ...

  5. Python爬取酷狗音乐歌手信息

    前面我们说过用python爬取网易云音乐的歌手信息,Python爬取网易云音乐歌手信息 今天我们来爬取一下酷狗音乐的歌手信息(歌手id和歌手名),如果环境没有安装好,可以参照前面爬网易云环境配置作为参 ...

  6. Python爬取酷狗音乐-详解(多图预警)

    目录 1.前言 2.分析一下 1. 2. 3. 3.代码解释 4.完整代码 5.结语 1.前言 前面发布了一篇关于QQ音乐爬取的教程,但对于我们这种文艺青年来说,一个平台的歌曲怎么够我们听的,也是因为 ...

  7. Java爬虫系列之实战:爬取酷狗音乐网 TOP500 的歌曲(附源码)

    在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...

  8. 4步实现Java爬取酷狗音乐,so easy。

    jar包:包括:jsoup.HttpClient.net.sf.json大家可以自行去下载 1.分析是否能获得TOP500歌单 首先,打开酷狗首页查看酷狗TOP500, 是真的只让看这些还是能找到其余 ...

  9. 爬取酷狗歌曲并进行下载用的是selenuim

    爬取酷狗歌曲并进行下载用的是selenuim 1. 请求的url并发起请求 2. 定位元素,循环遍历 3. 窗口的转移 4. 获取歌曲的下载路径 5. 保存到指定的文件里面 6. 总结 开始来看看吧 ...

最新文章

  1. 解决“cannot open git-receive-pack”错误
  2. C# 调用WinRar解压压缩包
  3. matlab中if语句的用法_Excel中最常用的逻辑函数IF用法介绍
  4. Shell——read读取控制台输入和函数
  5. 游戏视觉控壁纸党可以开始行动!
  6. a6gpp php,内行人才知道的古董级玛莎拉蒂A6G 2000
  7. java字符串替换 数组,Java工具类-拆分字符串组装数组,替换字符
  8. 【React深入】setState的执行机制
  9. vs生成解决方案默认路径_交换网络防环协议——STP生成树,太阁实验栈
  10. c语言任务设计书,C语言课程设计任务书(必备).pdf
  11. 数学建模——确定性数学方法
  12. pr2020lut导入_PS PR AE怎么批量导入LUTS调色预设
  13. 移动端element日期插件不弹软键盘
  14. PWM占空比和电机转速有什么线性关系
  15. Excel-VBA 快速上手(三、数组和字典)
  16. windows7蓝牙怎么打开_避开网络限制,通过蓝牙共享网络连接
  17. TestCenter测试管理工具问题详解(6)
  18. 初学 博弈论 又称对策论 Game Theory
  19. matlab 设置坐标轴位置/方向 y轴反向
  20. 如何用requests获取百度网站的图片资源

热门文章

  1. 织梦dede模板|HTML5建材陶瓷装修设计网站织梦dede模板源码[自适应手机版]
  2. 实用常识 | 分享一个LeetCode个人主页的动态ASCII码
  3. java生成随机十位数_随机10位字符串生成
  4. 云洗衣机HTML5源码 朋友圈在线娱乐洗衣服
  5. 织梦响应式鲜花绿植花艺类网站模板(自适应手机端)
  6. 使用 JS 文件调用 Google AdSense 广告 cnblogs
  7. 怎么样用 Google Analytics 区分 Google Shopping 页的流量
  8. HTML5 LocalStorage 本地存储
  9. 剑指offer 09.用两个栈实现队列
  10. Centos7 error: Failed to initialize NSS library