使用集搜客爬取酷狗排行歌曲信息
最近项目中遇到需要大量爬取歌曲数据的需求,且需要爬取歌曲的网站比较多,自己写爬虫显然开发成本很高,所以找了个集搜客来用。
1.安装教程可以自行百度,基本都是直接下一步,不过这个软件需要.net4.0的支持这里给个官网的连接.net framework
2.打开软件,输入网址,这里以酷狗为例,在地址栏输入地址http://www.kugou.com/yy/html/rank.html
3.点击指定规则,输入主题名和网址,主题名是保存在该软件唯一的自己写就可以,输入完成点击查重,提示可用即可,如果不可用换一个即可
4.在工作台切换到创建规则tab页,点击新建,输入整理箱名,这里可以把整理箱看成一个没有任何作用的容器
5.右击酷狗->添加->包容
6.输入要抓取的内容,并点击关键内容连接(勾选该按钮,没有链接的歌曲会被过滤)
7.映射相应关系
8.上边已经完成一条数据的映射,需要把他当做一个模板
9.选择另一条数据的任意元素,映射为第二条
10.点击测试
11.点击右上角的存规则->爬数据
12.大功告成,去本地找数据吧
C:\Users\fxl\DataScraperWorks\kugou_paihang_fxl下的xml文件就是你需要的数据
转载于:https://www.cnblogs.com/fanxl/p/9123024.html
使用集搜客爬取酷狗排行歌曲信息相关推荐
- Python爬虫之爬取酷狗音乐歌曲
Python爬虫之爬取酷狗音乐歌曲 1.安装第三方库 在Python的语言库中, 分为Python标准库和Python的第三方库. Python标准库是在你安装Python的时候已经包含在了安装目录下 ...
- 爬虫练习-爬取酷狗TOP500音乐信息
前言: 同上篇爬虫练习-爬取小猪短租网北京地区短租房信息一样,均为极简的爬虫,仅仅爬取酷狗TOP500音乐信息(排名.歌手名.歌曲名.歌曲时长),可供入门和想入门的朋友学习. 本文为整理代码,梳理思路 ...
- 使用Python爬取酷狗TOP500歌曲
一个简单的Python案例,爬取酷狗TOP500歌曲,仅供学习参考 import requests from bs4 import BeautifulSoup import time# 爬取酷狗TOP ...
- xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据 | 向死而生...
为了爬点小数据同时试用了八爪鱼和集搜客.两者都有免费版本,但八爪鱼数据导出需要积分,集搜客可以不用积分.不过八爪鱼导出的数据有多种格式可选,而集搜客如果不用积分就只能得到一堆xml文件.本着能省则省的 ...
- Python爬取酷狗音乐歌手信息
前面我们说过用python爬取网易云音乐的歌手信息,Python爬取网易云音乐歌手信息 今天我们来爬取一下酷狗音乐的歌手信息(歌手id和歌手名),如果环境没有安装好,可以参照前面爬网易云环境配置作为参 ...
- Python爬取酷狗音乐-详解(多图预警)
目录 1.前言 2.分析一下 1. 2. 3. 3.代码解释 4.完整代码 5.结语 1.前言 前面发布了一篇关于QQ音乐爬取的教程,但对于我们这种文艺青年来说,一个平台的歌曲怎么够我们听的,也是因为 ...
- Java爬虫系列之实战:爬取酷狗音乐网 TOP500 的歌曲(附源码)
在前面分享的两篇随笔中分别介绍了HttpClient和Jsoup以及简单的代码案例: Java爬虫系列二:使用HttpClient抓取页面HTML Java爬虫系列三:使用Jsoup解析HTML 今天 ...
- 4步实现Java爬取酷狗音乐,so easy。
jar包:包括:jsoup.HttpClient.net.sf.json大家可以自行去下载 1.分析是否能获得TOP500歌单 首先,打开酷狗首页查看酷狗TOP500, 是真的只让看这些还是能找到其余 ...
- 爬取酷狗歌曲并进行下载用的是selenuim
爬取酷狗歌曲并进行下载用的是selenuim 1. 请求的url并发起请求 2. 定位元素,循环遍历 3. 窗口的转移 4. 获取歌曲的下载路径 5. 保存到指定的文件里面 6. 总结 开始来看看吧 ...
最新文章
- 解决“cannot open git-receive-pack”错误
- C# 调用WinRar解压压缩包
- matlab中if语句的用法_Excel中最常用的逻辑函数IF用法介绍
- Shell——read读取控制台输入和函数
- 游戏视觉控壁纸党可以开始行动!
- a6gpp php,内行人才知道的古董级玛莎拉蒂A6G 2000
- java字符串替换 数组,Java工具类-拆分字符串组装数组,替换字符
- 【React深入】setState的执行机制
- vs生成解决方案默认路径_交换网络防环协议——STP生成树,太阁实验栈
- c语言任务设计书,C语言课程设计任务书(必备).pdf
- 数学建模——确定性数学方法
- pr2020lut导入_PS PR AE怎么批量导入LUTS调色预设
- 移动端element日期插件不弹软键盘
- PWM占空比和电机转速有什么线性关系
- Excel-VBA 快速上手(三、数组和字典)
- windows7蓝牙怎么打开_避开网络限制,通过蓝牙共享网络连接
- TestCenter测试管理工具问题详解(6)
- 初学 博弈论 又称对策论 Game Theory
- matlab 设置坐标轴位置/方向 y轴反向
- 如何用requests获取百度网站的图片资源
热门文章
- 织梦dede模板|HTML5建材陶瓷装修设计网站织梦dede模板源码[自适应手机版]
- 实用常识 | 分享一个LeetCode个人主页的动态ASCII码
- java生成随机十位数_随机10位字符串生成
- 云洗衣机HTML5源码 朋友圈在线娱乐洗衣服
- 织梦响应式鲜花绿植花艺类网站模板(自适应手机端)
- 使用 JS 文件调用 Google AdSense 广告 cnblogs
- 怎么样用 Google Analytics 区分 Google Shopping 页的流量
- HTML5 LocalStorage 本地存储
- 剑指offer 09.用两个栈实现队列
- Centos7 error: Failed to initialize NSS library