本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/79072511

1,关于spider163


spider163 是一个非常好的项目,可以理解成一个工具,抓取网络的歌曲和评论等数据。
拿这些数据做啥呢,评论是非常好的东西,可以进行机器学习,做一个仿真评论,可以学习文字的内容。
做机器学习的原始训练数据,分析。

项目地址:
https://github.com/Chengyumeng/spider163

2,使用方式


安装使用超级方便。
使用 pip install spider163 就可以了。
然后在 /root/spider163/spider163.conf 配置mysql 地址。

[core]
db=mysql://root:mysql@mysql.host/spider163?charset=utf8mb4
port=1630

目前只支持 mysql,我用的是 5.5 可以 使用,mariadb 不支持创建表会报错:

自动生成数据库表出现问题: (_mysql_exceptions.ProgrammingError) (1064, "You have an error in your SQL syntax; check the manual that corresponds to your MariaDB server version for the right syntax to use near 'over VARCHAR(255) DEFAULT 'N', \n\tPRIMARY KEY (id)\n)' at line 8") [SQL: u"\nCREATE TABLE playlist163 (\n\tid INTEGER NOT NULL AUTO_INCREMENT, \n\ttitle VARCHAR(5000) DEFAULT 'System Title', \n\tlink VARCHAR(255) DEFAULT 'No Link', \n\tcnt INTEGER DEFAULT '-1', \n\tdsc VARCHAR(255) DEFAULT 'No Description', \n\tcreate_time TIMESTAMP NULL DEFAULT now(), \n\tover VARCHAR(255) DEFAULT 'N', \n\tPRIMARY KEY (id)\n)\n\n"]

换成 mysql 就行了。

3,抓取数据


$ spider163 initdb
$ # 根据配置文件的数据库信息自动创建数据库表,删除全部数据通过resetdb实现
$ spider163 resetdb
$ # 重建相关数据库
$ spider163 classify
$ # 获取已知曲风列表
$ spider163 playlist
$ # 默认下载全部推荐歌单(1000+),也可以通过指定页码去下载(-p=1),以及歌曲风格(--classify=小语种,默认为全部)
$ spider163 mp3 --playlist=2033391777
$ # 默认下载指定歌单列表内的全部包含版权的歌曲
$ spider163 music
$ # 默认下载10个歌单的歌曲数据,也可以通过指定循环大小(-c=2)来下载10 * c 个歌单内歌曲
$ spider163 comment
$ # 默认根据数据库存储的未下载歌曲随机下载一首单曲的评论,也可以通过-c指定需要下载的单曲数量和-s强制指定歌曲id
$ # spider163 comment -c 10 | spider163 comment -s 209115
$ spider163 lyric --count=10
$ # 抓取10首音乐的歌词,可以通过制定歌曲ID抓取特定一首音乐(--song)
$ spider163 search -q="林依晨"
$ # 搜索功能(待完善,暂支持歌曲搜索)
$ spider163 get -s 209115
$ # 阅读歌曲基本信息、歌词、热评
$ spider163 get --playlist 922064582
$ # 获取歌单的基本信息、歌曲等

按照官方的抓取指南进行操作就行了。

最主要的两个命令:

spider163 music -c=10000
spider163 comment -c 10000

日志:

正在执行第 283828 批抓取计划,本次抓取歌单歌曲 10 个
正在执行第 283829 批抓取计划,本次抓取歌单歌曲 10 个
正在执行第 283830 批抓取计划,本次抓取歌单歌曲 10 个
正在执行第 283831 批抓取计划,本次抓取歌单歌曲 10 个
正在执行第 283832 批抓取计划,本次抓取歌单歌曲 10 个
正在执行第 283833 批抓取计划,本次抓取歌单歌曲 10 个
正在执行第 283834 批抓取计划,本次抓取歌单歌曲 10 个
正在执行第 283835 批抓取计划,本次抓取歌单歌曲 10 个
正在执行第 283836 批抓取计划,本次抓取歌单歌曲 10 个
正在执行第 283837 批抓取计划,本次抓取歌单歌曲 10 个

抓取 10000 条音乐数据和评论数据。呵呵呵。
没有报错,数据抓取成功。

同时 ,spider163 还有一个简单web界面:


展示数据若干条。

4,总结


这个lib 工具,超级方便呢。这些数据分析起来很方便。
但是下载音乐接口不能使用。

("Connection broken: error(104, 'Connection reset by peer')", error(104, 'Connection reset by peer'))

报错呢。不过没有关系。有数据才是重要的。
然后如何使用这些数据分析就要用到 word2vec啦。
使用TensorFlow 分析数据啦。

本文的原文连接是: http://blog.csdn.net/freewebsys/article/details/79072511

推荐一个 github 项目 spider163,抓取网络数据,歌曲评论等数据相关推荐

  1. WebP 探寻之路,推荐一个GitHub项目

    从主界面中我们大致可以看出智图分为以下几个功能模块: 1.图片同向对比 2.图片压缩(可手动选择压缩比) 3.图片格式转换(JPEG转PNG或PNG转JPEG) 4.图片WebP化 5.图片批量处理 ...

  2. 抓取网络源码python_使用Python进行网络抓取的新手指南

    抓取网络源码python 有很多很棒的书可以帮助您学习Python,但是谁真正读了这些A到Z? (剧透:不是我). 接下来是我的第一个Python抓取项目指南. 假定的Python和HTML知识很少. ...

  3. 我是如何白嫖 Github 服务器自动抓取每日必应壁纸的?

    如何使用 Github 服务器自动抓取必应搜索的每日壁纸呢? 如果你访问过必应搜索网站,那么你一定会被搜索页面的壁纸吸引,必应搜索的壁纸每日不同,自动更换,十分精美.这篇文章会介绍如何一步步分析出必应 ...

  4. iOS开发——网络使用技术OC篇网络爬虫-使用正则表达式抓取网络数据

    网络爬虫-使用正则表达式抓取网络数据 关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...

  5. iOS—网络实用技术OC篇网络爬虫-使用java语言抓取网络数据

    网络爬虫-使用java语言抓取网络数据 前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码 实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件 上一 ...

  6. 如何使用 Github Actions 自动抓取每日必应壁纸?

    Hello world : ) 微信搜「 程序猿阿朗 」.点赞再看,动力无限. 本文 Github.com/niumoo/JavaNotes 和 未读代码博客 已经收录,有很多知识点和系列文章. 如何 ...

  7. 基于Java的网络爬虫实现抓取网络小说(一)

    基于Java的网络爬虫实现抓取网络小说(一) 今天开始写点东西,一方面加深印象一方面再学习. 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用 ...

  8. 2020年最佳的5种社交媒体的数据抓取/网络爬虫工具

    2020年最佳的5种社交媒体的数据抓取/网络爬虫工具 查看原文章: 2020年最佳的5种社交媒体的网络爬虫工具 社交媒体数据抓取工具通常是指一种自动化网络爬虫工具,可从社交媒体渠道提取数据.它不仅包括 ...

  9. 用C++实现网络编程---抓取网络数据包的实现方法

    From: http://blog.csdn.net/zjl_1026_2001/article/details/2191311 做过网管或协议分析的人一般都熟悉sniffer这个工具,它可以捕捉流经 ...

  10. python3一个简单的网页抓取

    python3一个简单的网页抓取 都是学PYTHON.怎么学都是学,按照基础学也好,按照例子增加印象也好,反正都是学 import urllib import urllib.requestdata={ ...

最新文章

  1. JavaScript -- throw、try 和 catch
  2. android设置gradle位置,android studio gradle 位置更改
  3. C++学习之路—继承与派生(四)拓展与总结
  4. 碎片化学前端,促进技术提升,我推荐这些
  5. zzz,zzz,zz9_ZZZ的完整形式是什么?
  6. ubuntu 14.04 16.04 安装caffe+cuda8.0+pycafee总结
  7. Ubuntu系统opencv4.4安装常见问题 找不到 feature2d/test/test_detectors_regression.impl.hpp 文件
  8. 安徽计算机对口大学有哪些专业,计算机专业对口升学安徽院校
  9. 原生JavaScript练习——全选
  10. Mac OS X安装 ffmpeg
  11. 剑指offer(28)—数组中出现次数超过一半的数字
  12. python工程师要求-高级Python开发工程师职位描述与岗位职责任职要求
  13. 用户使用报告_分享最新2020年抖音用户画像报告
  14. 如何解决Word启动问题
  15. 推荐一款远程控制App---Core shell
  16. 【配色方案】可视化图表不知道怎么配色,来参考下顶尖公司的Logo配色方案~~
  17. Python四行代码实现的猜数字小游戏,基于thinker,带GUI界面
  18. 基于Caret和RandomForest包进行随机森林分析的一般步骤 (1)
  19. 云计算是继互联网计算机后在信息时代,你知道啥是“云计算”吗?
  20. gitbook 插件 SEO

热门文章

  1. Spring warmth
  2. Latex设置每段前的空格数
  3. CMOS图像传感器OV7725数据手册
  4. WPF 触摸屏小键盘样式
  5. 巨象指纹浏览器可以帮助用户做些什么?
  6. Excel技巧 - Date函数日期转换
  7. 漫画制作软件EasyComic V1.7发布
  8. 药品大数据公司都有哪些?
  9. 苹果上网本报价_买水果“送”水泥?无良商家昧良心!苹果纸箱灌水泥,商户坦言:“赚箱子钱”|水泥|水果箱|水泥浆|水果...
  10. 【贪玩巴斯】一文通过操作实例——学会 知网专业检索 2022年3月21日