许嵩音乐智能问答系统微信小程序之获取数据及文本分类

  • 项目简介.
  • 音乐播放器搭建.
  • 获取数据及文本分类.
  • 智能客服聊天界面.
  • 连接前端微信小程序输入和后端python,并返回值
  • 连接知识图谱

数据获取

今天我们正式开始获取数据和对文本进行分类,我的信息都还是从百度百科和网易云上获取的,因为信息量比较少就没有使用爬虫,直接自己手动获取,然后复制在excel里面。
主要获取的信息有

  1. 个人信息

  2. 演唱会

  3. 专辑

  4. 为他人创作

  5. 歌曲

  6. 歌曲关键词

  7. 推荐

文本分类

获取了这些信息以后,我们就先将此次的文本分类任务定为这7大类,接下来我们开始训练分类模型。
首先我们先获取训练好的文本数据集,关于这7大类的询问方式找不到现成的,我就自己写了大概150条,然后给他们分别打上一个标签,如下:
因为时间仓促,感觉这个训练集是有点小的,而且一个人容易思维定型,如果邀请大家一起来想问题应该会更全面一点,这些所有的信息都上传资源了,大家可以下载之后,再加以补充。
接下来,正式使用朴素贝叶斯进行训练。

##导入需要的包,读入excel文件
import pandas as pd
import numpy as np
import jieba
import os
import re
import copy
from collections import Counter
import joblib
data = pd.read_excel('问题.xlsx')
x_train=data['问题']
y_train=data['类别']

使用词库表示法进行特征提取,也就是一个字就是一个特征

##文本特征提取(词库表示法)
#sklearn库CountVectorizer转词向量
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(max_features=5000)
vectorizer.fit(x_train_fenci)
# 进行文本转化为特征
x_train = vectorizer.transform(x_train_fenci)

接下来训练模型并保存,保存了模型,下次调用就直接测试出结果,不需要再从头训练开始,非常节省时间。

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
#模型训练
classifier.fit(x_train, y_train)
#将模型持久化,以便以后使用
joblib.dump(classifier, 'clf_model.pkl')
#将词库持久化,以便以后使用
joblib.dump(vectorizer, 'vec_model.pkl')

如果大家的jupyter notebook上面还没有安装joblib,可以安装一下。

!pip install joblib

OK,大功告成,我们可以测试一下,看看训练效果如何。

clf = joblib.load("clf_model.pkl")
vec = joblib.load("vec_model.pkl")
test=["许嵩的个人信息","许嵩办过哪些演唱会","许嵩有哪些专辑","许嵩帮别人写过哪些歌"]
df=pd.DataFrame({'1':test})
x_test=df['1']
x_test_fenci = fenci(x_test)
y_predict = clf.predict(vec.transform(x_test_fenci))
print(y_predict)

效果还是非常不错的。

完整的数据集、代码、训练好的模型都已经上传资源啦!
链接: https://download.csdn.net/download/weixin_46570668/19666781.

许嵩音乐智能问答系统微信小程序之获取数据及文本分类相关推荐

  1. 许嵩音乐智能问答系统微信小程序之音乐播放器

    许嵩音乐智能问答系统微信小程序之音乐播放器 - 项目简介 项目简介. 音乐播放器搭建. 获取数据及文本分类. 智能客服聊天界面. 连接前端微信小程序输入和后端python,并返回值 连接知识图谱 你还 ...

  2. 许嵩音乐智能问答系统微信小程序之客服聊天室

    许嵩音乐智能问答系统微信小程序之客服聊天室 项目简介. 音乐播放器搭建. 获取数据及文本分类. 智能客服聊天界面. 连接前端微信小程序输入和后端python,并返回值 连接知识图谱 你还在为因为性格腼 ...

  3. 独家首发DJ舞曲音乐在线播放微信小程序源码下载支持多分类歌曲

    这是一款音乐播放小程序源码 音乐内容是属于DJ,电音,舞曲等等这类型的 该小程序的歌曲有七大分类,分别是: 第一分类热门推荐 第二分类中文舞曲 第三分类英文舞曲 第四分类慢摇舞曲 第五分类舞曲串烧 第 ...

  4. 微信小程序缓存获取数据教程

    微信小程序缓存获取数据教程 每个微信小程序都可以有自己的本地缓存,可以通过 wx.setStorage(wx.setStorageSync).wx.getStorage(wx.getStorageSy ...

  5. chatgpt智能问答微信小程序+后端源码+视频搭建教程

    chatgpt智能问答微信小程序+后端源码+视频搭建教程,这是一套微信小程序,后端是thinkphp框架为接口的,后端是前后端分离用elmentUI的源码框架. 小狐狸GPT付费体验系统是一款基于Th ...

  6. 网易云易盾推出面向微信小程序的大数据反作弊产品

    近日,国内领先的业务风控服务网易云易盾对外推出面向微信小程序的大数据反作弊产品,源于网易20年的核心业务风控技术与全面稳健的策略模型,有机整合了设备指纹.IP画像.规则引擎等八大能力,可广泛应用电商营 ...

  7. 分享下自己写的一个微信小程序请求远程数据加载到页面的代码

    分享下自己写的一个微信小程序请求远程数据加载到页面的代码 1  思路整理 就是页面加载完毕的时候  请求远程接口,然后把数据赋值给页面的变量 ,然后列表循环 2 js相关代码  我是改的 onload ...

  8. 小程序 php转excel,做微信小程序上传数据 数据格式?-微信 上传数据 生成excle

    做微信小程序上传数据 数据格式? 建议找人专门制作设计好,专业的事情交给专业的人做,自己浪费时间还不一定能搞好 如何把微信里的excel传到qq上 1.在手机中先箭头所示的"微信" ...

  9. 微信小程序批量获取input的输入值,监听输入框,数据同步

    微信小程序批量获取input的输入值,监听输入框,数据同步 在使用小程序时,跟vue的数据绑定不一样,没有v-model这个属性了,官网也只是给了一些事件监听. 但是我们如果有多个表单时,需要写多个事 ...

最新文章

  1. 全面改进Transformer类预训练模型,自然语言任务超越BERT
  2. 试验设计与matlab数据分析 下载,试验设计与MATLAB数据分析(附光盘)
  3. 关于空值null的排序问题 mysql 和oracle
  4. 编译Ngnix遇到的问题,查看程序依赖的库文件
  5. K8S的SDN容器网络解决方案【机制篇】
  6. java判断回文用valueof_判断字符串是否是回文
  7. php多级查询,MySQL 多级查询
  8. centos7 split 切割文件_CentOS 大文件夹按固定块大小分割打包实验
  9. android 常用依赖库
  10. Java 编程(基础面试题)
  11. 【请验收】证券开户系统常规版本【SIS-OAS1.52.0】即时验证---验证通过------生产验收报告模板...
  12. C语言7大常见排序(详细图解)
  13. nmon监控工具使用(打开nmon文件出现  运行时错误13类型不匹配)
  14. CSP 202006-2 稀疏向量
  15. 《孙子兵法》中的企业领导艺术和方法
  16. SAP 谈谈存货分析报表
  17. 正则匹配以xx开头以xx结尾的单词
  18. 49个学习Python的国外资源
  19. 汇编:裴波那契数列前50项
  20. 利用js制作html table分页示例(js实现分页)

热门文章

  1. IBM存储兼容性检查
  2. C语言用函数字符串的查找,字符串查找函数,C语言字符串查找函数详解
  3. Android 应用弹出悬浮窗
  4. MTBF、MTTR、MTTF是什么?
  5. 新型跨境电商平台如何选择?新手做跨境电商如何起步?
  6. HBM传感器 德国HBM
  7. VScode代码格式自动修正,自动排版
  8. 达梦数据库同Druid连接配置及常见问题
  9. 视频教程-尹成老师带你学算法-Java
  10. C#快速获取图像尺寸和分辨率(使用MagickImage)