前言

本系列非结构数据分析与建模是我的专业课，仅仅是作为笔记方便以后好查阅，也希望能和大家分享，总结经验，非常愿意讨论交流。本次是垃圾短信识别，是一个典型的二分类问题，针对此问题，本文使用哈希向量法以及贝叶斯来做分类预测。

一、相关数据代码

对于一些基础知识，大家可以借鉴以下博客，博主讲述的One-hot以及TF-IDF很是生动。
机器学习之基于文本内容的垃圾短信识别
相关数据和代码请参照网盘：
垃圾短息数据集和代码

二、实操步骤

语言程序：python3+spark

1.分词，去除无用词

import pandas as pd
import jieba
import re
mescon_all = pd.read_csv('whole.csv',header=None,encoding='utf8')
outfile = open('result.csv','wb')
ns = 0
ps = 0
for i in range(len(mescon_all)):mescon_single = mescon_all[2][i]me_cate = mescon_all[1][i]#什么类型outstr = ''temp = re.sub(u'[^\u4e00-\u9fa5A-Za-z]','',mescon_single)# 匹配中文字符的正则表达式ms_cut = list(jieba.cut(temp,cut_all=False))for word in ms_cut:if word != ' ':outstr += word+' '#空格if me_cate == 1:#1代表垃圾信息ns = ns+1if ns <80000:outfile.write((str(me_cate)+','+outstr).encode('utf-8')+b'\n')if me_cate == 0:ps = ps+1if ps <80000:outfile.write((str(me_cate)+','+outstr).encode('utf-8')+b'\n')outfile.close()#take some time

whole.csv显示如下：

result.csv显示如下：

2.变成特征向量

代码如下（示例）：

import pandas as pd
from sklearn.feature_extraction.text import HashingVectorizer
mescon_all = pd.read_csv('result.csv',header=None,encoding='utf8')
listtodel = []
for i,line in enumerate(mescon_all[1]):if type(line)!=str:listtodel.append(i)
mescon_all = mescon_all.drop(listtodel)   outfile = open('features.txt','wb')
#特征哈希法的目标是把原始的高维特征向量压缩成较低维特征向量，且尽量不损失原始特征的表达能力。
vector = HashingVectorizer(n_features=100)
temp = vector.transform(mescon_all[1]).todense()x = [[i,j] for i,j in enumerate(mescon_all[0])]
temp = temp.tolist()
for i,line in enumerate(temp):outstr = ''for word in line:outstr += str(word+1)outstr += ' ' outfile.write((str(mescon_all[0][x[i][1]])+','+outstr).encode('utf-8')+b'\n')outfile.close()

使用hash变成的特征向量：

3. 贝叶斯分类

提示：这部分提供的是scala文件，需要spark软件处理。

import org.apache.spark.mllib.classification.NaiveBayes
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.{SparkContext,SparkConf}
object test {case class RawDataRecord(category: String, text: String)def main(args : Array[String]) {val conf = new SparkConf().setMaster("local").setAppName("Bayes")val sc = new SparkContext(conf)val data = sc.textFile("F:/data/features.txt")//读入处理好的数据，且以逗号为分隔，取出每个Label与特征向量val parsedData = data.map { line =>val parts = line.split(',')LabeledPoint(parts(0).toDouble,Vectors.dense(parts(1).split(' ').map(_.toDouble)))}//将整个80万条测试集按训练集与测试集4:1比例随机分配val splits = parsedData.randomSplit(Array(0.8,0.2))val training = splits(0)val test = splits(1)  //以贝叶斯方法训练数据，创建模型,lambda为平滑参数，可手动设置val model = NaiveBayes.train(training,lambda = 1.0)//将测试集用训练出的模型进行预测val predictionAndLabel = test.map(p => (model.predict(p.features),p.label))  //统计预测出的数据val TP = predictionAndLabel.filter(x => x._1 == 0 && x._2 == 0).count()val FP = predictionAndLabel.filter(x => x._1 == 0 && x._2 == 1).count()val FN = predictionAndLabel.filter(x => x._1 == 1 && x._2 == 0).count()val TN = predictionAndLabel.filter(x => x._1 == 1 && x._2 == 1).count()    //计算准确率 召回率 F1来评估模型val pre = 1.0*TP/(TP+FP)val recall = 1.0*TP/(TP+FN)val F1 = 2.0*pre*recall/(pre+recall)  println("TP为："+TP)println("FP为："+FP)println("FN为："+FN)println("TN为："+TN)println("准确率为："+pre)println("召回率为："+recall)println("F1为："+F1)}
}

选用欠抽样，从数据集中去除一些非垃圾短信。预测准确率大约为75%，召回率大约为86%。

非结构数据分析与建模——垃圾短信数据集相关推荐

【人工智能】机器学习及与智能数据处理Python使用朴素贝叶斯算法对垃圾短信数据集进行分类
朴素贝叶斯算法输入:样本集合D={(x_1,y_1),(x_2,y_2) (x_m,y_m); 待预测样本x; 样本标记的所有可能取值{c_1,c_2,c_3 c_k}; 样本输入变量X的每个属性变 ...
如何利用数据挖掘平台，通过数据建模，解决垃圾短信带来的困扰
如今,手机已经成为人们日常生活必不可少的工具之一.虽然各种社交APP层次不穷,但手机短信以其操作简单.方便快捷等诸多优点一直都是用户间沟通的基础方式.手机短信在为人们带来极大便利的同时,随之而来的诸多 ...
【数据科学项目02】：NLP应用之垃圾短信/邮件检测（端到端的项目）
垃圾短信检测(端到端的项目) 我们都听说过一个流行词--"数据科学".我们大多数人都对"它是什么?我可以成为数据分析师或数据科学家吗?我需要什么技能?并不是很了解.例如: ...
机器学习—— SVM分类垃圾短信
机器学习-- SVM分类算法垃圾短信分类问题 Python语言凭借其强大的特性,其众多的外部库支持下,在机器学习和数据挖掘等领域发挥着强大的作用.本文基于python的机器学习库scikit-lea ...
垃圾短信识别python步骤详细_python数据挖掘第三篇-垃圾短信文本分类
文本分类总体上包括8个步骤.数据探索分析->数据抽取->文本预处理->分词->去除停用词->文本向量化表示->分类器->模型评估.重要python库包括num ...
实战：垃圾短信分类检测
上次我们讲到朴素贝叶斯分类,忘记的同学参考一文搞懂朴素贝叶斯分类,今天就通过朴素贝叶斯分来来实现一个简单的垃圾短信分类器. 数据预处理实现这个分类器我们使用的数据集来自伦敦大学学院的机器学习数据集( ...
朴素贝叶斯预测是否为垃圾短信
朴素贝叶斯预测是否为垃圾短信目的数据集源代码结果目的 1.利用朴素贝叶斯分类器判断短信(数据集已给)是否为垃圾短信: 2.可参考给定的文本分类代码:不可以直接调用sklearn的方法: 数据 ...
朴素贝叶斯算法--过滤垃圾短信
文章目录 1. 基于黑名单过滤 2. 基于规则过滤 3. 基于概率统计过滤 4. 总结上一节我们讲到,如何用位图.布隆过滤器,来过滤重复数据.今天,我们再讲一个跟过滤相关的问题,如何过滤垃圾短信? ...
python垃圾短信识别_Scikit-Learn机器学习实践：垃圾短信识别
机器学习与垃圾短信识别前不久,我们使用NLTK的贝叶斯分类模型垃圾对短信数据进行机器学习的垃圾短信识别. 其实除了使用NLTK,我们还可以使用Scikit-Learn这个集成了诸多机器学习算法的模块 ...

非结构数据分析与建模——垃圾短信数据集

文章目录

前言