文本分类（2）-基于传统机器学习方法进行文本分类

传统机器学习的文本分类通常提取TFIDF或者词袋特征，然后给模型进行训练，传统的机器学习的分类模型由很多，比如逻辑回归、支持向量机、多层感知机、贝叶斯等等。利用传统机器学习方法进行文本分类的基本思路：获取数据、数据预处理（上一篇博客已经讲过了https://blog.csdn.net/weixin_44766179/article/details/89855100）、特征提取、模型训练、预测。
下面利用传统机器学习方法实现垃圾邮件分类任务。

import numpy as np
import pandas as pd
import re
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk.tokenize import word_tokenize
import warningswarnings.filterwarnings('ignore')data_file = './spam.csv'df = pd.read_csv(data_file, encoding='latin1')labels = df.v1
texts = df.v2def clear_data(text):# 英文缩写替换text_abbreviation = []for item in text:item = item.lower().replace("it's", "it is").replace("i'm", "i am").replace("he's", "he is").replace("she's", "she is")\.replace("we're", "we are").replace("they're", "they are").replace("you're", "you are").replace("that's", "that is")\.replace("this's", "this is").replace("can't", "can not").replace("don't", "do not").replace("doesn't", "does not")\.replace("we've", "we have").replace("i've", " i have").replace("isn't", "is not").replace("won't", "will not")\.replace("hasn't", "has not").replace("wasn't", "was not").replace("weren't", "were not").replace("let's", "let us")text_abbreviation.append(item)# 删除标点符号、数字等其他字符text_clear_str = []for item in text_abbreviation:item = re.sub("[^a-zA-Z]", " ", item)text_clear_str.append(' '.join(item.split()))texts = []stem_porter = PorterStemmer()  # 词形归一化stop_words = stopwords.words("english")  # 停用词# 分词、词形归一化、删除停用词for item in text_clear_str:words_token = word_tokenize(item)  # 分词words = [stem_porter.stem(w) for w in words_token if w not in stop_words]texts.append(' '.join(words))return textstexts = clear_data(texts)le = LabelEncoder()
labels = le.fit_transform(labels)
# TFIDF特征提取
def features_extraction(text):vector = TfidfVectorizer()return vector.fit_transform(text).todense()features = features_extraction(texts)x_train, x_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=2)

# 逻辑回归
from sklearn.linear_model import LogisticRegressionlr = LogisticRegression().fit(x_train, y_train)y_pred = lr.predict(x_test)print('accuracy_lr : ', accuracy_score(y_test, y_pred))  # 输出：0.9524663677130045

# 支持向量机
from sklearn.svm import SVCsvc = SVC(kernel='linear').fit(x_train, y_train)y_pred = svc.predict(x_test)print('accuracy_svm: ', accuracy_score(y_test, y_pred))  # 输出：0.9739910313901345

# 多层感知机
from sklearn.neural_network import MLPClassifiermlp = MLPClassifier(hidden_layer_sizes=(100, 100,)).fit(x_train, y_train)y_pred = mlp.predict(x_test)print('accuracy_mlp: ', accuracy_score(y_test, y_pred))  #   输出：0.9748878923766816

# 贝叶斯
from sklearn.naive_bayes import MultinomialNBmb = MultinomialNB().fit(x_train, y_train)y_pred = mb.predict(x_test)print('accuracy_mb: ', accuracy_score(y_test, y_pred))  # 输出：0.9623318385650225

文本分类（2）-基于传统机器学习方法进行文本分类相关推荐

CS224W 图机器学习（二）--图上的传统机器学习方法
图上的传统机器学习方法一. Tradtion Feature-based Methods Node 一. Tradtion Feature-based Methods Node 传统机器学习方法,我 ...
【LSSVM分类】基于matlab灰狼算法优化LSSVM分类（多输入多分类）【含Matlab源码 1558期】
⛄一.获取代码方式获取代码方式1: 完整代码已上传我的资源:[LSSVM分类]基于matlab灰狼算法优化LSSVM分类(多输入多分类)[含Matlab源码 1558期] 获取代码方式2: 付费专栏 ...
朴素贝叶斯文本分类java_基于朴素贝叶斯的文本分类算法
基于朴素贝叶斯的文本分类算法摘要:常用的文本分类方法有支持向量机.K-近邻算法和朴素贝叶斯.其中朴素贝叶斯具有容易实现,运行速度快的特点,被广泛使用.本文详细介绍了朴素贝叶斯的基本原理,讨论多项式模 ...
各种机器学习方法实现多分类（KNN，Logistics，Decision tree，byeis，SVM）以鸢尾花数据集为例
之前做的关于分类问题大都是基于CNN实现图像分类如手写体识别-CNN实现minst识别,已有的参考也是比较多,还整理过一个关于PIMA糖尿病人数据集的分类,该问题属于对于数据的二分类问题,根据数据判断 ...
[Python人工智能] 二十.基于Keras+RNN的文本分类vs基于传统机器学习的文本分类
从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章分享了循环神经网络RNN的原理知识,并采用Keras实现手写数字识别的RNN分类案例及可视化呈现.这篇文章作者将带 ...
基于Python机器学习方法的电影推荐系统
资源下载地址:https://download.csdn.net/download/sheziqiong/85745459 资源下载地址:https://download.csdn.net/downl ...
利用机器学习方法进行岩相分类
本文引用Brendon Hall在2016年<The Leading Edge>上发表的题为"Facies classfication using machine learnin ...
分类问题的评价指标：多标签分类【基于标签度量（同多分类一样）：准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1】【基于样本度量：Hamming Loss...】
多标签分类的分类评价指标分为两大类: 基于标签上的度量:同多分类一样,在每一个标签上计算 Accuray.P.R.F-- 基于样本上的度量:又分为基于分类的度量.基于排序的度量基于分类的度量:Sub ...
基于sklearn的贝叶斯文本分类
本文涉及到的代码均已放置在我的github中 -->链接 1. 文本分类问题随着互联网的发展,非结构化的文本数据急剧增加,在为人们提供更多可用信息的同时,也导致人们更难从中发现自己最感兴趣的信 ...
基于pytorch的Bi-LSTM中文文本情感分类
基于pytorch的Bi-LSTM中文文本情感分类目录基于pytorch的Bi-LSTM中文文本情感分类一.前言二.数据集的准备与处理 2.1 数据集介绍 2.2 文本向量化 2.3 数据集处 ...

文本分类（2）-基于传统机器学习方法进行文本分类

文本分类（2）-基于传统机器学习方法进行文本分类相关推荐

最新文章

热门文章