机器学习（七）：贝叶斯之新闻分类器

文章目录

一、文档与关键词提取
- 1、停用词
- 2、Tf-idf：关键词提取
- 3、相似度
二、新闻分类器
- 1、数据
- 2、分词：使用结巴分词器
- 3、 TF-IDF:整个文章关键词提取
- 4、 LDA:主题模型
- 5、基于贝叶斯算法进行新闻分类

一、文档与关键词提取

1、停用词

在一篇文档中，有很多停用词，比如“今天”、“明天”、“一下”…这些词对文本的分析都没有用处，跟主题没有关系。

2、Tf-idf：关键词提取

TF(Term Frequency)即为词频
举例：对《中国的蜜蜂养殖》进行词频统计
（1）首先去除掉停用词

（2）计算词频
词频(TF) = 某个词在文章中出现的次数/文章所有词的总数
“中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多，那重要性是一样的吗？

（3）逆文档频率(IDF)
“中国”是很常见的词，与文本的主题不太相关，而“蜜蜂”、“养殖”出现在一个文档里不那么常见。如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性正是我们所需要的关键词。
逆文档频率(IDF) = log(语料库的文档总数/(包含该词的文档数+1))

(4) TF-IDF = 词频(TF) * 逆文档频率(IDF)

3、相似度

计算相似度步骤：
（1）预处理：语料清洗
删去停用词以及以及重复的词（赞、给个好评等）
（2）分词
（3）词频
（4）词频向量
（5）余弦相似度计算相似度

二、新闻分类器

1、数据

数据集来源：http://www.sogou.com/labs/resource/ca.php
对新闻进行分类，当前新闻是属于文化类，还是汽车类、娱乐类等。

import pandas as pd
import jieba
df_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')
df_news = df_news.dropna()
df_news.head()

输出：

df_news.shape

输出：

(5000, 4)

可以看出是5000行4列

2、分词：使用结巴分词器

# 将content这一列的内容转换为列表
content = df_news.content.values.tolist()
print (content[1000])

输出：

阿里巴巴集团昨日宣布，将在集团管理层面设立首席数据官岗位（Ｃｈｉｅｆ　Ｄａｔａ　Ｏｆｆｉｃｅｒ），阿里巴巴Ｂ２Ｂ公司ＣＥＯ陆兆禧将会出任上述职务，向集团ＣＥＯ马云直接汇报。＞菹ぃ和６月初的首席风险官职务任命相同，首席数据官亦为阿里巴巴集团在完成与雅虎股权谈判，推进“ｏｎｅ　ｃｏｍｐａｎｙ”目标后，在集团决策层面新增的管理岗位。０⒗锛团昨日表示，“变成一家真正意义上的数据公司”已是战略共识。记者刘夏

（1）对该条新闻进行分词：

content_S = []# 存放分词
for line in content:current_segment = jieba.lcut(line)if len(current_segment) > 1 and current_segment != '\r\n': #换行符content_S.append(current_segment)

content_S[1000]

输出：

['阿里巴巴','集团','昨日','宣布','，','将','在','集团','管理',....]

（2）对所有的新闻进行分词的整合

# 清洗，去掉停用词
df_content=pd.DataFrame({'content_S':content_S})
df_content.head()

输出：

（3）展示停用词

stopwords=pd.read_csv("stopwords.txt",index_col=False,sep="\t",quoting=3,names=['stopword'], encoding='utf-8')
stopwords.head(20)

输出：

（4）遍历清洗停用词

def drop_stopwords(contents,stopwords):contents_clean = []# 放清理后的分词all_words = []for line in contents:line_clean=[]for word in line:if word in stopwords:continueline_clean.append(word)all_words.append(str(word))contents_clean.append(line_clean)return contents_clean,all_wordscontents = df_content.content_S.values.tolist()
stopwords = stopwords.stopword.values.tolist()
contents_clean,all_words = drop_stopwords(contents,stopwords)

# 展示清理后的词
df_content = pd.DataFrame({'contents_clean':contents_clean})
df_content.head()

输出：

# 所有的词
df_all_words = pd.DataFrame({'all_words':all_words})
df_all_words.head()

输出：

（5）计算词频

# 算词频,并排序
import numpy
words_count = df_all_words.groupby(by=['all_words'])['all_words'].agg({"count":numpy.size})
words_count = words_count.reset_index().sort_values(by=["count"],ascending=False)
words_count.head()

输出：

# 词云
from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)wordcloud=WordCloud(font_path="./data/simhei.ttf",background_color="white",max_font_size=80)
word_frequence = {x[0]:x[1] for x in words_count.head(100).values}
wordcloud=wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud)

输出：

3、 TF-IDF:整个文章关键词提取

import jieba.analyse
index = 2000
print(df_news['content'][index])
# 词之间相连接
content_S_str = "".join(content_S[index])
# topK=n表示提取n个关键词
print(" ".join(jieba.analyse.extract_tags(content_S_str, topK=5, withWeight=False)))

输出：
６月２４日，是梅西２５岁的生日。《世界体育报》特地为梅西提前做了个专题，梅西手持一件印有他姓氏和２５号号码的巴塞罗那球衣，跳蚤提前许下了生日愿望。！拔颐窍氯季的目标，和之前永远相同，那就是踢出漂亮的足球，并且赢得尽可能多的冠军奖杯。”梅西许愿，“如果能再次赢得西甲和欧冠冠军的话，那会非常美妙，我们将会努力再给球迷带来一次双冠王的喜悦。下赛季我的儿子将会出生，对于我来说，这将是一个特殊的赛季。我希望，下赛季对于巴萨而言也会是一个特殊的赛季。”６杂诎腿，梅西永远感激于心：“我永远感激巴萨为我所做的一切，我的病曾经需要巨额治疗资金，巴萨照顾好了我生活的方方面面，巴萨给了我踢足球的机会。这太美妙了，因为巴萨让我梦想成真。”＜唇２５岁的梅西，一共为巴萨出场３２９次，跳蚤打进２５３球，并且已经连续拿到了３个金球奖杯。在团队荣誉方面，梅西代表巴萨和阿根廷国青队拿到了２１个冠军头衔。在个人荣誉方面，梅西也拿到了１３个奖项，其中包括３个金球奖、１个世界足球先生奖项，２个欧洲金靴奖、２个西甲金靴奖、４个欧冠金靴和１个世青赛金靴。除了世界杯和美洲杯外，梅西拿到了能拿的一切荣誉。在２５岁的年龄段上，梅西的成就已经超越了贝利、克鲁伊夫、马拉多纳和迪斯蒂法诺这四大球王。＃玻邓甑谋蠢虽然拿到了世界杯冠军，但总奖杯数仅为１８个，比梅西少３个。在个人荣誉方面，贝利在国家队只拿了１９５９年美洲杯金靴。贝利的绝大多数个人荣誉，都是他在巴西国内联赛或者州内部联赛的金靴。２５岁的克鲁伊夫拿到了８个冠军和２个个人奖项，２５岁的马拉多纳拿到了５个冠军和６个个人奖项，２５岁的迪斯蒂法诺拿到了４个冠军和２个个人奖项。无论比团队荣誉还是个人奖项，梅西都是这一年龄段的史上最佳。
梅西巴萨拿到奖项冠军

4、 LDA:主题模型

主题包含什么词，比如娱乐类新闻包含哪些关键词,所起到的重要程度是多少。格式要求：list of list形式，分词好的的整个语料（相当于是每一条新闻都是分词好的list,然后整合所有新闻都是分词好的list)

from gensim import corpora,models,similarities
import gensim
#做映射，相当于词袋。比如词语“今天”用1代表，‘明天“用2代表
dictionary = corpora.Dictionary(contents_clean)
corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]
lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20) #类似Kmeans自己指定K值,20表示20个主题
# 表示第一类分类主题,找出其中最具代表性的5个词
print(lda.print_topic(1, topn=5))

输出：
0.004*“万” + 0.004*“纹身” + 0.003*“中” + 0.003*“Ｍ” + 0.003*“Ｊ”

# 打印20种分类主题,找出其中最具代表性的5个词
for topic in lda.print_topics(num_topics=20,num_words=5):print(topic[1])

输出：

0.006*"女人" + 0.006*"中" + 0.005*"男人" + 0.005*"说" + 0.004*"性感"
0.004*"万" + 0.004*"纹身" + 0.003*"中" + 0.003*"Ｍ" + 0.003*"Ｊ"
0.005*"中" + 0.004*"学校" + 0.004*"食物" + 0.003*"学生" + 0.003*"导师"
0.006*"中" + 0.005*"天籁" + 0.003*"女主角" + 0.003*"Ｃ" + 0.003*"号"
0.030*"ａ" + 0.030*"ｅ" + 0.023*"ｏ" + 0.022*"ｉ" + 0.022*"ｎ"
0.004*"中" + 0.003*"祝福" + 0.003*"性爱" + 0.003*"Ｍ" + 0.003*"短发"
....

5、基于贝叶斯算法进行新闻分类

（1）按分类展示

df_train = pd.DataFrame({'contents_clean':contents_clean,'label':df_news['category']})
df_train.tail()

输出：

（2）展示所有标签

df_train.label.unique()

输出：
array([‘汽车’, ‘财经’, ‘科技’, ‘健康’, ‘体育’, ‘教育’, ‘文化’, ‘军事’, ‘娱乐’, ‘时尚’], dtype=object)
（3）用数字代表标签

label_mapping = {"汽车": 1, "财经": 2, "科技": 3, "健康": 4, "体育":5, "教育": 6,"文化": 7,"军事": 8,"娱乐": 9,"时尚": 0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()

输出：

(3)切分数据，在训练集上训练

# 切分数据
from sklearn.model_selection import train_test_split
x_train, x_test, y_train,y_test = train_test_split(df_train['contents_clean'].values,df_train['label'].values,random_state=1)
x_train[0][1]

输出：
‘上海’

words = []
for line_index in range(len(x_train)):try:#x_train[line_index][word_index] = str(x_train[line_index][word_index])words.append(' '.join(x_train[line_index]))except:print (line_index,word_index)
words[0]

输出：

‘中新网上海日电于俊父亲节网络吃一顿电影快餐微电影爸对不起我爱你定于本月父亲节当天各大视频网站首映葜谱鞣剑保慈障蚣钦呓樯埽 ⒌ 缬埃 ǎ 停椋悖颍铩妫椋恚称微型电影新媒体平台播放状态短时休闲状态观看完整策划系统制作体系支持显示较完整故事情节电影微超短放映微周期制作天数周微规模投资人民币几千数万元每部内容融合幽默搞怪时尚潮流人文言情公益教育商业定制主题单独成篇系列成剧唇开播微电影爸对不起我爱你讲述一对父子观念缺少沟通导致关系父亲传统固执钟情传统生活方式儿子新派音乐达习惯晚出早生活性格张扬叛逆两种截然不同生活方式理念差异一场父子间拉开序幕子失手打破父亲心爱物品父亲赶出家门剧情演绎父亲节妹妹哥哥化解父亲这场矛盾映逋坏嚼斫狻 ⒍ 粤 ⒌ 桨容争执退让传统尴尬父子尴尬情男人表达心中那份感恩一杯滤挂咖啡父亲节变得温馨镁缬缮虾Ｎ逄煳幕传播迪欧咖啡联合出品出品人希望观摩扪心自问父亲节父亲记得父亲生日哪一天父亲爱喝跨出家门那一刻感觉一颗颤动心操劳天下儿女父亲节大声喊出父亲家人爱完’

知识点补充：分词向量化,计算词频
方案一：

from sklearn.feature_extraction.text import CountVectorizer
texts = ["dog cat fish","dog cat cat","fish bird","bird"]
cv = CountVectorizer()
cv_fit = cv.fit_transform(texts)
# 提取出词语
print(cv.get_feature_names())
print(cv_fit.toarray())
print(cv_fit.toarray().sum(axis=0))

输出：

['bird', 'cat', 'dog', 'fish']
[[0 1 1 1][0 2 1 0][1 0 0 1][1 0 0 0]]
[2 3 2 2]
几个词之间进行组合

方案二：

from sklearn.feature_extraction.text import CountVectorizer
texts = ["dog cat fish","dog cat cat","fish bird","bird"]
# 几个词之间进行组合
cv = CountVectorizer(ngram_range=(1,4))
cv_fit = cv.fit_transform(texts)
# 提取出词语
print(cv.get_feature_names())
print(cv_fit.toarray())
print(cv_fit.toarray().sum(axis=0))

输出：

['bird', 'cat', 'cat cat', 'cat fish', 'dog', 'dog cat', 'dog cat cat', 'dog cat fish', 'fish', 'fish bird']
[[0 1 0 1 1 1 0 1 1 0][0 2 1 0 1 1 1 0 0 0][1 0 0 0 0 0 0 0 1 1][1 0 0 0 0 0 0 0 0 0]]
[2 3 1 1 2 2 1 1 2 1]

（4）计算词频(TF)

from sklearn.feature_extraction.text import CountVectorizer
CountVectorizer会将文本中的词语转换为词频矩阵，它通过fit_transform函数计算各个词语出现的次数。
vec = CountVectorizer(analyzer = 'word', max_features=400,lowercase=False)
vec.fit(words)

输出：参数

CountVectorizer(analyzer='word', binary=False, decode_error='strict',dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',lowercase=False, max_df=1.0, max_features=400, min_df=1,ngram_range=(1, 1), preprocessor=None, stop_words=None,strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',tokenizer=None, vocabulary=None)

1）引入贝叶斯

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vec.transform(words), y_train)

输出：

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

2)在测试集上验证

test_words = []
for line_index in range(len(x_test)):try:test_words.append(' '.join(x_test[line_index]))except:print(line_index,word_index)
test_words[0]

输出：
‘国家公务员考试申论应用文类试题实质一道集概括分析提出解决问题一体综合性试题说一道客观凝练申发论述文章题目分析历年国考申论真题公文类试题类型多样包括公文类事务性文书类题材从题干作答材料内容整合分析无需太创造性发挥纵观历年申论真题作答应用文类试题文种格式作出特别重在内容考查行文格式考生平常心面对应用文类试题准确把握作答领会内在含义把握题材主旨材料结构轻松应对应用文类试题Ｒ弧 ⒆ 钒盐展文写作原则Ｔ材料中来应用文类试题材料总体把握客观考生材料中来材料中把握材料准确理解题材主旨Ｔ政府角度作答应用文类试题更应注重政府角度观点政府角度出发原则表述观点提出解决之策考生作答站政府人员角度看待提出解决问题Ｔ文体结构形式考查重点文体结构大部分评分关键点解答方法薄 ⒆ ス丶词明方向作答题目题干作答作答方向作答角度关键向导考生仔细阅读题干作答抓住关键词作答方向相关要点整理作答思路年国考地市级真题为例潦惺姓府宣传推进近海水域污染整治工作请给定资料市政府工作人员身份草拟一份宣传纲要Ｒ求保对宣传内容要点提纲挈领陈述玻体现政府精神全市各界关心支持污染整治工作通俗易懂超过字肮丶词近海水域污染整治工作市政府工作人员身份宣传纲要提纲挈领陈述体现政府精神全市各界关心支持污染整治工作通俗易懂提示归结作答要点包括污染情况原因解决对策作答思路情况原因对策意义逻辑顺序安排文章结构病 ⒋ 缶殖龇 ⅲ 明结构解答应用文类试题考生材料整体出发大局出发高屋建瓴把握材料主题思想事件起因解决对策阅读文章构建文章结构直至快速解答场 ⒗ 硭乘悸罚明逻辑应用文类试题严密逻辑思维情况原因对策意义考生作答先弄清楚解答思路统筹安排脉络清晰逻辑表达内容表述础把握明详略考生仔细阅读分析揣摩应用文类试题内容答题时要详略得当主次分明安排内容增加文章层次感阅卷老师阅卷时能明白清晰一目了然玻埃保蹦旯考考试申论试卷分为省级地市级两套试卷能力大有省级申论试题考生宏观角度看注重深度广度考生深谋远虑地市级试题考生微观视角观察侧重考查解决能力考生贯彻执行作答区别对待’

3）预测结果值

classifier.score(vec.transform(test_words), y_test)

输出：
0.7248
（5）计算TF-DF

from sklearn.feature_extraction.text import TfidfVectorizervectorizer = TfidfVectorizer(analyzer='word', max_features=4000,  lowercase = False)
vectorizer.fit(words)

输出：

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',lowercase=False, max_df=1.0, max_features=4000, min_df=1,ngram_range=(1, 1), norm='l2', preprocessor=None, smooth_idf=True,stop_words=None, strip_accents=None, sublinear_tf=False,token_pattern='(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,vocabulary=None)

1）在训练集上训练贝叶斯

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vectorizer.transform(words), y_train)

输出：

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

2)在测试集上验证

classifier.score(vectorizer.transform(test_words), y_test)

输出：
0.81520000000000004