30天数据分析与机器学习实践之Day16——Python文本数据分析：新闻分类任务

一、文本分析与关键词提取

1.1文本数据

1.2停用词

1.语料中大量出现2.没啥大用3.留着过年嘛？

1.3Tf-idf：关键词提取

《中国的蜜蜂养殖》: 进行词频（Term Frequency，缩写为TF）统计
出现次数最多的词是----“的”、“是”、“在”----这一类最常用的词（停用词）
“中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多，重要性是一样的？
"中国"是很常见的词，相对而言，"蜜蜂"和"养殖"不那么常见

1.4逆文档频率"（Inverse Document Frequency，缩写为IDF）

如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词

1.5Tf-idf：关键词提取

TF-IDF = 词频(TF) * 逆文档频率(IDF)

《中国的蜜蜂养殖》：假定该文长度为1000个词，“中国”、“蜜蜂”、“养殖"各出现20次，则这三个词的"词频”（TF）都为0.02。
搜索Google发现，包含"的"字的网页共有250亿张，假定这就是中文网页总数。包含"中国"的网页共有62.3亿张，包含"蜜蜂"的网页为0.484亿张，包含"养殖"的网页为0.973亿张。

二、相似度计算

2.1相似度

句子A：我喜欢看电视，不喜欢看电影。
句子B：我不喜欢看电视，也不喜欢看电影。

分词：
句子A：我/喜欢/看/电视，不/喜欢/看/电影。
句子B：我/不/喜欢/看/电视，也/不/喜欢/看/电影。
语料库：我，喜欢，看，电视，电影，不，也。
词频：
句子A：我 1，喜欢 2，看 2，电视 1，电影 1，不 1，也 0。
句子B：我 1，喜欢 2，看 2，电视 1，电影 1，不 2，也 1。
词频向量：
句子A：[1, 2, 2, 1, 1, 1, 0]
句子B：[1, 2, 2, 1, 1, 2, 1]
余弦相似度
三. 新闻数据与任务简介

import pandas as pd
import numpy as np
#结吧分词
import jiebadf_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')
#dropna:去掉缺失值
df_news = df_news.dropna()
df_news.head()

df_news.shape

(5000, 4)

分词：使用结吧分词器

content = df_news.content.values.tolist()
print (content[1000])

阿里巴巴集团昨日宣布，将在集团管理层面设立首席数据官岗位（Ｃｈｉｅｆ　Ｄａｔａ　Ｏｆｆｉｃｅｒ），阿里巴巴Ｂ２Ｂ公司ＣＥＯ陆兆禧将会出任上述职务，向集团ＣＥＯ马云直接汇报。＞菹ぃ和６月初的首席风险官职务任命相同，首席数据官亦为阿里巴巴集团在完成与雅虎股权谈判，推进“ｏｎｅ　ｃｏｍｐａｎｙ”目标后，在集团决策层面新增的管理岗位。０⒗锛团昨日表示，“变成一家真正意义上的数据公司”已是战略共识。记者刘夏

content_S = []
for line in content:current_segment = jieba.lcut(line)if len(current_segment) > 1 and current_segment != '\r\n': #换行符content_S.append(current_segment)

content_S[1000]

[‘阿里巴巴’,
‘集团’,
‘昨日’,
‘宣布’,
‘，’,
‘将’,
‘在’,
‘集团’,
‘管理’,
‘层面’,
‘设立’,
‘首席’,
‘数据’,
‘官’,
‘岗位’,
‘（’,
‘Ｃ’,
‘ｈ’,
‘ｉ’,
‘ｅ’,
‘ｆ’,
‘\u3000’,
‘Ｄ’,
‘ａ’,
‘ｔ’,
‘ａ’,
‘\u3000’,
‘Ｏ’,
‘ｆ’,
‘ｆ’,
‘ｉ’,
‘ｃ’,
‘ｅ’,
‘ｒ’,
‘）’,
‘，’,
‘阿里巴巴’,
‘Ｂ’,
‘２’,
‘Ｂ’,
‘公司’,
‘Ｃ’,
‘Ｅ’,
‘Ｏ’,
‘陆兆禧’,
‘将’,
‘会’,
‘出任’,
‘上述’,
‘职务’,
‘，’,
‘向’,
‘集团’,
‘Ｃ’,
‘Ｅ’,
‘Ｏ’,
‘马云’,
‘直接’,
‘汇报’,
‘。’,
‘＞’,
‘菹’,
‘ぃ’,
‘和’,
‘６’,
‘月初’,
‘的’,
‘首席’,
‘风险’,
‘官’,
‘职务’,
‘任命’,
‘相同’,
‘，’,
‘首席’,
‘数据’,
‘官亦为’,
‘阿里巴巴’,
‘集团’,
‘在’,
‘完成’,
‘与’,
‘雅虎’,
‘股权’,
‘谈判’,
‘，’,
‘推进’,
‘“’,
‘ｏ’,
‘ｎ’,
‘ｅ’,
‘\u3000’,
‘ｃ’,
‘ｏ’,
‘ｍ’,
‘ｐ’,
‘ａ’,
‘ｎ’,
‘ｙ’,
‘”’,
‘目标’,
‘后’,
‘，’,
‘在’,
‘集团’,
‘决策’,
‘层面’,
‘新增’,
‘的’,
‘管理’,
‘岗位’,
‘。’,
‘０’,
‘⒗’,
‘锛’,
‘团’,
‘昨日’,
‘表示’,
‘，’,
‘“’,
‘变成’,
‘一家’,
‘真正’,
‘意义’,
‘上’,
‘的’,
‘数据’,
‘公司’,
‘”’,
‘已’,
‘是’,
‘战略’,
‘共识’,
‘。’,
‘记者’,
‘刘夏’]

df_content=pd.DataFrame({'content_S':content_S})
df_content.head()

stopwords=pd.read_csv("stopwords.txt",index_col=False,sep="\t",quoting=3,names=['stopword'], encoding='utf-8')
stopwords.head(20)

def drop_stopwords(contents,stopwords):contents_clean = []all_words = []for line in contents:line_clean = []for word in line:if word in stopwords:continueline_clean.append(word)all_words.append(str(word))contents_clean.append(line_clean)return contents_clean,all_words#print (contents_clean)contents = df_content.content_S.values.tolist()
stopwords = stopwords.stopword.values.tolist()
contents_clean,all_words = drop_stopwords(contents,stopwords)#df_content.content_S.isin(stopwords.stopword)
#df_content=df_content[~df_content.content_S.isin(stopwords.stopword)]
#df_content.head()

df_content=pd.DataFrame({'contents_clean':contents_clean})
df_content.head()

df_all_words=pd.DataFrame({'all_words':all_words})
df_all_words.head()

words_count=df_all_words.groupby(by=['all_words'])['all_words'].agg({"count":numpy.size})
words_count=words_count.reset_index().sort_values(by=["count"],ascending=False)
words_count.head()

from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)wordcloud=WordCloud(font_path="./data/simhei.ttf",background_color="white",max_font_size=80)
word_frequence = {x[0]:x[1] for x in words_count.head(100).values}
wordcloud=wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud)

TF-IDF ：提取关键词

import jieba.analyse
index = 2400
print (df_news['content'][index])
content_S_str = "".join(content_S[index])
print ("  ".join(jieba.analyse.extract_tags(content_S_str, topK=5, withWeight=False)))

法国ＶＳ西班牙、里贝里ＶＳ哈维，北京时间６月２４日凌晨一场的大战举世瞩目，而这场胜利不仅仅关乎两支顶级强队的命运，同时也是他们背后的球衣赞助商耐克和阿迪达斯之间的一次角逐。Ｔ谌胙”窘炫分薇的１６支球队之中，阿迪达斯和耐克的势力范围也是几乎旗鼓相当：其中有５家球衣由耐克提供，而阿迪达斯则赞助了６家，此外茵宝有３家，而剩下的两家则由彪马赞助。而当比赛进行到现在，率先挺进四强的两支球队分别被耐克支持的葡萄牙和阿迪达斯支持的德国占据，而由于最后一场１／４决赛是茵宝（英格兰）和彪马（意大利）的对决，这也意味着明天凌晨西班牙同法国这场阿迪达斯和耐克在１／４决赛的唯一一次直接交手将直接决定两家体育巨头在此次欧洲杯上的胜负。８据评估，在２０１２年足球商品的销售额能总共超过４０亿欧元，而单单是不足一个月的欧洲杯就有高达５亿的销售额，也就是说在欧洲杯期间将有７００万件球衣被抢购一空。根据市场评估，两大巨头阿迪达斯和耐克的市场占有率也是并驾齐驱，其中前者占据３８％，而后者占据３６％。体育权利顾问奥利弗－米歇尔在接受《队报》采访时说：“欧洲杯是耐克通过法国翻身的一个绝佳机会！”Ｃ仔尔接着谈到两大赞助商的经营策略：“竞技体育的成功会燃起球衣购买的热情，不过即便是水平相当，不同国家之间的欧洲杯效应却存在不同。在德国就很出色，大约１／４的德国人通过电视观看了比赛，而在西班牙效果则差很多，由于民族主义高涨的加泰罗尼亚地区只关注巴萨和巴萨的球衣，他们对西班牙国家队根本没什么兴趣。”因此尽管西班牙接连拿下欧洲杯和世界杯，但是阿迪达斯只为西班牙足协支付每年２６００万的赞助费＃相比之下尽管最近两届大赛表现糟糕法国足协将从耐克手中每年可以得到４０００万欧元。米歇尔解释道：“法国创纪录的４０００万欧元赞助费得益于阿迪达斯和耐克竞逐未来１５年欧洲市场的竞争。耐克需要笼络一个大国来打赢这场欧洲大陆的战争，而尽管德国拿到的赞助费并不太高，但是他们却显然牢牢掌握在民族品牌阿迪达斯手中。从长期投资来看，耐克给法国的赞助并不算过高。”
耐克阿迪达斯欧洲杯球衣西班牙

LDA ：主题模型

格式要求：list of list形式，分词好的的整个语料

from gensim import corpora, models, similarities
import gensim
#http://radimrehurek.com/gensim/

#做映射，相当于词袋
dictionary = corpora.Dictionary(contents_clean)
corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]

lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20) #类似Kmeans自己指定K值

#一号分类结果
print (lda.print_topic(1, topn=5))

0.007*“中” + 0.006*“说” + 0.004*“观众” + 0.002*“赛区” + 0.002*“岁”

for topic in lda.print_topics(num_topics=20, num_words=5):print (topic[1])

0.007*“女人” + 0.006*“男人” + 0.006*“Ｍ” + 0.004*“Ｓ” + 0.004*“说”
0.004*“中” + 0.004*“训练” + 0.003*“说” + 0.003*“学校” + 0.002*“研究生”
0.006*“戏” + 0.006*“导演” + 0.005*“该剧” + 0.004*“中” + 0.004*“演员”
0.007*“中” + 0.006*“说” + 0.004*“观众” + 0.002*“赛区” + 0.002*“岁”
0.004*“万” + 0.003*“号” + 0.003*“中” + 0.002*“Ｓ” + 0.002*“Ｒ”
0.014*“电影” + 0.009*“导演” + 0.007*“影片” + 0.006*“中国” + 0.005*“中”
0.006*“中” + 0.005*“比赛” + 0.004*“说” + 0.003*“撒” + 0.002*“时间”
0.006*“赛季” + 0.005*“中” + 0.003*“联赛” + 0.003*“中国” + 0.002*“航母”
0.005*“李小璐” + 0.004*“中” + 0.002*“贾乃亮” + 0.002*“Ｗ” + 0.002*“皮肤”
0.004*“万” + 0.003*“号” + 0.003*“Ｖ” + 0.003*“Ｔ” + 0.003*“刘涛”
0.021*“男人” + 0.008*“女人” + 0.007*“考生” + 0.004*“说” + 0.003*“中”
0.005*“中” + 0.005*“食物” + 0.004*“ｉ” + 0.004*“ａ” + 0.004*“吃”
0.006*“中” + 0.004*“电影” + 0.004*“说” + 0.002*“中国” + 0.002*“高考”
0.007*“中” + 0.006*“孩子” + 0.004*“说” + 0.003*“教育” + 0.003*“中国”
0.005*“中” + 0.005*“节目” + 0.004*“说” + 0.004*“表演” + 0.003*“岁”
0.007*“电视剧” + 0.004*“中” + 0.003*“说” + 0.003*“飞行” + 0.002*“飞机”
0.007*“中” + 0.006*“球队” + 0.005*“选手” + 0.004*“观众” + 0.004*“ｉ”
0.005*“中” + 0.005*“天籁” + 0.004*“产品” + 0.004*“肌肤” + 0.003*“职场”
0.008*“中国” + 0.008*“饰演” + 0.007*“中” + 0.004*“说” + 0.004*“节目”
0.021*“ｅ” + 0.021*“ａ” + 0.016*“ｏ” + 0.013*“ｉ” + 0.013*“ｎ”

df_train=pd.DataFrame({'contents_clean':contents_clean,'label':df_news['category']})
df_train.tail()

df_train.label.unique()

array([‘汽车’, ‘财经’, ‘科技’, ‘健康’, ‘体育’, ‘教育’, ‘文化’, ‘军事’, ‘娱乐’, ‘时尚’], dtype=object)

label_mapping = {"汽车": 1, "财经": 2, "科技": 3, "健康": 4, "体育":5, "教育": 6,"文化": 7,"军事": 8,"娱乐": 9,"时尚": 0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()

from sklearn.model_selection import train_test_splitx_train, x_test, y_train, y_test = train_test_split(df_train['contents_clean'].values, df_train['label'].values, random_state=1)

#x_train = x_train.flatten()
x_train[0][1]

‘上海’

words = []
for line_index in range(len(x_train)):try:#x_train[line_index][word_index] = str(x_train[line_index][word_index])words.append(' '.join(x_train[line_index]))except:print (line_index,word_index)
words[0]

‘中新网上海日电于俊父亲节网络吃一顿电影快餐微电影爸对不起我爱你定于本月父亲节当天各大视频网站首映葜谱鞣剑保慈障蚣钦呓樯埽 ⒌ 缬埃 ǎ 停椋悖颍铩妫椋恚称微型电影新媒体平台播放状态短时休闲状态观看完整策划系统制作体系支持显示较完整故事情节电影微超短放映微周期制作天数周微规模投资人民币几千数万元每部内容融合幽默搞怪时尚潮流人文言情公益教育商业定制主题单独成篇系列成剧唇开播微电影爸对不起我爱你讲述一对父子观念缺少沟通导致关系父亲传统固执钟情传统生活方式儿子新派音乐达习惯晚出早生活性格张扬叛逆两种截然不同生活方式理念差异一场父子间拉开序幕子失手打破父亲心爱物品父亲赶出家门剧情演绎父亲节妹妹哥哥化解父亲这场矛盾映逋坏嚼斫狻 ⒍ 粤 ⒌ 桨容争执退让传统尴尬父子尴尬情男人表达心中那份感恩一杯滤挂咖啡父亲节变得温馨镁缬缮虾Ｎ逄煳幕传播迪欧咖啡联合出品出品人希望观摩扪心自问父亲节父亲记得父亲生日哪一天父亲爱喝跨出家门那一刻感觉一颗颤动心操劳天下儿女父亲节大声喊出父亲家人爱完’

print (len(words))

from sklearn.feature_extraction.text import CountVectorizer
texts=["dog cat fish","dog cat cat","fish bird", 'bird']
cv = CountVectorizer()
cv_fit=cv.fit_transform(texts)print(cv.get_feature_names())
print(cv_fit.toarray())print(cv_fit.toarray().sum(axis=0))

[‘bird’, ‘cat’, ‘dog’, ‘fish’]
[[0 1 1 1]
[0 2 1 0]
[1 0 0 1]
[1 0 0 0]]
[2 3 2 2]

from sklearn.feature_extraction.text import CountVectorizer
texts=["dog cat fish","dog cat cat","fish bird", 'bird']
cv = CountVectorizer(ngram_range=(1,4))
cv_fit=cv.fit_transform(texts)print(cv.get_feature_names())
print(cv_fit.toarray())print(cv_fit.toarray().sum(axis=0))

[‘bird’, ‘cat’, ‘cat cat’, ‘cat fish’, ‘dog’, ‘dog cat’, ‘dog cat cat’, ‘dog cat fish’, ‘fish’, ‘fish bird’]
[[0 1 0 1 1 1 0 1 1 0]
[0 2 1 0 1 1 1 0 0 0]
[1 0 0 0 0 0 0 0 1 1]
[1 0 0 0 0 0 0 0 0 0]]
[2 3 1 1 2 2 1 1 2 1]

from sklearn.feature_extraction.text import CountVectorizervec = CountVectorizer(analyzer='word', max_features=4000,  lowercase = False)
vec.fit(words)

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vec.transform(words), y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

test_words = []
for line_index in range(len(x_test)):try:#x_train[line_index][word_index] = str(x_train[line_index][word_index])test_words.append(' '.join(x_test[line_index]))except:print (line_index,word_index)
test_words[0]

‘国家公务员考试申论应用文类试题实质一道集概括分析提出解决问题一体综合性试题说一道客观凝练申发论述文章题目分析历年国考申论真题公文类试题类型多样包括公文类事务性文书类题材从题干作答材料内容整合分析无需太创造性发挥纵观历年申论真题作答应用文类试题文种格式作出特别重在内容考查行文格式考生平常心面对应用文类试题准确把握作答领会内在含义把握题材主旨材料结构轻松应对应用文类试题Ｒ弧 ⒆ 钒盐展文写作原则Ｔ材料中来应用文类试题材料总体把握客观考生材料中来材料中把握材料准确理解题材主旨Ｔ政府角度作答应用文类试题更应注重政府角度观点政府角度出发原则表述观点提出解决之策考生作答站政府人员角度看待提出解决问题Ｔ文体结构形式考查重点文体结构大部分评分关键点解答方法薄 ⒆ ス丶词明方向作答题目题干作答作答方向作答角度关键向导考生仔细阅读题干作答抓住关键词作答方向相关要点整理作答思路年国考地市级真题为例潦惺姓府宣传推进近海水域污染整治工作请给定资料市政府工作人员身份草拟一份宣传纲要Ｒ求保对宣传内容要点提纲挈领陈述玻体现政府精神全市各界关心支持污染整治工作通俗易懂超过字肮丶词近海水域污染整治工作市政府工作人员身份宣传纲要提纲挈领陈述体现政府精神全市各界关心支持污染整治工作通俗易懂提示归结作答要点包括污染情况原因解决对策作答思路情况原因对策意义逻辑顺序安排文章结构病 ⒋ 缶殖龇 ⅲ 明结构解答应用文类试题考生材料整体出发大局出发高屋建瓴把握材料主题思想事件起因解决对策阅读文章构建文章结构直至快速解答场 ⒗ 硭乘悸罚明逻辑应用文类试题严密逻辑思维情况原因对策意义考生作答先弄清楚解答思路统筹安排脉络清晰逻辑表达内容表述础把握明详略考生仔细阅读分析揣摩应用文类试题内容答题时要详略得当主次分明安排内容增加文章层次感阅卷老师阅卷时能明白清晰一目了然玻埃保蹦旯考考试申论试卷分为省级地市级两套试卷能力大有省级申论试题考生宏观角度看注重深度广度考生深谋远虑地市级试题考生微观视角观察侧重考查解决能力考生贯彻执行作答区别对待’

classifier.score(vec.transform(test_words), y_test)

0.80400000000000005

from sklearn.feature_extraction.text import TfidfVectorizervectorizer = TfidfVectorizer(analyzer='word', max_features=4000,  lowercase = False)
vectorizer.fit(words)

TfidfVectorizer(analyzer=‘word’, binary=False, decode_error=‘strict’,
dtype=<class ‘numpy.int64’>, encoding=‘utf-8’, input=‘content’,
lowercase=False, max_df=1.0, max_features=4000, min_df=1,
ngram_range=(1, 1), norm=‘l2’, preprocessor=None, smooth_idf=True,
stop_words=None, strip_accents=None, sublinear_tf=False,
token_pattern=’(?u)\b\w\w+\b’, tokenizer=None, use_idf=True,
vocabulary=None)

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vectorizer.transform(words), y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

classifier.score(vectorizer.transform(test_words), y_test)

0.81520000000000004