机器学习案例实战：Python文本数据分析新闻分类任务

原创文章,如需转载请保留出处
本博客为唐宇迪老师python数据分析与机器学习实战课程学习笔记

一. 文本分析与关键词提取
1.1 文本数据

1.2 停用词

语料中大量出现
没啥大用
留着过年吗

1.3 Tf-idf：关键词提取

《中国的蜜蜂养殖》：进行词频（Term frequency，缩写TF）统计
出现次数最多的词：“的”、“是”、“在”…这类最常用的词（停用词）
“中国”、“蜜蜂”、“养殖” 这三个词出现的次数一样多，重要性是一样的？
“中国”是很常见的词，相对而言，“蜜蜂”和“养殖”不那么常见

1.4 逆文档频率（Inverse Document Frequency，IDF）

如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词
词频(TF) = 某个词在文章中的出现次数 / 该文词的个数
逆文档频率(IDF) = log(语料库的文档总数 / 包括该词的文档数 + 1)

1.5 Tf-idf：关键词提取计算
TF-IDF = 词频(TF) * 逆文档频率(IDF)

《中国的蜜蜂养殖》：假定该文长度为1000个词，“中国”、“蜜蜂”、“养殖”各出现20次，则这三个词的“词频”(TF)都是0.02
搜索Google发现，包含“的”字的网页共有250亿张，假定这就是中文网页总数。包含“中国”的网页共有62.3亿张，包含“蜜蜂”的网页共有0.484亿张，包含“养殖”的网页共有0.973亿张

二. 相似度计算
2.1 相识度
句子A：我喜欢看电视，不喜欢看电影
句子B：我不喜欢看电视，也不喜欢看电影

分词
句子A：我 / 喜欢 / 看 / 电视，不 / 喜欢 / 看 / 电影
句子B：我 / 不 / 喜欢 / 看 / 电视，也 / 不 / 喜欢 / 看 / 电影
语料库：我，喜欢，看，电视，电影，不，也
词频：
句子A：我1，喜欢2，看2，电视1，电影1，不1，也0
句子B：我1，喜欢2，看2，电视1，电影1，不2，也1、
词频向量
句子A：[1，2，2，1，1，1，0]
句子B：[1，2，2，1，1，2，1]

余弦相似度：

三. 新闻数据与任务简介

import pandas as pd
import numpy as np
#结吧分词
import jiebadf_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'],encoding='utf-8')
#dropna:去掉缺失值
df_news = df_news.dropna()
df_news.head()

df_news.shape

(5000, 4)

#分词：使用结吧分词器
#先将content转换成list格式
content = df_news.content.values.tolist()
print (content[1000])

阿里巴巴集团昨日宣布，将在集团管理层面设立首席数据官岗位（Ｃｈｉｅｆ　Ｄａｔａ　Ｏｆｆｉｃｅｒ），阿里巴巴Ｂ２Ｂ公司ＣＥＯ陆兆禧将会出任上述职务，向集团ＣＥＯ马云直接汇报。＞菹ぃ和６月初的首席风险官职务任命相同，首席数据官亦为阿里巴巴集团在完成与雅虎股权谈判，推进“ｏｎｅ　ｃｏｍｐａｎｙ”目标后，在集团决策层面新增的管理岗位。０⒗锛团昨日表示，“变成一家真正意义上的数据公司”已是战略共识。记者刘夏

#利用结吧分词
content_S = []
#line:代表content中每一条
for line in content:current_segment = jieba.lcut(line)#大于1：代表确实能切分if len(current_segment) > 1 and current_segment != '\r\n':content_S.append(current_segment)

content_S[1000]

['阿里巴巴','集团','昨日','宣布','，','将','在','集团','管理','层面','设立','首席','数据','官','岗位','（','Ｃ','ｈ','ｉ','ｅ','ｆ','\u3000','Ｄ','ａ','ｔ','ａ','\u3000','Ｏ','ｆ','ｆ','ｉ','ｃ','ｅ','ｒ','）','，','阿里巴巴','Ｂ','２','Ｂ','公司','Ｃ','Ｅ','Ｏ','陆兆禧','将','会','出任','上述','职务','，','向','集团','Ｃ','Ｅ','Ｏ','马云','直接','汇报','。','＞','菹','ぃ','和','６','月初','的','首席','风险','官','职务','任命','相同','，','首席','数据','官亦为','阿里巴巴','集团','在','完成','与','雅虎','股权','谈判','，','推进','“','ｏ','ｎ','ｅ','\u3000','ｃ','ｏ','ｍ','ｐ','ａ','ｎ','ｙ','”','目标','后','，','在','集团','决策','层面','新增','的','管理','岗位','。','０','⒗','锛','团','昨日','表示','，','“','变成','一家','真正','意义','上','的','数据','公司','”','已','是','战略','共识','。','记者','刘夏']

df_content = pd.DataFrame({'content_S':content_S})
df_content.head()

content_S
0 [经销商, 　, 电话, 　, 试驾, ／, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, …
1 [呼叫, 热线, 　, ４, ０, ０, ８, －, １, ０, ０, －, ３, ０, ０…
2 [Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 在, 二月, 曾经, 公布, 了, 最新, 的, Ｍ, Ｉ…
3 [清仓, 大, 甩卖, ！, 一汽, 夏利, Ｎ, ５, 、, 威志, Ｖ, ２, 低至, …
4 [在, 今年, ３, 月, 的, 日内瓦, 车展, 上, ，, 我们, 见到, 了, 高尔夫…

四.TF-IDF关键词提取

stopwords = pd.read_csv('stopwords.txt',index_col = False, sep = '\t',quoting = 3,names = ['stopword'], encoding = 'utf-8')
stopwords.head()

stopword
0 !
1 "
2 #
3 $
4 %

def drop_stopwords(contents,stopwords):contents_clean = []all_words = []for line in contents:line_clean = []for word in line:if word in stopwords:continueline_clean.append(word)all_words.append(str(word))contents_clean.append(line_clean)return contents_clean,all_wordscontents = df_content.content_S.values.tolist()
stopwords = stopwords.stopword.values.tolist()
contents_clean,all_words = drop_stopwords(contents,stopwords)

df_content = pd.DataFrame({'contents_clean':contents_clean})
df_content.head()

contents_clean
0 [经销商, 电话, 试驾, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, 路, 号, 转, …
1 [呼叫, 热线, 服务, 邮箱, ｋ, ｆ, ｐ, ｅ, ｏ, ｐ, ｌ, ｅ, ｄ, ａ,…
2 [Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 二月, 公布, 最新, Ｍ, Ｉ, Ｎ, Ｉ, 新, 概念…
3 [清仓, 甩卖, 一汽, 夏利, Ｎ, 威志, Ｖ, 低至, 万, 启新, 中国, 一汽, …
4 [日内瓦, 车展, 见到, 高尔夫, 家族, 新, 成员, 高尔夫, 敞篷版, 款, 全新,…

df_all_words=pd.DataFrame({'all_words':all_words})
df_all_words.head()

all_words
0 经销商
1 电话
2 试驾
3 订车
4 Ｕ

words_count = df_all_words.groupby(by=['all_words'])['all_words'].agg({'count':np.size})
words_count = words_count.reset_index().sort_values(by=['count'],ascending=False)
words_count.head()

all_words count
4077 中 5199
4209 中国 3115
88255 说 3055
104747 Ｓ 2646
1373 万 2390

from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)wordcloud = WordCloud(font_path='./data/simhei.ttf',background_color='white',max_font_size=80)
word_frequence = {x[0]:x[1] for x in words_count.head(100).values}
wordcloud = wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud)

#提取关键字
import jieba.analyse
index = 1000
print(df_news['content'][index])
content_S_str = ''.join(content_S[index])
print(" ".join(jieba.analyse.extract_tags(content_S_str, topK=5, withWeight=False)))

五.LDA建模
Gensim是一个用于从文档中自动提取语义主题的Python库

from gensim import corpora, models, similarities
import gensim

#做映射，相当于词袋
dictionary = corpora.Dictionary(contents_clean)
corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]

lda = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=20)

#一号分类结果
print(lda.print_topic(1, topn=5))

0.011*“男人” + 0.010*“中” + 0.005*“说” + 0.004*“女人” + 0.003*“於”

for topic in lda.print_topics(num_topics=20, num_words=5):print(topic[1])

0.005*“纹身” + 0.004*“中” + 0.004*“台湾” + 0.004*“台北” + 0.003*“女儿”
0.011*“男人” + 0.010*“中” + 0.005*“说” + 0.004*“女人” + 0.003*“於”
0.009*“教育” + 0.007*“学生” + 0.006*“学校” + 0.006*“工作” + 0.006*“发展”
0.009*“比赛” + 0.007*“该剧” + 0.005*“中” + 0.005*“女人” + 0.005*“节目”
0.005*“赛区” + 0.005*“说” + 0.004*“中” + 0.004*“老公” + 0.004*“工作”
0.005*“中” + 0.005*“说” + 0.004*“万” + 0.003*“Ｄ” + 0.003*“比赛”
0.007*“中” + 0.006*“吃” + 0.006*“食物” + 0.005*“含有” + 0.004*“维生素”
0.009*“节目” + 0.007*“中” + 0.005*“Ｓ” + 0.005*“Ｖ” + 0.005*“表演”
0.008*“中” + 0.005*“比赛” + 0.005*“球队” + 0.004*“说” + 0.004*“中国”
0.012*“中” + 0.006*“卫视” + 0.004*“说” + 0.003*“中国” + 0.003*“Ｔ”
0.026*“ａ” + 0.026*“ｅ” + 0.020*“ｉ” + 0.019*“ｏ” + 0.018*“ｎ”
0.015*“中国” + 0.005*“发展” + 0.005*“中” + 0.005*“美国” + 0.004*“文化”
0.007*“中国” + 0.007*“中” + 0.007*“观众” + 0.006*“说” + 0.004*“比赛”
0.004*“节目” + 0.003*“芒果” + 0.003*“单身” + 0.003*“男人” + 0.003*“万”
0.009*“说” + 0.005*“恋情” + 0.005*“分手” + 0.005*“中” + 0.004*“离婚”
0.009*“撒” + 0.005*“高考” + 0.004*“乳房” + 0.004*“孩子” + 0.003*“万”
0.007*“号” + 0.006*“万” + 0.004*“转” + 0.003*“学校” + 0.003*“公司”
0.010*“孩子” + 0.007*“说” + 0.004*“儿子” + 0.004*“中” + 0.003*“Ｍ”
0.017*“电影” + 0.012*“导演” + 0.008*“影片” + 0.007*“中” + 0.007*“观众”
0.006*“女人” + 0.006*“女性” + 0.003*“中” + 0.003*“快感” + 0.002*“Ｗ”

五.基于贝叶斯算法进行新闻分类

df_train = pd.DataFrame({'contents_clean':contents_clean,'label':df_news['category']})
df_train.tail()

contents_clean label
4995 [天气, 炎热, 补水, 变得, 美国, 跑步, 世界, 杂志, 报道, 喝水, 身体, 补… 时尚
4996 [不想, 说, 话, 刺激, 说, 做, 只能, 走, 离开, 伤心地, 想起, 一句, 话… 时尚
4997 [岁, 刘晓庆, 最新, 嫩照, Ｏ, 衷, 诘, 牧跸, 庆, 看不出, 岁, 秒杀, 刘… 时尚
4998 [导语, 做, 爸爸, 一种, 幸福, 无论是, 领养, 亲生, 更何况, 影视剧, 中, … 时尚
4999 [全球, 最美, 女人, 合成图, 国, 整形外科, 教授, 李承哲, 国际, 学术, 杂志… 时尚

df_train.label.unique()

array([‘汽车’, ‘财经’, ‘科技’, ‘健康’, ‘体育’, ‘教育’, ‘文化’, ‘军事’, ‘娱乐’, ‘时尚’],
dtype=object)

label_mapping = {"汽车":1,"财经":2,"科技":3,"健康":4,"体育":5,"教育":6,"文化":7,"军事":8,"娱乐":9,"时尚":0}
df_train['label'] = df_train['label'].map(label_mapping)
df_train.head()

contents_clean label
0 [经销商, 电话, 试驾, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, 路, 号, 转, … 1
1 [呼叫, 热线, 服务, 邮箱, ｋ, ｆ, ｐ, ｅ, ｏ, ｐ, ｌ, ｅ, ｄ, ａ,… 1
2 [Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 二月, 公布, 最新, Ｍ, Ｉ, Ｎ, Ｉ, 新, 概念… 1
3 [清仓, 甩卖, 一汽, 夏利, Ｎ, 威志, Ｖ, 低至, 万, 启新, 中国, 一汽, … 1
4 [日内瓦, 车展, 见到, 高尔夫, 家族, 新, 成员, 高尔夫, 敞篷版, 款, 全新,…

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(df_train['contents_clean'].values, df_train['label'].values, random_state=1)

x_train[0][1]

‘上海’

words = []
for line_index in range(len(x_train)):try:words.append(' '.join(x_train[line_index]))except:print (line_index,word_index)
words[0]

‘中新网上海日电于俊父亲节网络吃一顿电影快餐微电影爸对不起我爱你定于本月父亲节当天各大视频网站首映葜谱鞣剑保慈障蚣钦呓樯埽 ⒌ 缬埃 ǎ 停椋悖颍铩妫椋恚称微型电影新媒体平台播放状态短时休闲状态观看完整策划系统制作体系支持显示较完整故事情节电影微超短放映微周期制作天数周微规模投资人民币几千数万元每部内容融合幽默搞怪时尚潮流人文言情公益教育商业定制主题单独成篇系列成剧唇开播微电影爸对不起我爱你讲述一对父子观念缺少沟通导致关系父亲传统固执钟情传统生活方式儿子新派音乐达习惯晚出早生活性格张扬叛逆两种截然不同生活方式理念差异一场父子间拉开序幕子失手打破父亲心爱物品父亲赶出家门剧情演绎父亲节妹妹哥哥化解父亲这场矛盾映逋坏嚼斫狻 ⒍ 粤 ⒌ 桨容争执退让传统尴尬父子尴尬情男人表达心中那份感恩一杯滤挂咖啡父亲节变得温馨镁缬缮虾Ｎ逄煳幕传播迪欧咖啡联合出品出品人希望观摩扪心自问父亲节父亲记得父亲生日哪一天父亲爱喝跨出家门那一刻感觉一颗颤动心操劳天下儿女父亲节大声喊出父亲家人爱完’

print (len(words))

3750

from sklearn.feature_extraction.text import CountVectorizer
texts = ["dog cat fish","dog cat cat","fish bird","bird"]
cv = CountVectorizer()
cv_fit = cv.fit_transform(texts)print(cv.get_feature_names())
print(cv_fit.toarray())
print(cv_fit.toarray().sum(axis=0))

[‘bird’, ‘cat’, ‘dog’, ‘fish’]
[[0 1 1 1]
[0 2 1 0]
[1 0 0 1]
[1 0 0 0]]
[2 3 2 2]

from sklearn.feature_extraction.text import CountVectorizer
texts = ["dog cat fish","dog cat cat","fish bird","bird"]
cv = CountVectorizer(ngram_range=(1,4))
cv_fit = cv.fit_transform(texts)print(cv.get_feature_names())
print(cv_fit.toarray())
print(cv_fit.toarray().sum(axis=0))

[‘bird’, ‘cat’, ‘cat cat’, ‘cat fish’, ‘dog’, ‘dog cat’, ‘dog cat cat’, ‘dog cat fish’, ‘fish’, ‘fish bird’]
[[0 1 0 1 1 1 0 1 1 0]
[0 2 1 0 1 1 1 0 0 0]
[1 0 0 0 0 0 0 0 1 1]
[1 0 0 0 0 0 0 0 0 0]]
[2 3 1 1 2 2 1 1 2 1]

from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer(analyzer='word', max_features=4000,lowercase=False)
vec.fit(words)

CountVectorizer(analyzer=‘word’, binary=False, decode_error=‘strict’,
dtype=<class ‘numpy.int64’>, encoding=‘utf-8’, input=‘content’,
lowercase=False, max_df=1.0, max_features=4000, min_df=1,
ngram_range=(1, 1), preprocessor=None, stop_words=None,
strip_accents=None, token_pattern=’(?u)\b\w\w+\b’,
tokenizer=None, vocabulary=None)

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vec.transform(words),y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

test_words = []
for line_index in range(len(x_test)):try:test_words.append(' '.join(x_test[line_index]))except:print (line_index,word_index)
test_words[0]

‘国家公务员考试申论应用文类试题实质一道集概括分析提出解决问题一体综合性试题说一道客观凝练申发论述文章题目分析历年国考申论真题公文类试题类型多样包括公文类事务性文书类题材从题干作答材料内容整合分析无需太创造性发挥纵观历年申论真题作答应用文类试题文种格式作出特别重在内容考查行文格式考生平常心面对应用文类试题准确把握作答领会内在含义把握题材主旨材料结构轻松应对应用文类试题Ｒ弧 ⒆ 钒盐展文写作原则Ｔ材料中来应用文类试题材料总体把握客观考生材料中来材料中把握材料准确理解题材主旨Ｔ政府角度作答应用文类试题更应注重政府角度观点政府角度出发原则表述观点提出解决之策考生作答站政府人员角度看待提出解决问题Ｔ文体结构形式考查重点文体结构大部分评分关键点解答方法薄 ⒆ ス丶词明方向作答题目题干作答作答方向作答角度关键向导考生仔细阅读题干作答抓住关键词作答方向相关要点整理作答思路年国考地市级真题为例潦惺姓府宣传推进近海水域污染整治工作请给定资料市政府工作人员身份草拟一份宣传纲要Ｒ求保对宣传内容要点提纲挈领陈述玻体现政府精神全市各界关心支持污染整治工作通俗易懂超过字肮丶词近海水域污染整治工作市政府工作人员身份宣传纲要提纲挈领陈述体现政府精神全市各界关心支持污染整治工作通俗易懂提示归结作答要点包括污染情况原因解决对策作答思路情况原因对策意义逻辑顺序安排文章结构病 ⒋ 缶殖龇 ⅲ 明结构解答应用文类试题考生材料整体出发大局出发高屋建瓴把握材料主题思想事件起因解决对策阅读文章构建文章结构直至快速解答场 ⒗ 硭乘悸罚明逻辑应用文类试题严密逻辑思维情况原因对策意义考生作答先弄清楚解答思路统筹安排脉络清晰逻辑表达内容表述础把握明详略考生仔细阅读分析揣摩应用文类试题内容答题时要详略得当主次分明安排内容增加文章层次感阅卷老师阅卷时能明白清晰一目了然玻埃保蹦旯考考试申论试卷分为省级地市级两套试卷能力大有省级申论试题考生宏观角度看注重深度广度考生深谋远虑地市级试题考生微观视角观察侧重考查解决能力考生贯彻执行作答区别对待’

classifier.score(vec.transform(test_words),y_test)

0.804

from sklearn.feature_extraction.text import TfidfVectorizervectorizer = TfidfVectorizer(analyzer='word',max_features=4000,lowercase=False)
vectorizer.fit(words)

TfidfVectorizer(analyzer=‘word’, binary=False, decode_error=‘strict’,
dtype=<class ‘numpy.float64’>, encoding=‘utf-8’,
input=‘content’, lowercase=False, max_df=1.0, max_features=4000,
min_df=1, ngram_range=(1, 1), norm=‘l2’, preprocessor=None,
smooth_idf=True, stop_words=None, strip_accents=None,
sublinear_tf=False, token_pattern=’(?u)\b\w\w+\b’,
tokenizer=None, use_idf=True, vocabulary=None)

from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(vectorizer.transform(words),y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

classifier.score(vectorizer.transform(test_words),y_test)

0.8152

机器学习案例实战：Python文本数据分析新闻分类任务相关推荐

python文本数据分析-新闻分类任务
python文本数据分析-新闻分类任务文本分析文本数据停用词:1.语料中大量出现:2.没啥大用:3.留着过年嘛?所以根据停用词表进行筛选,去掉这些停用词. Tf-idf:关键词提取 <中国 ...
数据分析案例实战：贝叶斯-新闻分类
学习唐宇迪<python数据分析与机器学习实战>视频一.数据分析每一条包括: theme:新闻关键内容 category:新闻种类 URL:链接 content:新闻内容额,看着很不 ...
30天数据分析与机器学习实践之Day16——Python文本数据分析：新闻分类任务
30天数据分析与机器学习实践之Day16--Python文本数据分析:新闻分类任务一.文本分析与关键词提取 1.1文本数据 1.2停用词 1.语料中大量出现2.没啥大用3.留着过年嘛? 1.3Tf- ...
Pytorch实战——基于RNN的新闻分类
目录一.项目介绍二.基于RNN的新闻分类 Step1 加载数据集 Step2 分词和构建词汇表 Step3 构建数据加载器 dataloader Step4 定义神经网络模型 Step5 定义模型 ...
python之机器学习案例实战：信用卡欺诈异常值检测
案例背景: 有些人利用信用卡进行诈骗活动,如何根据用户的行为,来判断该用户的信用卡账单是否属于欺诈呢?想获取数据集请点此处.在这个数据集中,由于原始的用户数据具有一定的隐私,因此,每一列(即特征)的名 ...
机器学习案例实战之信用卡欺诈检测
故事背景:原始数据为个人交易记录,但是考虑数据本身的隐私性,已经对原始数据进行了类似PCA的处理,现在已经把特征数据提取好了,接下来的目的就是如何建立模型使得检测的效果达到最好,这里我们虽然不需要对数 ...
【PyTorch】7 文本分类TorchText实战——AG_NEWS四类别新闻分类
使用 TorchText 进行文本分类 1.访问原始数据集迭代器 2. 准备数据处理管道 3. 生成数据批次和迭代器 4. 定义模型 5. 初始化一个实例 6. 定义训练模型和评估结果的函数 7. 拆 ...
机器学习案例实战（1）使用python分析科比数据
一.用到的库 numpy pandas matplotlib 以上是最基本的一些回归问题,SVM,RandomForest等一些算法 [逻辑回归]sklearn 主要用于深度学习,涉及神经网络(后边手 ...
案例：探索性文本数据分析的新手教程（Amazon案例研究）
作者:Abhishek Sharma 翻译:李嘉骐校对:方星轩本文长度为5500字,建议阅读10+分钟本文利用Python对Amazon产品的反馈对数据文本进行探索性研究与分析,并给出结论. ...
python 数据逐个验证_案例实战 | Python 实现 AB 测试中常见的分层抽样与假设检验 (附代码和数据集)...
在这里插入图片描述作者 l 萝卜本文会将原理知识穿插于代码段中,相关代码和数据集可在公众号 " 数据分析与商业实践 " 后台回复 " AB测试 " 获取. ...

机器学习案例实战：Python文本数据分析新闻分类任务

机器学习案例实战：Python文本数据分析新闻分类任务相关推荐

最新文章

热门文章