词袋模型

from sklearn.feature_extraction.text import CountVectorizer
import os
import re
import jieba.posseg as pseg# 加载停用词表
stop_words_path = './stop_words/'
stopwords1 = [line.rstrip() for line in open(os.path.join(stop_words_path, '中文停用词库.txt'), 'r',encoding='utf-8')]
stopwords2 = [line.rstrip() for line in open(os.path.join(stop_words_path, '哈工大停用词表.txt'), 'r',encoding='utf-8')]
stopwords3 = [line.rstrip() for line inopen(os.path.join(stop_words_path, '四川大学机器智能实验室停用词库.txt'), 'r', encoding='utf-8')]
stopwords = stopwords1 + stopwords2 + stopwords3def proc_text(raw_line):"""处理文本数据返回分词结果"""# 1. 使用正则表达式去除非中文字符filter_pattern = re.compile('[^\u4E00-\u9FD5]+')chinese_only = filter_pattern.sub('', raw_line)# 2. 结巴分词+词性标注word_list = pseg.cut(chinese_only)# 3. 去除停用词,保留有意义的词性# 动词,形容词,副词used_flags = ['v', 'a', 'ad']meaninful_words = []for word, flag in word_list:if (word not in stopwords) and (flag in used_flags):meaninful_words.append(word)return ' '.join(meaninful_words)
count_vectorizer = CountVectorizer()
print(count_vectorizer)
ch_text1 = ' 非常失望,剧本完全敷衍了事,主线剧情没突破大家可以理解,可所有的人物都缺乏动机,正邪之间、妇联内部都没什么火花。团结-分裂-团结的三段式虽然老套但其实也可以利用积攒下来的形象魅力搞出意思,但剧本写得非常肤浅、平面。场面上调度混乱呆板,满屏的铁甲审美疲劳。只有笑点算得上差强人意。'
ch_text2 = ' 2015年度最失望作品。以为面面俱到,实则画蛇添足;以为主题深刻,实则老调重弹;以为推陈出新,实则俗不可耐;以为场面很high,实则high劲不足。气!上一集的趣味全无,这集的笑点明显刻意到心虚。全片没有任何片段给我有紧张激动的时候,太弱了,跟奥创一样。'
ch_text3 = ' 《铁人2》中勾引钢铁侠,《妇联1》中勾引鹰眼,《美队2》中勾引美国队长,在《妇联2》中终于……跟绿巨人表白了,黑寡妇用实际行动告诉了我们什么叫忠贞不二;而且为了治疗不孕不育连作战武器都变成了两支验孕棒(坚决相信快银没有死,后面还得回来)'
ch_text4 = ' 虽然从头打到尾,但是真的很无聊啊。'
ch_text5 = ' 剧情不如第一集好玩了,全靠密集笑点在提神。僧多粥少的直接后果就是每部寡姐都要换着队友谈恋爱,这特么比打斗还辛苦啊,真心求放过~~~(结尾彩蛋还以为是洛基呢,结果我呸!)'
ch_texts = [ch_text1, ch_text2, ch_text3, ch_text4, ch_text5]
corpus = [proc_text(ch_text) for ch_text in ch_texts]
print(corpus)
X = count_vectorizer.fit_transform(corpus)
print(X)
print(X.toarray())
new_text = '剧情混乱,太失望了'
new_pro_text = proc_text(new_text)
print(new_pro_text)
print(count_vectorizer.transform([new_pro_text]).toarray())

自然语言处理中的词袋模型相关推荐

  1. 自然语言处理中传统词向量表示VS深度学习语言模型(一)

    此博客内容是本人在学习自然语言模型中的一些学习和总结,之所以记录下来,也是自己对相关知识的一种巩固,正所谓好记性不如烂笔头.好啦!闲话不多说,开始进入正题! 随着近几年deep learning 的发 ...

  2. 词袋模型 matlab,【火炉炼AI】机器学习051-视觉词袋模型+极端随机森林建立图像分类器...

    [火炉炼AI]机器学习051-视觉词袋模型+极端随机森林建立图像分类器 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, m ...

  3. NLP之BoWNLTK:自然语言处理中常用的技术——词袋法Bow、NLTK库

    NLP之BoW&NLTK:自然语言处理中常用的技术--词袋法Bow.NLTK库 目录 输出结果 实现代码 输出结果 [[0 1 1 0 1 0 0 0 1 1 1 1 1 1 1 1 1 0 ...

  4. 【技术综述】深度学习在自然语言处理中的应用发展史

    本篇介绍深度学习在自然语言处理(NLP)中的应用,从词向量开始,到最新最强大的BERT等预训练模型,梗概性的介绍了深度学习近20年在NLP中的一些重大的进展. 作者&编辑 | 小Dream哥 ...

  5. 深度学习-自然语言处理中的近似训练

    自然语言处理中的近似训练 跳字模型的核心在于使用softmax运算得到给定中心词wcw_cwc​来生成背景词wow_owo​的条件概率 P(wo∣wc)=exp(uo⊤vc)∑i∈Vexp(ui⊤vc ...

  6. 自然语言处理中的文本聚类

    声明:代码的运行环境为Python3.Python3与Python2在一些细节上会有所不同,希望广大读者注意.本博客以代码为主,代码中会有详细的注释.相关文章将会发布在我的个人博客专栏<Pyth ...

  7. 词向量之词袋模型(BOW)详解

    目录 前言 词袋模型 词袋模型的作用 词袋模型的实现 前言   自然语言处理面临的文本数据往往是非结构化杂乱无章的文本数据,而机器学习算法处理的数据往往是固定长度的输入和输出.因而机器学习并不能直接处 ...

  8. 复旦大学黄萱菁:自然语言处理中的表示学习

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  9. 复旦大学黄萱菁教授:自然语言处理中的表示学习

    AI TIME欢迎每一位AI爱好者的加入! 比尔·盖茨曾说:"语言理解是人工智能皇冠上的明珠."在语音交互的AI时代,自然语言处理(NLP)发挥着不可替代的作用.深度学习的出现与发 ...

  10. 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展

    Natural Language Processing Advancements By Deep Learning: A Survey 深度学习在自然语言处理中的进展 目录 Natural Langu ...

最新文章

  1. apache-2.4.12之虚拟主机配置问题与觖决办法
  2. python100个必背知识-python编程面试中必考的知识点,数据类型全解,笔记超全面...
  3. 运行时权限+读取系统联系人
  4. Thymeleaf——访问静态资源(static)解决方案
  5. 过滤器filter,监听器listener
  6. OpenShift 4 - DevSecOps Workshop (7) - 为Pipeline增加向Nexus制品库推送任务
  7. 337. 打家劫舍 III(JavaScript)
  8. 留个坑,不知道为什么sqlite3要求组权限才能执行db:migrate,而可以直接执行db:......
  9. 华三H3c 交换机 vlan Hybird端口配置
  10. facade(外观)模式
  11. 统信UOS安装flash浏览器插件
  12. 世界名牌大学课件下载地址
  13. appium的安装+连接夜神模拟器控制app
  14. 这9本书,带你了解 ChatGPT 的底层逻辑(文末赠书)
  15. FPGA学习: Verilog刷题记录(15)
  16. 腾讯Android自动化测试实战
  17. Win10升级Win11(解决0xc8000402报错)
  18. python九宫格拼图_Python切割图片成九宫格
  19. 【The Zen of Python, by Tim Peters. Python之禅】
  20. 安卓那些你不得不收藏的开源库

热门文章

  1. FusionCompute架构详解
  2. 学习笔记:定积分的求解(矩形法)
  3. 计算机组成原理(第三版)唐朔飞-第四章存储器-课后习题
  4. The command ‘docker‘ could not be found in this WSL 2 distro.
  5. 11月全国程序员平均工资最新出炉,网友:我丢了同行的脸
  6. 【《Real-Time Rendering 3rd》 提炼总结】(八) 第九章 · 全局光照:光线追踪、路径追踪与GI技术进化编年史
  7. Configured
  8. 初学者使用HTML简单做一个自我介绍
  9. 亲测Trimble X7三维扫描仪
  10. c语言中立方和乘法怎么表示什么区别,C语言程式设计中的平方立方怎么表示