目前,随着大数据、云计算对关系型数据处理技术趋向稳定成熟,各大互联网公司对关系数据的整合也已经落地成熟,笔者预测未来数据领域的挑战将主要集中在半结构化和非结构化数据的整合,NLP 技术对个人发展越来越重要,尤其在中文文本上挑战更大。

在本场 Chat 以及现在和未来工作中,笔者都将致力于中文文本的挖掘与开发,而且是通过实战来增加对中文 NLP 需求的应用理解。

由于是第一讲,笔者在本次 Chat 并没有提及较深入的 NLP 处理技术,通过 WordCloud 制作词云、用 LDA 主题模型获取文本关键词、以及用朴素贝叶斯算法和 SVM 分别对文本分类,目的是让大家对中文文本处理有一个直观了解,为后续实战提供基础保障。

下面是一些约定:

  1. 本 Chat 示例代码都是基于 Python3 写的,带有必要的注释;
  2. 中文自然语言处理(Chinese natural language processing),后面笔者全部简称 CNLP;
  3. 笔者所用开发环境是 Windows 10 操作系统和 Jupyter notebook 开发工具。相信示例代码在 Linux、Mac OS 等系统上运行也没问题。

一、WordCloud 制作词云

最近中美贸易战炒的沸沸扬扬,笔者用网上摘取了一些文本(自己线下可以继续添加语料),下面来制作一个中美贸易战相关的词云。

1. jieba 分词安装

jieba 俗称中文分词利器,作用是来对文本语料进行分词。

  • 全自动安装:easy_install jieba 或者 pip install jieba / pip

Chat:NLP 中文短文本分类项目实践(上)相关推荐

  1. NLP 中文短文本分类项目实践(下)

    本场 Chat 和<NLP 中文短文本分类项目实践(上)>可以看做姊妹篇,在上一篇的基础上,本篇主要讲一下文本分类在集成学习和深度学习方面的应用,由于内容比较多,笔者不可能面面俱到.下面我 ...

  2. 双向LSTM中文微博情感分类项目

    双向LSTM中文微博情感分类项目 1.数据集说明 2.双向LSTM中文微博情感分类项目实战 1.数据集说明   这里完成一个中文微博情感分类项目.这里我使用的数据集是从新浪微博收集的 12 万条数据, ...

  3. 新闻上的文本分类:机器学习大乱斗 王岳王院长 王岳王院长 5 个月前 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处

    新闻上的文本分类:机器学习大乱斗 王岳王院长 5 个月前 目标 从头开始实践中文短文本分类,记录一下实验流程与遇到的坑 运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处理过程与结果差 ...

  4. 小布助手在面向中文短文本的实体链指比赛中的实践应用

    背景介绍 实体链指是指对于给定的一个文本(如搜索Query.微博.对话内容.文章.视频.图片的标题等),将其中的实体与给定知识库中对应的实体进行关联.实体链指一般有两种任务设计方式:Pipeline式 ...

  5. gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算 | CSDN博文精选

    作者 | Eastmount 来源 | CSDN博文精选 (*点击阅读原文,查看作者更多精彩文章) 本篇文章将分享gensim词向量Word2Vec安装.基础用法,并实现<庆余年>中文短文 ...

  6. html标签 对word2vec,基于Word2Vec的中文短文本分类问题研究

    1 引言 移动终端的智能化和互联网技术的高速发展促使人们在移动互联网上交流的越来越频繁, 由此产生了大量的信息数据[, 这些数据多以短文本的形式作为信息传递的载体, 例如微博和即时推送新闻等, 其内容 ...

  7. 深度学习与中文短文本分析总结与梳理

    感谢原著,原文出处:https://www.cnblogs.com/wangyaning/p/7853879.html 1.绪论 过去几年,深度神经网络在模式识别中占绝对主流.它们在许多计算机视觉任务 ...

  8. 基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践

    基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践 1.任务介绍   本次实践选题为AI研习社2019年9月份举办的中文对话情感分析任务,并在原任务基础上进行了拓展.任务首先给定一中文语句数据集 ...

  9. 面向中文短文本的实体链指任务竞赛亚军DeepBlueAI团队技术分享

    ©PaperWeekly 原创 · 作者|罗志鹏 学校|深兰北京AI研发中心 研究方向|物体检测 全国知识图谱与语义计算大会(CCKS 2020)11 月 12 日至 15 日在江西南昌举行,CCKS ...

最新文章

  1. IDC: 高性能计算投入产出比高达44倍
  2. 知乎高赞:985计算机视觉毕业后找不到工作怎么办?怒刷leetcode,还是另寻他路?
  3. 北邮OJ 1005. 16校赛-Hawei Learning C
  4. 我的世界服务器神秘修改节点,我的世界神秘时代:历经千难万险,终于解锁全部节点内容...
  5. Spring-Cloud 学习笔记-(4)负载均衡器Ribbon
  6. 基于消息中间件RabbitMQ实现简单的RPC服务
  7. java多线程中出现的异常分别有哪些_java多线程试题
  8. python中color语句_python中的colorlog库详解
  9. python中的元类_理解python中的元类
  10. “加薪”、“洗手间”都不能提?亚马逊内部员工通讯 App 曝光
  11. 【转】mysql_fetch_row , mysql_fetch_array , mysql_fetch_assoc 的区别
  12. 统信UOS家庭版使用体验
  13. 为了冰箱贴的一次渗透测试
  14. python谢尔宾斯基三角形
  15. springboot权限管理系统
  16. 2018年江苏高考数学填空题14的一般思路
  17. 吾生也有涯,而学也无涯
  18. Docker-compose 启动报错:Pool overlaps with other one on this address space
  19. 室内定位——UWB测距及定位原理
  20. 深度学习及并行化实现概述

热门文章

  1. 计算机秋招必备!北京互联网大厂企业整理清单!
  2. 【已解决】surefire-reports for the individual test results.
  3. java的解释程序_JAVA改错和程序解释
  4. Kubernetes——基本概念与理论
  5. 计算机安全知识课堂导入设计,“计算机安全与防护教学设计”教学设计.doc
  6. 多维列表索引_10分钟带你学会Pandas多层级索引
  7. pytorch指定用多张显卡训练_Pytorch中多GPU训练指北
  8. PHP网站如何搬迁,如何搬迁DedeCMS站点数据
  9. python编写系统随机产生一个数、玩家最多可以猜五次_南开20秋学期《Python编程基础》在线作业(题目随机)...
  10. wpspbc按钮是什么意思_抖音私密账号什么意思 抖音热评私密账号什么梗怎么设置?...