R+中文︱中文文本处理杂货柜——chinese.misc
Package: chinese.misc Version: 0.1.3 Date: 2017-03-12 Authors:Wu Jiang
(吴江),微信号:theblackriver受R语言中文社区的文章《diRblo|中文文本分析方便工具包chinese.misc简介(附文本样例)》启发,来看看这个刚刚发布的中文处理新包,感谢作者允许转载。因为作者在github上写的有点乱,笔者在此基础上进行整理。
chinese.misc中的内容很多,简单罗列:
1、文本挖掘方向:
◎ 外部文档文件夹分词
◎ 生成文档-词语矩阵
◎ output_dtm-DTM变为矩阵
◎ sort_tf词语排序
◎ 文本清洗停用词
◎ 文本清洗词性筛选器slim_text
◎ 词条相关性word_cortmfindAssocs
◎ 话题时间趋势topic_trend
R+中文︱中文文本处理杂货柜——chinese.misc相关推荐
- R包中文文本挖掘chinese.misc的中文说明
转载:https://github.com/githubwwwjjj/chinese.misc 中文文本分析方便工具R包chinese.misc的中文说明 很多人都问过的问题: (1)哪里有更多介绍? ...
- 09-R中文文本分析方便工具包chinese.misc简介
文章目录 0.美图 1. chinese.misc安装与数据准备 2.为什么会出现chinese.misc 3.chinese.misc包的特点 4. chinese.misc中的内容很多,简单罗列: ...
- 《利用条件随机场实现中文病历文本中时间关系的自动提取》——阅读笔记
摘要 提出一种基于CRF的时间关系提取算法.以经过医学问题和时间信息语义标注的病历为训练内容,时间关系结果标注采用以医学问题为中心的模式.以63份实际病历作为实验文本. 引言 时间关系非常重要,如,哥 ...
- 何使用BERT模型实现中文的文本分类
原文网址:https://blog.csdn.net/Real_Brilliant/article/details/84880528 如何使用BERT模型实现中文的文本分类 前言 Pytorch re ...
- 基于PaddleNLP的中文对话文本匹配
★★★ 本文源自AI Studio社区精品项目,[点击此处]查看更多精品内容 >>> 基于PaddleNLP的中文对话文本匹配 一.赛题解析 1.1 赛题背景 文本匹配任务在自然语言 ...
- [Pytorch系列-61]:循环神经网络 - 中文新闻文本分类详解-3-CNN网络训练与评估代码详解
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...
- 基于 LSTM-Attention 的中文新闻文本分类
1.摘 要 经典的 LSTM 分类模型,一种是利用 LSTM 最后时刻的输出作为高一级的表示,而另一种是将所有时刻的LSTM 输出求平均作为高一级的表示.这两种表示都存在一定的缺陷,第一种缺失了前面的 ...
- Paddle2.0实现中文新闻文本标题分类
Paddle2.0实现中文新闻文本标题分类 中文新闻文本标题分类Paddle2.0版本基线(非官方) 调优小建议 数据集地址 任务描述 数据说明 提交答案 代码思路说明 数据集解压 数据处理 数据读取 ...
- 中文/英文 文本相似度/文本推理/文本匹配数据集汇总(SNLI、MSRP、MultiNLI、Quora、SciTail、SICK、STS、CCKS2018、LCQMC、OCNLI、XNLI)
中文/英文 文本相似度/文本推理/文本匹配数据集汇总(SNLI.MSRP.MultiNLI.Quora.SciTail.SICK.STS.CCKS2018.LCQMC.OCNLI.XNLI) 1. 所 ...
最新文章
- 2021-07-15 深度学习服务器Linux终端网络训练training结果(顶会ECCV网络BiSeNet)
- 轨迹规划概念总结——Dubins曲线
- 占用内存的Enum.values()方法
- 20150321BC
- 使用git将本地文件上传到远程仓库
- 利用栈和队列将队列中的元素逆置☆
- LDAPimplementation
- 聚类算法评价指标学习笔记
- 继承与data member之虚拟继承
- 使用imp导入工具导入dmp文件
- Win10 企业版 2016长期服务版 激活
- 探索学习 Vue 组件篇 第二篇 组件类型:非单文件组件
- python虚拟机下载_虚拟机 python
- Python 读取文件夹下的Excel文件导入到数据库
- 有符号整型加法与乘法
- 什么叫能力不行,什么叫术业有专攻
- 艾永亮:盘点产品创新的三种颠覆方式
- what-is-downasaur
- 游戏服务端开发-排行榜
- cascode电流镜