背景介绍:RapidMiner Studio 6.4 新功能增强了与备受欢迎的统计语言 R 的集成。该集成主要提供了 RapidMiner 与 R 结合时需要的核心功能。您现在可以在 RapidMiner 流程里面执行 R 代码, 可以将数据传给 R,在 R 脚本被执行后将 R 代码执行结果传回 RapidMiner。由于该集成被完全进行了重写,这样不仅 RapidMiner Studio 和 RapidMiner Server 安装和配置更加容易,而且采用一种更加稳定和安全的集成解决方案。R 集成作为一个叫 R Scripting (R脚本)的新扩展出现,取代了之前的 R 扩展。

长期以来,对中文文本进行分词一直是大家进行中文文本挖掘的瓶颈,下面我们将介绍一下如何利用 RapidMiner Studio 6.4 进行中文分词。

首先,我们需要明确的一个问题是,无论是什么分析软件,在进行中文分词的时候都必须借助于语料库,通过对将现有中文文本与语料库中词汇进行匹配,找到中文分词依据。此处我们将集成 R 扩展,进行中文分词。
以下为基本步骤:

步骤一:查看您现有版本是否已将安装 Rscripting 的扩展,若没安装,可进入 help-Marketplace( Update and Extensions) 搜索 Rscripting 进行安装更新。

R-scripting-extension
步骤二:在R中安装与语料库(我们装入当前流行的Rwordseg包)
步骤三:在Rapidminer 6.4.0 中进行中文分词

我们以包含句子“中华人民共和国成立于1949年”的表格为例,将数据表格导入到 RapidMiner 中,并运用 Execute R 算子,如图:

R-excution
在 Execute R 中,写入代码如下:rm_main = function(data)
{
library(Rwordseg)#调用 Rwordseg 库
data2<-as.data.table(segmentCN(data$Sentence))
return(data2)
}

结果视图如下,在 Statistics 中可以看到属性的统计数据如下:

点开最右侧的 Values 即可以看到对于每个词的词频统计:

以上是如何用 RapidMiner Studio 6.4 进行中文分词以及如何进行词频统计,希望以上信息能够帮到大家。

RapidMiner,前称Rapid-I,公司于2007年在德国多特蒙德成立,目前总部位于美国麻州Cambridge,并在英国,德国,匈牙利设有分部, 中国区总代理位于上海。

RapidMiner是世界领先的数据解决方案供应商,整合了数据挖掘,机器学习,文本分析,预测分析,商业分析。RapidMiner 连续两年(2014,2015)被Gartner评为高级分析平台领域的领导者。

如何用 RapidMiner 6.4 进行中文分词相关推荐

  1. python用中文怎么说-如何用Python做中文分词?

    打算绘制中文词云图?那你得先学会如何做中文文本分词.跟着我们的教程,一步步用Python来动手实践吧. 需求 在<如何用Python做词云>一文中,我们介绍了英文文本的词云制作方法.大家玩 ...

  2. python 英语分词_如何用Python做中文分词?

    打算绘制中文词云图?那你得先学会如何做中文文本分词.跟着我们的教程,一步步用Python来动手实践吧. 需求 在<如何用Python做词云>一文中,我们介绍了英文文本的词云制作方法.大家玩 ...

  3. 中文分词的古今中外,你想知道的都在这里

    作者:QvQ,夕小瑶,小鹿鹿鹿 前言 分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从"字序列"的表示升级为&quo ...

  4. 基于规则的中文分词 - NLP中文篇

    之前在其他博客文章有提到如何对英文进行分词,也说后续会增加解释我们中文是如何分词的,我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格(分隔符),这样子分词处理起来其实是要相对容易很多, ...

  5. 中文分词算法之--最大匹配法

    中文分词算法之–最大匹配法 ​ 前段时间研究了如何用分词工具进行分词,但是分词中涉及的一些算法,不太了解,所以,准备这段时间专攻分词算法原理,大家有补充,或者建议,欢迎留言. 1. 最大匹配法(Max ...

  6. 中文分词入门之字标注法3

    中文分词入门之字标注法3 http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E5% ...

  7. PyTorch 高级实战教程:基于 BI-LSTM CRF 实现命名实体识别和中文分词

    20210607 https://blog.csdn.net/u011828281/article/details/81171066 前言:译者实测 PyTorch 代码非常简洁易懂,只需要将中文分词 ...

  8. 一个隐马尔科夫模型的应用实例:中文分词

    什么问题用HMM解决 现实生活中有这样一类随机现象,在已知现在情况的条件下,未来时刻的情况只与现在有关,而与遥远的过去并无直接关系. 比如天气预测,如果我们知道"晴天,多云,雨天" ...

  9. Python第三方库jieba(中文分词)入门与进阶(官方文档)

    jieba "结巴"中文分词:做最好的 Python 中文分词组件 github:https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式, ...

最新文章

  1. 黑马程序员-Java基础-正则表达式
  2. spring 第一天:1015
  3. java va start_va_start和va_end使用详解
  4. SpringBoot启动一下就结束了
  5. RTL8188ce无线网卡驱动在Ubuntu/Ubuntu Kylin 13.10中的安装-转
  6. 纳米盘资源搜索经验分享
  7. matlab 画图 方程,matlab 画图与解方程
  8. NOR Flash、NAND Flash和iNAND Flash的不同点
  9. 使用MATLAB App Design 工具设计一个 简易App
  10. Grub4Dos 学习笔记
  11. 达梦8初始化参数之BLANK_PAD_MODE
  12. DFS求岛屿最大面积
  13. 稀疏表示学习笔记--正交阵,协方差
  14. 学习记录贴2:libpng16.so.16找不到,libc.so.6找不到
  15. 微搭医美美容小程序官方模板解析
  16. 浙江新2014挂历制作,供应温州挂历印刷公司
  17. vscode运行Live Server报错:Windows找不到文件‘chrome‘,请确定文件名是否正确后,再试一次。
  18. Linux 设备驱动开发 —— platform设备驱动应用实例解析
  19. Win10 渗透工具包
  20. 中国风商业融资PPT模板

热门文章

  1. 3000字干货!如何做好一个BI项目的规划和需求定义?
  2. Java计算机毕业设计甜趣网上蛋糕店订购系统源码+系统+数据库+lw文档
  3. [BI] 搭建开源BI平台Superset,连接Oracle数据库
  4. ThinkPad T61 安装XP系统后总是提示“PC内存控制器”的问题
  5. 区块链技术加持下的社交软件又能玩出什么新花样
  6. Word行距怎么设置?基础设置,必会的4个方法!
  7. JSP的6种乱码解决方案
  8. Android画各种圆,饼图,环图,圆形图片
  9. 评论留言用html怎么做,利用JS实现评论留言发布表单代码
  10. TFS30063 您没有权限