将文本数据转换成arff文件
目的:
将类似下图的文本数据转换为arff文件。文本数据每一行是一个句子和该句子的类属性值(classValue),得到的arff文件中的一个实例(Instance)即为一个句子的单词向量和类属性值。
思路:
1.将原始文本数据中一些特殊符号去除,以免在构建单词向量时出现问题;
2.在去除特殊符号的文本数据上自动添加arff文件的表头,另存为arff文件;
3.在WEKA中读取该arff文件,再使用StringToWordVector过滤器将该arff文件中的每个样本(此时为String)转换为单词向量,将数据另存为新的arff文件,即为最终需要的arff文件。
具体过程:
1.原始文本数据存储在temp.txt,将temp.txt中的特殊符号全部用空格替换。我使用JAVA处理,主要处理了(, = \ ’ -%/()* +)这些特殊符号,注意在处理( ()* +)这写符号时,需要在其前面添加“\\”,否则会报错:java.util.regex.PatternSyntaxException: Unclosed group near index 1
。
2.随后在temp.txt文件中的前面添加arff文件的表头,如下:
@relation data@attribute text string
@attribute class {0,1}@data
Multi-layers kept management at a distance from its customers , O'Neal said . 1
Now organisations must change to stay competitive . 0
O'Neal says firms will place a greater emphasis on teams and team performance in giving raises . 1
If your team does well , you 'll do well . 1
If it does n't do well , do n't expect a raise . 1
Is this fair to an employee who can go the distance but is on a team that ca n't keep up ? 0
That 's an important question we used to ask a lot , said O'Neal . 1
另存为temp.arff文件。
3.在WEKA中读取temp.arff文件,选择filters->unsupervised->attribute->StringToWordVector过滤器,设置相应的参数。参数设置说明如下:
此时会生成很多属性,名称是对应的单词。需要注意的是,这样子可能会使得类属性不是原先名称为class的属性了,所以需要点击Edit,右击class属性,点击Attribute as class,即设置class属性为类属性。随后Save为最终的arff文件即可。
注:这样得到的arff文件的数据往往是以稀疏矩阵的方式存储的,因为文本数据转换过来的单词向量有着大量的0,采用原始的方式存储会占据大量内存。
将文本数据转换成arff文件相关推荐
- TXT文本数据转换成Excel表格
TXT文本数据转换成Excel表格 打开EXCEL-数据--获取外部数据--导入文本文件--找到文件点导入--选择分隔符号--下一步--(逗号打勾,空格打勾,其他打勾)
- caffe将图像数据转换成lmdb文件
一.caffe安装 安装步骤:https://blog.csdn.net/yql_617540298/article/details/82718889 二.caffe将图像数据转换成lmdb文件 之前 ...
- 将大量有规律txt文本数据转换成xml格式,在导入excel,生成excel文件,在导入spass中,对数据进行分析
[文本数据 2.txt]下面是其中两条 Title-题名: 供应链竞争力内涵与模型构建研究 Author-作者: 余晖;张文杰; Organ-单位: 北京交通大学经济管理学院; Source-文献来源 ...
- Python将读取到的字符串文本数据转换成数字类型列表和数组
最近在用Python,做一个小脚本,有个操作就是要读取文本框中的内容然后将其转换成数组对象再进行相关操作.但读取到的文本是字符串类型的,所以,得进行一波小操作了嘿.
- mysql 转换文本_mysql replace将纯文本数据转换成HTML格式的方法
mysql的REPLACE说明: REPLACE(str,from_str,to_str) 在字符串 str 中所有出现的字符串 from_str 均被 to_str替换,然后返回这个字符串 例如: ...
- python读取oracle数据转换成json文件_python 读取网页json数据库中
数据挖掘敲门砖--Python爬虫入门 Python爬虫.jpg WHAT 数据挖掘是一门综合的技术,随着Ai的兴起,在国内的需求日渐增大. 数据挖掘的职业方向通常有三个,顺便概要地提一下所需的技能( ...
- Lua工具:Excel数据转换成Lua文件
现在很多手游使用Cocos2dx + Lua 的开发模式,在这过程中,很多游戏的基础数据,放在哪里,什么格式,怎么做效率最高. 当然是你已经采用的开发模式了, 基础数据做成Lua 文件,才是最好的,读 ...
- python如何将表格数据转换成txt文件
任务需求:将表格中每一行拼接在一起,输出. 直接见代码 import xlrd filenames="C:/Users/Shineion/Desktop/QC/题目调度规程.xls" ...
- [WEKA]如何将英文文本数据集转换为ARFF格式
若采用的是英文文本语料库,利用WEKA将英文文本数据转换到ARFF格式中,需要用到以下两个工具:TextDirectoryToArff和TextDirectoryLoader. TextDirecto ...
最新文章
- 《Adobe Fireworks CS6中文版经典教程》——1.2工具面板
- dos命令在vba中应用
- 模糊推理机制 matlab,基于模糊综合评判推理机制的学生素质评价系统设计与实现...
- ubuntu16.04编译boost for Android(boost 1.65)
- 蛋壳租客迎来好消息!微众银行开放贷款结清入口
- python编写年金终值函数_看零件图的标题栏可了解()
- 好玩的问答,看看你的年龄阶段哦
- Docker如何更改存储库名称或重命名图像?
- 【转载】士兵突击 经典语录
- 华为 linux网络工程师待遇,华为网络工程师待遇如何?
- python希尔伯特变换_Hilbert变换提取信号特征的Python实现
- Mac有些网址打不开问题解决办法
- 无盘Linux详解:硬盘启动Knoppix的前前后后
- 两种操作botton的方法
- spring boot项目:用户中心的商品信息编辑功能
- Jenkins——持续集成及Jenkins介绍和安装配置(插件,用户权限,凭据,Maven安装打包,配置tomcat用户权限)
- 注意: 如何解决Windows Server 2008 R2 EFI启动模式安装2019年8月更新KB4512486 KB4512506 KB4512514后自动进入修复模式,无法正常启动问题!!!
- ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph
- random.RandomState()用处
- 武汉交通职业学院计算机协会,2018年中国计算机学会(CCF)职业教育大会在苏州顺利落幕...
热门文章
- EI中的知名高校大学学报(共28所高校)
- 数字IC入门工具大全之 英特尔 Quartus Prime是什么?三个版本有什么区别
- js 动态调用 applet 内的方法
- 学计算机用windows还是macos,电脑买Win还是买Mac?选择Macbook的六大理由
- Lind.DDD.API核心技术分享
- Mongodb在Windows上的安装
- redis/ae总结 .
- 小米官网详情页头部固定效果
- [KDTree] [BZOJ2716] [Violet 3] 天使玩偶
- MySQL亿级数据分页的奇妙经历