（3.2）将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类...

酒店评论情感分析系统（三）——

将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类

思想：

将进行了中文分词和去停用词之后得到的词或短语按序存在一个数组（iniArray）中，从中找出所有和“环境、卫生、价格、服务”四个方面相关的词或短语，并记录下其位置信息（sortRefNum）。然后按照位置信息，对每一个标记出的关键词，记录下从当前关键词起到下一个关键词止的信息，放入一个String型的数组中（midArray），最后将此数组中的关键词再分别基于“环境、卫生、价格、服务”四个方面分类（fourClass）。

前提条件：

1）此步骤是在【（3.1）用ictclas4j进行中文分词，并去除停用词】后所得到的文本基础上的实验；

2）在sentence文件目录中的srcFile目录下，须自己建立以下几个额外的词库：

EnvironmentRef：与环境相关的相关词汇，比如：交通，设施等；

HealthRef：与卫生相关的相关词汇，比如：卫生，脏等；

PriceRef：与价钱相关的相关词汇，比如：收费，价格等；

ServiceRef：与服务相关的相关词汇，比如：服务，态度等

RefWords：以上四个相关词表的总和。

代码实现：

新建一个class（如：Fenlei.java）

  1 import java.io.BufferedReader;
  2 import java.io.File;
  3 import java.io.FileInputStream;
  4 import java.io.FileNotFoundException;
  5 import java.io.IOException;
  6 import java.io.InputStreamReader;
  7 import java.util.HashSet;
  8 import java.util.Set;
  9
 10
 11 public class Fenglei {
 12
 13     //将分词和去停用词的结果提取出来
 14     String destFile = "." + File.separator + "destFile" + File.separator + "酒店评论.txt";
 15     public static final String RefWord = "." + File.separator + "srcFile" + File.separator + "RefWords.txt";
 16     public static final String EnvironmentRef = "." + File.separator + "srcFile" + File.separator + "EnvironmentRef.txt";
 17     public static final String HealthRef = "." + File.separator + "srcFile" + File.separator + "HealthRef.txt";
 18     public static final String PriceRef = "." + File.separator + "srcFile" + File.separator + "PriceRef.txt";
 19     public static final String ServiceRef = "." + File.separator + "srcFile" + File.separator + "ServiceRef.txt";
 20
 21     public void fenlei(){
 22         try{
 23             //读取原文件和相关词表
 24             BufferedReader srcBr = new BufferedReader(new InputStreamReader(new FileInputStream(new File(destFile))));
 25             BufferedReader refBr = new BufferedReader(new InputStreamReader(new FileInputStream(new File(RefWord))));
 26             BufferedReader environmentRefBr = new BufferedReader(new InputStreamReader(new FileInputStream(new File(EnvironmentRef))));
 27             BufferedReader healthRefBr = new BufferedReader(new InputStreamReader(new FileInputStream(new File(HealthRef))));
 28             BufferedReader priceRefBr = new BufferedReader(new InputStreamReader(new FileInputStream(new File(PriceRef))));
 29             BufferedReader serviceRefBr = new BufferedReader(new InputStreamReader(new FileInputStream(new File(ServiceRef))));
 30
 31             //将分词去停用词后的单词，按序放在String数组中
 32             String paragraph = null;
 33             String[] iniArray = null;
 34             for(; (paragraph = srcBr.readLine()) != null;){
 35                 iniArray = paragraph.split(" ");
 36             }            41
 42             Set<String> refWordSet = getSet(refBr);        //相关词汇集
 43             Set<String> environmentSet = getSet(environmentRefBr);
 44             Set<String> healthSet = getSet(healthRefBr);
 45             Set<String> priceSet = getSet(priceRefBr);
 46             Set<String> serviceSet = getSet(serviceRefBr);
 47
 48             //用一个int数组refNum存放分析文本中寻找相关关键词
 49             int[] refNum = new int[iniArray.length];
 50             int refNumcount = 0;
 51             for(int i = 0; i< iniArray.length; i++){
 52                 if(refWordSet.contains(iniArray[i])){
 53                     refNum[refNumcount++] = i;
 54                 }
 55             }
 56
 57             //对refNum数组进行排序
 58             int[] sortRefNum = new int[refNumcount];
 59             bubble(refNum);
 60             for(int i = refNum.length-refNumcount,j=0;j<refNumcount;i++,j++){
 61                 sortRefNum[j] = refNum[i];
 62             }
 63
 64             //对属于同一相关的短语进行记录
 65             String[] midArray = new String[refNumcount];
 66             int midArrayCount = 0;
 67             for(int i=0; i<refNumcount-1; i++){
 68                 int j=sortRefNum[i];
 69                 midArray[midArrayCount] = "";
 70                 for(;j < sortRefNum[i+1];j++ ){
 71                     if(iniArray[j] != null){
 73                         midArray[midArrayCount] += iniArray[j].toString()+" ";
 74                     }
 75                 }
 76                 midArrayCount++;
 77             }
 78             midArray[midArrayCount] = "";
 79             for(int i = sortRefNum[refNumcount-1];i < iniArray.length;i++){
 80                 midArray[midArrayCount] += iniArray[i].toString()+" ";
 81             }
 82
 83             //对相关短语属于同一大类的短语进行合并整理，如“光线”类和“隔音”应该同属于“环境”类
 84             String[] fourClass = new String[4];
 85             fourClass[0] = "环境： ";
 86             fourClass[1] = "卫生： ";
 87             fourClass[2] = "价格： ";
 88             fourClass[3] = "服务： ";
 89             for(int j=0;j<=midArrayCount;j++){
 90                 if(environmentSet.contains(iniArray[sortRefNum[j]])){   //0-环境
 91                      fourClass[0] += midArray[j].toString()+" ";
 92                 }else{
 93                     if(healthSet.contains(iniArray[sortRefNum[j]])){    //1-卫生
 94                         fourClass[1] += midArray[j].toString()+" ";
 95                     }else{
 96                         if(priceSet.contains(iniArray[sortRefNum[j]])){  //2-价格
 97                             fourClass[2] += midArray[j].toString()+" ";
 98                         }else{
 99                             if(serviceSet.contains(iniArray[sortRefNum[j]])){   //3-服务
100                                 fourClass[3] += midArray[j].toString()+" ";
101                             }
102                         }
103                     }
104                 }
105             }
106         }catch(FileNotFoundException e){
107             // TODO Auto-generated catch block
108             e.printStackTrace();
109         } catch(Exception e){
110             e.printStackTrace();
111         }
112     }
113
114     //冒泡排序
115     public int[] bubble(int[] array) {
116         int temp = 0;
117         for (int i = array.length - 1; i > 0; --i) {
118             for (int j = 0; j < i; j++) {
119                 if (array[j] > array[j+1]) {
120                     temp = array[j];
121                     array[j] = array[j+1];
122                     array[j+1] = temp;
123                 }
124             }
125         }
126         return array;
127     }
128
129
130     //词汇表的集合
131     public Set<String> getSet(BufferedReader br){
132         Set<String> wordSet = new HashSet<String>();    //用来放词汇的集合
133         String word = null;
134         try {
135             for(; (word = br.readLine()) != null;){
136                 wordSet.add(word);
137             }
138         } catch (IOException e) {
139             // TODO Auto-generated catch block
140             e.printStackTrace();
141         }
142         return wordSet;
143     }
144
145     public static void main(String[] args){
146         new Fenglei().fenlei();
147     }
149 }

运行效果：

源评论文本：

总体评价：性价比很高，交通便利，周边吃喝玩乐设施齐全，对面就是家乐福。但是前台男客服服务态度很一般，酒店光线太暗看不清，总感觉脏脏的，并且隔音效果一般，有一点点吵，导致晚上睡觉不踏实。对于价钱，三星级价格有点高，一次性用品要收费,觉得很不合理。

分词和去停用词后的文本：

总体评价性价高交通便利周边吃喝玩乐设施齐全对面家乐福前台男客服服务态度一般酒店光线太暗不清总感觉脏脏隔音效果一般一点点吵导致晚上睡觉不踏实价钱三星级价格点高一次性用品收费觉得不合理

midArray数组中的内容：

交通便利周边吃喝玩乐
设施齐全对面家乐福前台男客服
服务
态度一般酒店
光线太暗不清总感觉
脏脏
隔音效果一般一点点吵导致晚上睡觉不踏实
价钱三星级
价格点高一次性用品
收费觉得不合理

按“环境、卫生、价格、服务”分类后的结果：

环境：交通便利周边吃喝玩乐设施齐全对面家乐福前台男客服光线太暗不清总感觉隔音效果一般一点点吵导致晚上睡觉不踏实

卫生： 脏脏

价格： 价钱三星级价格点高一次性用品收费觉得不合理

服务： 服务态度一般酒店

缺点：

此实验的分类效果一般，对于源文本的输入格式有一定的限制，比如对于“前台男客服服务态度很一般”这一句，最终的分类结果变为“环境：前台男客服；服务：服务态度一般”。故，此实验只是作为一种思想的体现，如有更好的文本细分的想法，欢迎留言探讨！

转载于:https://www.cnblogs.com/CherishFX/p/4038448.html

（3.2）将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类...相关推荐

分词并去停用词自定义函数：seg_word(sentence)
分词并去停用词自定义函数:seg_word(sentence). import jieba def seg_word(sentence):"""使用jieba对文档分词& ...
文本分析——分词并去停用词返回嵌套列表并保存到本地
文章目录文本分析分词并去停用词返回嵌套列表读取文件并进行分词去停用词操作保存结果到本地从本地读取结果文本分析分词并去停用词返回嵌套列表此代码块用于分词并去停用词(从csv文件转成了txt分 ...
文本相似度计算 python去停用词_python专业方向 | 文本相似度计算
欢迎关注我们的微信公众号"人工智能LeadAI"(ID:atleadai)步骤 1.分词.去停用词 2.词袋模型向量化文本 3.TF-IDF模型向量化文本 4.LSI模型向量化文本 ...
IKAnalyzer进行中文分词和去停用词
最近学习主题模型pLSA.LDA,就想拿来试试中文.首先就是找文本进行切词.去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IK ...
Gensim：word2vec（jieba分词，去停用词）
参考https://www.cnblogs.com/pinard/p/7278324.html 计算词向量 gensim计算词向量需要执行三个步骤 model=gensim.models.Word2V ...
Jieba分词并去停用词
目录一.Jieba简介二.Jieba使用规则 2.1 Jieba分词的四种模式 2.2 Jieba库的一般函数
『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注
利用Python代码实现中文文本的自然语言处理,包括分词.去标点符号.去停用词.词性标注&过滤. 在刚开始的每个模块,介绍它的实现.最后会将整个文本处理过程封装成 TextProcess 类. ...
Python借助jieba包对中文txt文档去停用词、分词
Python借助jieba包对中文txt文档去停用词.分词` import jieba# 创建停用词list def stopwordslist(filepath):stopwords = [line ...
python去停用词用nltk_【NLTK】安装和使用NLTK分词和去停词
黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html 安装NL ...

（3.2）将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类...

（3.2）将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类...相关推荐

最新文章

热门文章