2018-3-5 (论文—网络评论中结构化信息处理的应用于研究)笔记三(互信息,信息增益,期望交叉熵,基于词频的方法,CHI统计)
传统的特征提取的方法:
1.互信息量(Mutual Information MI):评估零个随机变量相关程度(数组额上离散使用了累加,而连续是积分)
百度:互信息_百度百科
https://baike.baidu.com/item/%E4%BA%92%E4%BF%A1%E6%81%AF/7423853?fr=aladdin
另外MI可以解释为:给定一个随机变量后另外一个随机变量上的减少。也就是MI越大的话说明变量A 的出现时的B减少的更多
当两个单词具有相同条件概率,则出现次数少的单词会比出现次数多的单词得到更高的MI值
缺点:
容易受一个单词的边缘概率的影响,也就是在相同的条件概率下出现少的具有较大的MI值
2.信息增益(Information Gain IG):在某种特征出现后与出现前的信息之差。用来描述该特征在种地中的功能作用度
信息增益_百度百科
https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E5%A2%9E%E7%9B%8A/8864911?fr=aladdin
缺点:
同时考虑事件发生不发生的相中情况下该特征的信息量,而在实际中通常一个特征在文本中不怎么发生
3.期望交叉熵(Cross Entropy CE):得到的函数值反应了文档类别的概率分布,它表示出现特定词情况下文档类别概率分布之间的矩离,在金子那个特征选择时,应选择函数值大的特征
数据挖掘笔记-特征选择-期望交叉熵 - CSDN博客
http://blog.csdn.net/fighting_one_piece/article/details/38562183
4.基于词频的方法
特征词的文档频率(Document Frequency DF)
论文:
基于词频统计的文本关键词提取方法
http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyy201603026
设定阈值,当DF的值超过阈值则保留。通常从保留的值中选择较大的
5.CHI统计
与互信息量相似,都表示两个变量之间的相关的程度。不同的是CHI在计算的时候同时考虑特征项存在与不存在的两种情况
文章:文本分类 特征选取之CHI开方检验 - CSDN博客
http://blog.csdn.net/wangran51/article/details/8446234
很好的解释了公式的来源:
(实际—预测)^2 --------------------------插值衡量公式 然后再开方
2018-3-5 (论文—网络评论中结构化信息处理的应用于研究)笔记三(互信息,信息增益,期望交叉熵,基于词频的方法,CHI统计)相关推荐
- 2018-3-7论文网络评论中非结构化信息的表示与研究--------实验分析
数据来源: (1)电子商务网站提供的网路评论 (2)专门提供网络评论交流平台的网络 (3)文章中使用的数据为网上某商城关于"某品牌中的一种型号纸尿裤(价格75RMB)"的2526条 ...
- 2018-3-6论文-网络评论中非结构化信息的应用于研究------(语义矩离)
语义矩离 用来描述特征词之间的语义相似度. 常用的计算方法主要有: 根据同义词词典求2个词语编码的矩离 在文章中使用了哈工大的<同义词词林>扩展版 (1)每个 ...
- 2018-3-10论文(网络评论非结构化信息表示与应用研究)笔记-----基于证据理论的综合评价模型建立
证据理论证据合成问题 运用证据理论对商品进行综合评价,在对每一条评论给出就决策矩阵的类别值进行分析合成,让后将其看成不同的证据,然后兼顾不同的一家内进行合成 模型表述----评语等级 (2)评论分类 ...
- 2018-3-8(论文--网络评论中的非结构化信息表示与研究)笔记-----基于证据理论的网络评论综合方法
Why 综合评价?? (1)实际的生活中,我们队网络评论进行结构化处理的目的不仅在存储而是试图利用这些信息对产品进行综合的评定 (2)通过综合评定企业可以知道产品在客户心中的地位以及受欢迎的程度,从 ...
- 2018-3-3 论文(网络评论中非结构化信息的表示与应用研究)笔记一
文章立脚点: 大量网络评论的出现,使得产品制造商或消费者很难跟踪己购产品用户的意见和建议,这就给他们的决策造成了额外的困难. 文章思路; 将网络评论中的非结构化信息处理成结构化信息 文章的总体的脉络 ...
- 2018-3-6 (论文—网络评论中非结构信息应用于研究)笔记-----论文中的特征抽取的模型算法
整体的流程 网络评论预处理------------------->>>>>>利用相关性特征得到网络评论特征抽取的模型算法 特征提取算法模型: 论文46 马尔科夫链( ...
- 2018-3-10论文(网络评论中非结构化信息表示与应用研究)-----综合评价的实例
模型步骤: (1)确定针具评价等级.也就是H的值 (2)将结构化表示的网络评论进行分类 (3)确定识别框架 (4)计算得到该类别所有评论初始隶属度.使用Sij表示第i个类别第j个等级的初始隶属度 (5 ...
- 2018-3-10论文(网络评论中非结构化信息表示与研究)笔记-----网评评定等级,网评分类,网评信度函数,Dempster法则
建立证据理论模型的基础理论: (1)证据理论是用来处理不确定性问题的 (2)证据理论允许把整个问题和证据分解为若干个子问题,子证据,然后逐个击破,在利用Dempster合成法则进行解的合成,得到你整个 ...
- 2018-3-9 论文(网络评论中非结构化信息表示与研究)笔记---模糊认知图的形式化表示
定义: 模糊认知图_百度百科 https://baike.baidu.com/item/%E6%A8%A1%E7%B3%8A%E8%AE%A4%E7%9F%A5%E5%9B%BE/20881975?f ...
最新文章
- 【web】从数据库读取多条数据到前台
- python ggplot画等值线图,是否可以在Python ggplot上绘制多折线图?
- C# delegate and event
- Cordova项目怎样获取项目版本号
- Anaconda中软件库更新
- RabbitMQ的消息确认机制
- mysql索引使增删变慢_mysql优化之索引篇
- 360技术嘉年华第七季——测试之美 报名啦
- java里面比较重要的东西_Java面向对象程序设计中很重要的一些东西
- exponential family distribution(指数族分布)
- android--显式跳转和隐式跳转
- jcabanillas/yii2-inspinia-asset composert 安装失败
- linux增加分区大小,新增硬盘扩容Linux下的分区大小
- 能测试快充真假的软件,ChargerLAB测试工具使用技巧:一键检测苹果数据线真伪...
- 洛谷 P4093 [HEOI2016/TJOI2016]序列
- 区块链和博弈论(以下转载自网络)
- VB编程:UCase转大写,LCase转小写-4
- 搜狗输入法无法输出中文
- 解决vue项目在ie浏览器中无法显示的问题,兼容低版本浏览器问题
- python图片修改过、有原图、怎么得到改动的地方_Python-根据照片信息获取用户详细信息(微信发原图或泄露位置信息)...