文本的相关性来自于文本中每个关键词和领域的相关性。

假定中文语言词汇集为X={x1,x2,………xn},xi为词汇代号。

对于类A通过训练得到一个权重集合W={w1,w2,……..wn}。

权重集合的特征提取,通过TF/IDF算法,每个词汇的权重即该词汇的信息熵。

对于一个待分类的文本通过分词,数据清洗和特征提取等得到一个向量Y={y1,y2,………..yn},yi表示第i个词出现的次数。

定义文档价值为w(y)=Y⊙W,⊙为向量点乘。表示文本对于领域的一个价值度。

由于文本包含词汇越多,那么价值度越高。

定义‖Y‖1=|y1|+|y2|+…|yn|。Y向量的1范式表示文本的词汇总数。

定义‖Y‖2=sqrt(|y1^2|+|y2^2|+…|yn^2|)。Y向量的2范式表示向量长度。

定义‖W‖2=sqrt(|w1^2|+|w2^2|+…|wn^2|)。Y向量的2范式表示向量长度。

定义文档平均价值aw1 (y) = w(y)/ ‖Y‖1,表示文档每个词汇对领域的价值贡献均值。

定义文档与分类中心向量夹角余玄aww2 (y) = w(y)/ (‖W‖2 *‖Y‖2 ),表示文档与分类向量中心向量的夹角余玄。

可以采用多种指标确定分类阈值。aw1,aw2,w(y).

达到的阈值的为强相关结果集,未达阈值的为弱相关结果集,在强相关结果集中取出一部分时间最新的文本,作为下一次算法的分类权重集,反复迭代,保证训练集的实时性。

夹角余炫的方法,由于没有考虑的向量的长度,所以在向量空间中是一个锥面,如果特征项l,只取3的话.这样对于短文本,和长文本可能不公平,短文本只要出几个特征可能就被认为是角度足够小的,长文本必须提取出足够多的特征才行,如果只是某一段落与领域相似,是不行的.

如图,分类面如下。

X,Y,Z为假定的三个特征

特征向量,是该领域提取的三个特征的一个分布情况.比如该领域为娱乐,提取的三个特征为,歌手,导演,电影.那么该特征可能的求取方式为tf.idf方法量化出的一值.

夹角的某个空间为相关性强的空间R1,夹角以外的空间,主要X,Y,Z不可能取负值,所以R2,为第一象限中除掉R1的空间.

Line1,Line2应该是弧线,这里为了方便画,所以画成直线,如果考虑向量的长度和夹角,在Line1,Line2,以及角度在制定范围内的空间为领域相关空间,除此之外的为领域无关的.

参考论文

 Rocchio: Relevance Feedback in earningClassificationAlgorithms

Training Algorithms for Linear Text Classifiers

Rocchio算法( pronounced Rockey-O)二分类相关推荐

  1. R语言 lightgbm 算法优化:不平衡二分类问题(附代码)

    来源:大数据文摘本文约10000字,建议阅读10分钟本文以kaggle比赛的数据为例,为你讲解不平衡二分类问题的解决方法. 本案例使用的数据为kaggle中"Santander Custom ...

  2. R语言实战应用-lightgbm 算法优化:不平衡二分类问题(附代码)

    前言 本案例使用的数据为kaggle中"Santander Customer Satisfaction"比赛的数据.此案例为不平衡二分类问题,目标为最大化auc值(ROC曲线下方面 ...

  3. 机器学习——人工神经网络之BP算法编程(python二分类数据集:马疝病数据集)

    目录 一.理论知识回顾 1.神经网络模型 2.明确任务以及参数 1)待估参数: 2)超参数: 3)任务 3.神经网络数学模型定义 1)激活函数 ​ 2)各层权重.阈值定义 3)各层输入输出定义 4.优 ...

  4. 分类算法-逻辑回归与二分类

    逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系.由于算法的简单和高效,在实际中应用非常广泛. 1 ...

  5. python实现GBDT算法的回归、二分类以及多分类,算法流程解读并可视化

    向AI转型的程序员都关注了这个号

  6. python 二分类的实例_深入理解GBDT二分类算法

    我的个人微信公众号:Microstrong 微信公众号ID:MicrostrongAI 微信公众号介绍:Microstrong(小强)同学主要研究机器学习.深度学习.计算机视觉.智能对话系统相关内容, ...

  7. Rocchio算法—文本分类

    文本表示:其实就是文本的向量化问题. 向量空间模型的思想是把文档简化为特征项的权重为分量的向量表示,其中选取词作为特征项,权重用词频表示. 其主要用的是TF-IDF算法来计算:TF(词频)是一个词语出 ...

  8. DL之PerceptronAdalineGD:基于iris莺尾花数据集利用Perceptron感知机和AdalineGD算法实现二分类

    DL之Perceptron&AdalineGD:基于iris莺尾花数据集利用Perceptron感知机和AdalineGD算法实现二分类 目录 基于iris莺尾花数据集利用Perceptron ...

  9. DL之GD:利用LogisticGD算法(梯度下降)依次基于一次函数和二次函数分布的数据集实现二分类预测(超平面可视化)

    DL之GD:利用LogisticGD算法(梯度下降)依次基于一次函数和二次函数分布的数据集实现二分类预测(超平面可视化) 目录 利用LogisticGD算法(梯度下降)依次基于一次函数和二次函数分布的 ...

最新文章

  1. python list add_用Python创建List对象类
  2. 【最近公共祖先】[COCI]STOGOVI
  3. Adobe Air 写文件如何换行
  4. html script 放置位置,script标签应该放在HTML哪里,总结分享
  5. yoyo跑_足球YOYO体测大揭秘 失去资格只需两次
  6. Ubuntu 16.04使用sudo apt-get -f install解决依赖时的注意事项(重点)
  7. scala单例object与伴生object入门
  8. python开发的代码如何加密_python 代码加密
  9. Sql2000数据库的备份文件恢复到Sql2005的方法
  10. WPS2019 Ubuntu可以插入公式
  11. Android储物柜代码,Android的应用程式储物柜安全性如何? | MOS86
  12. 关于数据可视化图表的制作,你需要关注的30个小技巧
  13. 微信电话显示对方忙是为什么 微信电话显示对方忙是什么意思
  14. php面向对象之多态
  15. 在矛盾中不断走向灭亡的北宋社会
  16. Java基础练习题_Random
  17. 详解U盘怎么装windows7系统
  18. 用计算机处理信息的过程,计算机处理信息的全过程
  19. 推荐几个自己收藏的Mac软件下载的网址
  20. 玩Google有妙法:使用技巧十九招(转自计世网)

热门文章

  1. android os包含那些,os是什么意思(os的基本类型包括哪三种)
  2. dede列表页每隔5行输出分割线
  3. MATLAB打开后一直在初始化,或者初始化很慢问题
  4. PHPMailer远程命令执行漏洞复现
  5. 用友php漏洞,用友GRP-u8 注入-RCE漏洞复现
  6. 项目实战 |根据找到的variants的结果生成突变矩阵
  7. 每周论文精读05-A2J:AnchortoJointRegressionNetwork for 3D ArticulatedPoseEstimation from a SingleDepthImage
  8. 【广告架构day2】新浪广告系统架构的演进之路:服务化改造
  9. python中的date的含义_浅谈python中的dateime
  10. OpenGLES学习(一)图片显示