结果评价:
常用的有[color=red]准确率(P-precision)[/color]、[color=red]召回率(R-recall)[/color]和它俩的调和平均。
其中准确率表示返回结果中正确的比例,召回率表示所有正确结果中返回的比例。
用图表示就是
[table]
| 正确 不正确|
| 返回的结果 A B |
| 未返回的结果 C D |
[/table]
准确率:A/(A+B)
召回率:A/(A+C)
文本聚类的5个步骤:
(1)模式表示,包括特征抽取与选择,把文本表示成可计算的形式;
(2)根据领域知识定义模式之间的距离测度公式;
(3)聚类或者分组
(4)数据抽象表达
(5)评价输出结果
-------------------------------------------------------------------------------
作者提出图表示模型(GSM:Graph-based Space Model),采用一种简化的方法来刻画序关系。 按照如下方法来构造:
(1)原始文本:一个term序列t1,t2,t3...tn(term可以是一个字、词,或者短语、句子等) (2)图表示:graph={N,E,W},其中N为结点集,E为边集,W是边的权重。
(3)构图方法:将每个term作为一个结点,每条边表示的term与term之间的邻接共现关系,边的权重表示两个term共现的频率(体现该边的重要程度),这样就把文本的语义信息附加到其边上了。

笔记(2)-文本挖掘与机器学习相关推荐

  1. 吴恩达《Machine Learning》精炼笔记 12:大规模机器学习和图片文字识别 OCR

    作者 | Peter 编辑 | AI有道 系列文章: 吴恩达<Machine Learning>精炼笔记 1:监督学习与非监督学习 吴恩达<Machine Learning>精 ...

  2. 吴恩达《机器学习》学习笔记十四——应用机器学习的建议实现一个机器学习模型的改进

    吴恩达<机器学习>学习笔记十四--应用机器学习的建议实现一个机器学习模型的改进 一.任务介绍 二.代码实现 1.准备数据 2.代价函数 3.梯度计算 4.带有正则化的代价函数和梯度计算 5 ...

  3. 【机器学习笔记】可解释机器学习-学习笔记 Interpretable Machine Learning (Deep Learning)

    [机器学习笔记]可解释机器学习-学习笔记 Interpretable Machine Learning (Deep Learning) 目录 [机器学习笔记]可解释机器学习-学习笔记 Interpre ...

  4. AI学习笔记之——如何理解机器学习(Machine Learning)

    前面虽然介绍了概率和贝叶斯网络,但是还是没有正式介绍AI中最重要的算法--机器学习.如果说概率论是机器学习的基石,那么机器学习算法和理论就是支撑整个AI系统的支柱.现在比较火的深度学习神经网路等等其实 ...

  5. 吴恩达《Machine Learning》精炼笔记 6:关于机器学习的建议

    作者 | Peter 编辑 | AI有道 系列文章: 吴恩达<Machine Learning>精炼笔记 1:监督学习与非监督学习 吴恩达<Machine Learning>精 ...

  6. python人工智能入门纳米学位_学习笔记(一) - 机器学习纳米学位

    不久前我在Udacity报名了数据分析和机器学习两门纳米课程.之所以对这个感兴趣是因为关注人工智能方面的资讯有一段时间了,觉得这是未来的趋势,希望今后能够在这方面有所成绩.选择纳米课程是因为我觉得它与 ...

  7. 笔记:python spark机器学习与hadoop大数据

    目录 1.1机器学习的介绍 机器学习架构 1.2Spark的介绍 1.3Spark数据处理RDD.DataFrame.Spark SQl 1.4使用python开发spark机器学习与大数据应用 1. ...

  8. AI学习笔记:人工智能与机器学习概述

    一.人工智能基本概念 1.1 基本概念 数据分析:对历史规律的展现.对未来数据的预测. 机器学习:机器学习是指从一系列的原始数据中找到规律,提取人们可以识别的特征,然后通过学习这些特征,最终产生一个模 ...

  9. [云炬python3玩转机器学习笔记] 1-1什么是机器学习

    一. 什么是机器学习 机器学习本质是在模拟人类进行思考学习,人类的思考学习大部分来自经验的积累,机器学习也一样 二.机器学习的应用场景 (一)已投入生产的 (二)未来需要运用机器学习的领域 在未来,A ...

最新文章

  1. 叶明哲 | 数据中心空调文章集锦
  2. SAP系统与MES系统的数据协同技术方案
  3. 02 - Unit06:弹出对话框
  4. 【Linux】线程同步之信号量同步
  5. c语言中代码参数太少,C语言不定参数探究
  6. latex table 表格 显示每行横线
  7. [POJ3177]Redundant Paths
  8. PHP Filesysten函数
  9. 自媒体标题不会写?用这个工具,一键生成爆文标题
  10. Java实现斗地主发牌
  11. 连接共享打印机时提示无法访问计算机,win10共享打印机提示无法访问.你可能没有权限使用网络资源怎么解决...
  12. 你有哪些“相见恨晚”的UE4学习资料?
  13. SATA电源线的作用
  14. React Native 仿 ofo 共享单车 App
  15. Docker(狂神说)笔记
  16. AJAX和JSON介绍
  17. jQuery基础:选择器、动画、DOM操作和事件等
  18. java html5 cms,企业内部cms业务管理系统html5简洁的模板
  19. 计算机科学计算矩阵答案,计算机科学计算答案.doc
  20. C/S,B/S与P2P架构

热门文章

  1. 彻底搞懂Html5本地存储技术(一)
  2. zoj 1450 Minimal Circle 最小覆盖圆
  3. 胜利大逃亡[HDU1253]
  4. 阿里巴巴卖空阿里巴巴入股新浪微博抑制投资者卖空行为
  5. tornado-ioloop-async-io
  6. Eclipse快捷键收集
  7. hadoop的部署以及应用
  8. rundeck 内存溢出
  9. VM中的Linux安装jdk和tomcat
  10. selenium web的自动化测试工具