这是一本关于文本挖掘的很厚的英文电子书,看英文大部头,很容易边看边忘记。

1.An Introduction to Text Mining
1.1 介绍
文本挖掘的三个问题:
a. 主要的算法模型是什么?与其他数据挖掘的区别?
b. 有哪些可用的工具和技术?(模型是形而上的,技术是形而下的)
c. 有哪些关键的应用领域?
文本挖掘的特点:
a. 文本数据的高维度和稀疏性
b.文本数据可以在多层次进行分析,如单词,句,篇章,文本集合。
  文本的语义表示很有用,如NER.
1.2 算法
本section介绍文本挖掘所覆盖的各种topic及其算法。
a. Information Extraction from Text Data:
   Information Extraction is one of the key problems of text mining, which serves as a starting
   point for many text mining algorithms.
  
b. Text Summarization:
   Another common function needed in many text mining applications is to summarize the text documents.
c. Unsupervised Learning Methods from Text Data:
   The two main unsupervised learning methods commonly used in the context of text data are clustering and topic  modeling.
d. LSI and Dimensionality Reduction for Text Mining:
   representing the underlying data in compressed format for indexing and retrieval.
   这点有点类似Text Summarization了。
e  Supervised Learning Methods for Text Data
  
f. Transfer Learning with Text Data:
   用武之处: For example, labeled English documents are copious and easy to find. On the other hand, it is much
   harder to obtain labeled Chinese documents. 英语的实体库等如此open,的确是很大的机会去转移到中文上去。
  
g. Probabilistic Techniques for Text Mining:
h. Mining Text Streams:
   文本数据类似音频流一样的输入,需要进行on-line连续处理,传统的off-line批处理不适用了。
i. Cross-Lingual Mining of Text Data:
j. Text Mining in Multimedia Networks:
k. Text Mining in Social Media:

l. Opinion Mining from Text Data:
   这是最常见的应用了。
m. Text Mining from Biomedical Data:
   这是在一个专业领域的应用了。

1.3 将来的方向
a.  Scalable and robust methods for natural language understanding:
    目前NLP的许多方法要scale to multiple domains比较困难,有监督学习对训练数据量的要求太高。
b. Domain adaptation and transfer learning
   这也是解决有监督学习缺乏训练数据的问题。
c. Contextual analysis of text data:
d. Parallel text mining:

 
  

《Mining Text Data》阅读笔记---第1章 An Introduction to Text Mining相关推荐

  1. 《领域驱动设计》阅读笔记 第1章 消化知识

    ddd小白,一篇章节便能激起了心中涟漪,感慨之初,记于笔下. 第1章  消化知识 用醍醐灌顶.茅塞顿开来形容此章短短的文字,实不为过. 简单介绍背景:旅游互联网,B2B,初创公司.产品设计-代码开发的 ...

  2. 深入理解 C 指针阅读笔记 -- 第六章

    Chapter6.h #ifndef __CHAPTER_6_ #define __CHAPTER_6_/*<深入理解C指针>学习笔记 -- 第六章*/typedef struct __p ...

  3. 深入理解 C 指针阅读笔记 -- 第五章

    Chapter5.h #ifndef __CHAPTER_5_ #define __CHAPTER_5_/*<深入理解C指针>学习笔记 -- 第五章*//*不应该修改的字符串就应该用 co ...

  4. 深入理解 C 指针阅读笔记 -- 第四章

    Chapter4.h #ifndef __CHAPTER_4_ #define __CHAPTER_4_/*<深入理解C指针>学习笔记 -- 第四章*//*指针数组 -- 意思就是这是一个 ...

  5. 深入理解 C 指针阅读笔记 -- 第三章

    Chapter3.h #ifndef __CHAPTER_3_ #define __CHAPTER_3_/*<深入理解C指针>学习笔记 -- 第三章*//*它们都保存在栈中的什么位置?*/ ...

  6. 《图解TCP/IP》阅读笔记(第九章)—— 网络安全相关

    第九章 网络安全 本章旨在介绍互联网中网络安全的重要性及其相关的实现技术. 本章的内容在我看来,并没有前几章那么重要,大概有所了解就好. 9.1 TCP/IP与网络安全 起初,TCP/IP只用于一个相 ...

  7. TextDragon: An End-to-End Framework for Arbitrary Shaped Text Spotting阅读笔记

    摘要 本文提出一种用来制造文本检测与识别关系的可微运算RoISlide,使模型成为端到端模型.本文在两个弯曲文本数据集CTW1500和Total-Text上的表现达到最佳,在常规文本数据集ICDAR2 ...

  8. 文本检测 论文阅读笔记之 Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks

    Pixel-Anchor: A Fast Oriented Scene Text Detector with Combined Networks 摘要:最近语义分割和通用对象检测框架已被场景广泛采用文 ...

  9. 《机器学习》阅读笔记 第三章

    Contents 1. 不同学科中的线性模型[^1] 2. 线性模型:回归任务 2.1 估计方法 2.2 正则化 2.3 广义线性模型 3. 线性模型:分类任务 3.1 对数几率回归 线性判别分析(L ...

最新文章

  1. AC自动机 HDU 2222
  2. Linux时间子系统之(一):时间的基本概念【转】
  3. 机器学习多目标分类模型解法
  4. MySQL-主从架构探索
  5. php新窗口打开链接,wordpress如何设置在新窗口打开链接
  6. 为什么个体户做不大?
  7. 工程linux下创建svn仓库目录结构
  8. python自动化测试流程_接口自动化基本流程(python)
  9. [转载]ASP.NET MVC URL重写与优化(进阶篇)-继承RouteBase玩转URL
  10. 白话文:几个例子马上看懂typescript基础类型
  11. linux mysql 5.7 配置_Linux环境下详细讲解部署MySQL5.7版本
  12. 代码坏的味道21:被拒绝的遗赠 (Refused Bequest)
  13. 深圳大学物计算机黄yilin,中国科学引文数据库(CSCD)收录本校教师论文情况.doc...
  14. ForkJoinPool 详解
  15. 加载java ie停止工作_OpenLayers webapplication在IE11中停止工作
  16. 美国队长的工资 python代码-Python入门必学,用Python练习画个美队盾牌
  17. 基于AutoJs抖音极速版辅助App
  18. 查看SQL查询数据所话费时间
  19. MT6582芯片处理器,MT6582资料大全
  20. ROS2 + colcon build 常见的一些报错

热门文章

  1. DotNetBar for Windows Forms 11.8.0.8冰河之刃重打包版
  2. 如何实现系统集约与管理运营集约相互促进而不是相互制约
  3. 关键字: datagridview 属性 说明
  4. 我的CSDN博客之旅
  5. git删除中间某个commit
  6. vue各路径,组件都没问题,但页面空白
  7. Use a production WSGI server instead(搭建web网站出现的问题)
  8. 常见的数据分析模型有哪些
  9. echarts 3d地球 背面光线太暗_国内超炫裸眼3D案例鉴赏,大家更喜欢那一个!
  10. keras cnn注意力机制_2019 SSA-CNN(自注意力机制)目标检测算法论文阅读笔记