目标:针对给定输入文本与文本库,计算得出文本库中与输入文本最相似的文本

综述帖:http://www.cnblogs.com/kinzznsblog/p/8780239.html
原理帖:http://www.cnblogs.com/kinzznsblog/p/8780172.html
实现帖:

对于人类,两句话的相似性一般都从语义上进行考虑,大白话说就是”这两句话说的是同一件事儿/同一个意思“。相似的句子可能会有相似的语法。
对于当前的计算机来说,已经用标点符号等区分开了句子与句子,但如何理解、表达句子的意思是个难题,也就是需要人工定义语义的概念。另外,人类语言世界中的句子通常都有一定的使用环境,但到了计算机系统中全都统一存储为二进制,使得部分语义在”语言数字化“这一过程中丢失。(类比所有的模拟信号转化为数字信号都存在这样的问题。)
短文本是社交网络中更加流行的文本形式,特点在于长度短、特征稀疏、实时性强,在舆论监控、热点追踪上可以挖掘出更多有用的信息。短文本由于其特征稀疏、语义依赖强、不遵循语法等特点难以直接应用已有长文本处理技术进行分析。

文本分析主要分析方向为文本的特征提取、分类、相似度分析和情感分析等。其研究方法可以主要分为两种,基于句法-语义规则的理性方法、统计数学方法。

基于以上背景,短文本理解通常可以按显性分析和隐性分析两个角度进行划分:

显性分析方法是从人的角度解释性强的解释方法,包括词义、词性、句法、语义等。这种方法需要有知识库进行匹配。词汇角度的分析上,已有的研究包括WordNet、Hownet、哈工大同义词词林等;ESA算法构建一个词与文本的共现矩阵,词向量的每一个维度代表一个明确的知识库文本,如Wikipedia文章或标题。句法角度的分析,已有研究包括哈工大LTP平台,Stanford Parser,Berkeley Parser,并通常与词汇分析共同使用。

隐性分析方法是将文本转化为向量表示,从统计规律上弥补因文本数字化导致的语义缺失,使计算机理解文本,而少注重可解释性。
LSA的核心是在相同语境下出现的词具有较高的语义相关性,其构建一个词语文本的共现矩阵,矩阵每项通常是经过平滑或转化的共现次数,再通过SVD方法将原始矩阵降维。HAL构建词与词的共现矩阵,每个维度代表一个语境词,统计目标词汇与语境词汇的共现次数。LSA和HAL方法中的向量维度是难以从人的角度进行解释的。

可以在一定程度进行解释的算法称为半隐性分析方法,同样是用向量对词语和文本进行表示,但是在二者之间可以使用“主题”对向量维度进行理解。这一类的代表算法是LDA(Latent Dirichlet Allocation),算法结果为得到两个概率矩阵,维度分别为文本-主题的概率分布矩阵和主题-词的概率分布矩阵。

下图对上述算法的共现矩阵关系进行总结:

(此部分来自参考论文 王仲远,程健鹏,王海勋等. 短文本理解研究. 计算机研究与发展. 53(2). 2016,2:262-269.)

除了上述方法,更直接的方法可以利用现有工具将文本、词汇直接转为向量,利用聚类、距离计算等方法进行分析。

相似性的计算只需在以上模型的基础上进一步进行向量距离的度量、聚类等即可实现。


以上。欢迎各路大神指点。

转载于:https://www.cnblogs.com/kinzznsblog/p/8780239.html

借助LDA主题分析的短文本相似性计算 - 综述帖相关推荐

  1. lda主题模型python实现篇_基于LDA主题模型的短文本分类

    VSM(向量空间模型)是信息检索领域最为经典的分析模型之一,采用VSM对短文本进行建模,即将每一篇短文本表示为向量的形式,用TF-TDF表示向量的值.给出一些符号定义:短文本集SD= {sd1,sd2 ...

  2. python LDA主题分析

    全部数据及源码:自然语言处理+情感分析+主题分析+词云图-自然语言处理文档类资源-CSDN下载 1.评论数据 首先基于python抓取了评论数据,并存储与csv文件中,打开文件,去除重复的评论 2.机 ...

  3. python人物关系可视化百年孤独_百年孤独LDA主题分析

    本文针对百年孤独小说评论的主题分析 词云图 代码: install.packages("jiebaRD") install.packages("jiebaR") ...

  4. lda php,LDA主题分析代码实现

    主题文本分析: 首先读取txt文本,并删除stop_list中存放的停止词汇 f = open('..\\LDA_test.txt') texts = [[word for word in line. ...

  5. Python爬取新型冠状病毒新闻进行LDA主题分析-从概率的角度去看文学

    一.主题介绍 使用 Python 爬取冠状病毒新闻 使用 jieba 分词进行词频分析 使用 LDA 主题模型提取新闻话题 通过词频分析绘制词云图 二.爬取新闻数据 目标网站:人民新闻网 导入我们需要 ...

  6. 【项目实战】Python实现基于LDA主题模型进行电商产品评论数据情感分析

    说明:这是一个机器学习.数据挖掘实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取. 视频: Python实现基于LDA模型进行电商产品评论数据情感分析 ...

  7. LDA主题模型简介及Python实现

    一.LDA主题模型简介 LDA主题模型主要用于推测文档的主题分布,可以将文档集中每篇文档的主题以概率分布的形式给出根据主题进行主题聚类或文本分类. LDA主题模型不关心文档中单词的顺序,通常使用词袋特 ...

  8. LDA主题模型的原理及使用教程

    这是一个NLP参赛项目的主题分析环节的代码,总体的工程代码已经上传至github,可以直接下载使用. https://github.com/stay-leave/weibo-public-opinio ...

  9. 微博评论内容的Chatgpt 话题聚焦和情感分析 情感分析LDA主题可视化多元线性回归

    为了分析热点话题背后演化的逻辑,本项目选取了掀起大范围讨论的OpenAI发布的语言训练模型"ChatGPT"作为研究对象.通过对微博.豆瓣.知乎等社交平台进行考察分析,微博以活跃用 ...

最新文章

  1. 37 windows_37_Thread_InterLock 线程-原子锁
  2. Ubuntu Server下配置UTF-8中文/英文环境
  3. sql中的text字段如何导入oracle
  4. 【MM配置】Pricing 采购定价过程总览
  5. 5,6,7_InfluxDB数据保留策略,InfluxDB的关键概念,带有时区进行查询示例
  6. JSON JsonArray和JsonObject学习资料
  7. Unity2017.1官方UGUI文档翻译——Visual Components
  8. java 二进制反码_Java学习第五篇:二进制(原码 反码 补码),位运算,移位运算,约瑟夫问题...
  9. D. Bananas in a Microwave
  10. 日日行,不怕千万里;常常做,不怕千万事
  11. C++之指针探究(九):结构体指针
  12. php 发帖代码,我的论坛源代码(四)_php
  13. 无人驾驶之入门(开篇)
  14. 后端小白的VUE入门笔记, 前端高能慎入
  15. php视频转发,蓝叶分享好看视频地址解析php代码
  16. 2022下半年软件设计师资源分享
  17. mtk处理器和骁龙对比_3500元以内手机的绝杀?首款MTK 天玑1000处理器手机IQOO Z发布...
  18. C语言time.h中clock()函数的使用
  19. CAR-T疗法新突破
  20. 健身中心健身管理系统的设计与实现(源码+数据脚本+论文+技术文档)

热门文章

  1. php文件开放下载安全,php实现文件安全下载
  2. JAVA实现inotify一样的功能_哪些操作系统支持在Java中查看本机(类似inotify)文件
  3. Android自定义控件系列
  4. 上古卷轴5python_基于Python-Flask的权限管理5:字典管理
  5. python 人气高的项目_给大家推荐:五个Python小项目,Github上的人气很高的
  6. python怎么建文件dome_Python专题(四) 如何制作一个demo给老板看
  7. mysql to double_MySQL令人咋舌的隐式转换 - 惊觉...
  8. 现在计算机学什么好找工作吗,计算机专业都学什么 毕业好找工作吗
  9. include详解 shell_Linux 系统结构详解,看这一篇就够了
  10. linux双系统 删一个,双系统删除linux