一、新闻文本集 

其中 

通过TF-IDF排序 中的词(由大到小),选择其中的 t 个词作为关键字,是对应关键字的TF-IDF值。

二、神经网络语言模型

输入:该词的上下文中相邻的几个词向量(词袋模型)

输出:p(wi | context) ,该词的词向量。

通过神经网络语言模型,可以得到新闻词集合 W 中每个词  的词向量;也就是得到了关键字集合 中的每个关键字 的词向量  。

三、用模糊的K-means聚类关键字集合

说明:因为每个词可能对应多个文本,所以模糊的K-means是比较合适的算法。初始类别的选择是提高精确度的关键因素。我们能够从关键字集合 G 中选择一个标记的词集 B,每个标记的词代表一个关键字的类别,标记词集B的大小就是聚类的类别数,初始值,就是这些标记的词,用表示,标记词 的词向量。(其中的K值,是认为设定的,实验中需要设定不同的值,分析比较,选择最合理的一个K值)

模糊的K-means算法过程如下:

1. 对初始的类别 C1,C2,……CK,用上面的标记的词去表示类别中心,每个标记的词表示一个类别,同时设置一个迭代的次数。

2. 更新 的值,其中 表示词 i 属于类别 j 的概率,在每次迭代中,计算每个关键字属于每个类别的概率,根据下面的公式:

                       

其中的距离的计算公式,用的是余弦距离:

3. 根据每个关键字属于类别  的概率和关键字的词向量,计算该类别的中心。并作为该类别的代表向量:

                                 

其中的 

4. 如果迭代的次数没有超过第一步设置的值,跳到第2 步,重新执行2-4,否则,停止。

当迭代停止后,得到聚类的结果,其表示形式,每个类别表示一个集合   ,用语言表示就是关键字 ,属于类别  的概率是 。(文档集的每个关键字都以一定的概率属于每个类别。可能有的概率值为0)

四、基于关键字集的聚类结果的文本聚类

文档集的关键字聚类结果,是文本聚类的基础,根据下面的公式计算每个文档属于每个类别的概率,选择概率最大的类别作为,该文档所属的类别:

           

其中的 表示文本  属于类别 的概率,最后我们得到 ,其中  。

五、模型的评估方法

使用准去率和召回率,以及F-measure值,来评价模型

其中的 是类别 i 的文本数量;是应该属于类别 j 但是被分到类别 i 的文本数量。

基于神经网络语言模型的中文新闻文本聚类算法的优点:

1.该算法比其他算法(基于LDA)的运行时间快两倍多。

2.每个类别的关键字,能够很好的表示类比的一些属性。

3.适合于处理大规模的中文语料库。

文献:

A Text Clustering Approach of Chinese News Based on Neural Network Language Model

https://link.springer.com/article/10.1007%2Fs10766-014-0329-2

基于神经网络语言模型的中文新闻文本聚类算法相关推荐

  1. 基于BERT-PGN模型的中文新闻文本自动摘要生成——文本摘要生成(论文研读)

    基于BERT-PGN模型的中文新闻文本自动摘要生成(2020.07.08) 基于BERT-PGN模型的中文新闻文本自动摘要生成(2020.07.08) 摘要: 0 引言 相关研究 2 BERT-PGN ...

  2. 基于BERT-PGN模型的中文新闻文本自动摘要生成

    论文创新点 1.将BERT与指针生成网络(PGN)相结合,提出了一种面向中文新闻文本的生成式摘要模型,实现快速阅读: 2. 结合多维语义特征的BERT-PGN模型对摘要原文的理解更加充分,生成的摘要内 ...

  3. [Pytorch系列-61]:循环神经网络 - 中文新闻文本分类详解-3-CNN网络训练与评估代码详解

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...

  4. 中文新闻文本标题分类(基于飞桨、Text CNN)

    目录 一.设计方案概述 二.具体实现 三.结果及分析 四.总结 一.设计方案概述 主要网络模型设计: 设计所使用网络模型为TextCNN,由于其本身就适用于短中句子,在标题分类这一方面应该能发挥其优势 ...

  5. [Pytorch系列-60]:循环神经网络 - 中文新闻文本分类详解-2-LSTM网络训练与评估代码详解

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...

  6. 基于 LSTM-Attention 的中文新闻文本分类

    1.摘 要 经典的 LSTM 分类模型,一种是利用 LSTM 最后时刻的输出作为高一级的表示,而另一种是将所有时刻的LSTM 输出求平均作为高一级的表示.这两种表示都存在一定的缺陷,第一种缺失了前面的 ...

  7. Paddle2.0实现中文新闻文本标题分类

    Paddle2.0实现中文新闻文本标题分类 中文新闻文本标题分类Paddle2.0版本基线(非官方) 调优小建议 数据集地址 任务描述 数据说明 提交答案 代码思路说明 数据集解压 数据处理 数据读取 ...

  8. 深度学习实战3-文本卷积神经网络(TextCNN)新闻文本分类

    文章目录 一.前期工作 1. 设置GPU 2. 导入预处理词库类 二.导入预处理词库类 三.参数设定 四.创建模型 五.训练模型函数 六.测试模型函数 七.训练模型与预测 今天给大家带来一个简单的中文 ...

  9. 【文本分类】基于BERT预训练模型的灾害推文分类方法、基于BERT和RNN的新闻文本分类对比

    ·阅读摘要: 两篇论文,第一篇发表于<图学学报>,<图学学报>是核心期刊:第二篇发表于<北京印刷学院学报>,<北京印刷学院学报>没有任何标签. ·参考文 ...

最新文章

  1. head和tail命令详解
  2. ubuntu下eclipse中键盘失灵
  3. [每日电路图] 8、三轴加速度计LIS3DH电路图及功耗等指标
  4. 如何把本地项目上传到Github上面(详细版)
  5. Developer Tools
  6. ajax异步日历,用AJAX自定义日历(示例代码)
  7. 推荐算法工程师成长2:排序模块
  8. SAP OData batch request的并行处理实现原理
  9. linux之杀死某个应用或命令的一行终极命令
  10. 【漫画详解】用iframe障眼法,骗取用户点击
  11. 在安装project2010 64位时提示 “无法安装64位office,因为已有32位版本”解决方法
  12. openCVPracticalExercise学习笔记04
  13. ibm服务器硬盘谁生产,IBM硬盘-昔日的开山鼻祖为何家道中落?
  14. 系统架构之服务器架构图
  15. kindle刷机ttl_[原创]只需USB线对Kindle 3修砖的小白教程
  16. Windows系统批量创建文件夹的技巧
  17. 2017云栖大会Tech Insight亮点大剧透
  18. 交响曲、协奏曲、奏鸣曲
  19. oppo便签误删怎么办_OPPO手机便签删除了怎么恢复?有无需登录云端就可以恢复的备忘录软件吗...
  20. 【微信小程序】创建动态组件和引用的方法

热门文章

  1. Wannafly挑战赛26:B冥土追魂(模拟?贪心?暴力?)
  2. 2021年Android面试心得,已整理成文档
  3. 科普干货|漫谈鸿蒙LiteOS-M与HUAWEI LiteOS内核的几大不同
  4. 如何在 macOS 使用 AList + RCLONE 把网盘挂载到本地
  5. 解决:superset db upgrade时报错:ModuleNotFoundError: No module named ‘dataclasses‘
  6. Cleanmymac X2023Mac内存清理功能介绍指南
  7. 离开nbsp;果真如此轻易?
  8. 第四章:Linux常用命令(续)
  9. nas4free 安装mysql_Docker安装MySQL
  10. 如何学习新概念英语2