自己梳理一遍论文,作学习用。

基本信息

作者:殷复莲 张晓宇 冯晴(中国传媒大学信息工程学院)

摘要:针对互联网,尤其是微博平台中大学生用户产生的海量的文本分类问题,应用贝叶斯网络分类器对微博评论进行分类【方法】。基于贝叶斯通过先验概率和似然度,求出后验概率的原理,采用针对具体时间选择不同的训练集和调整特征词库的方法,得到大学生对热点事件关注相较于整体网民更加理性,冷静的结论【结论】,对研究大学生心理健康问题以及大学生舆情有着积极的效果【目的作用】。

专业词汇

先验概率:根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率。通俗讲,这个概率是统计得到的,或者你自身依据经验给出的一个概率值,我们称其为先验概率(prior probability)。

后验概率 :一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。“后验”在本文中代表考虑了被测试事件的相关证据。

似然度:似然度是给定概率下对观察对象的预测,比如抛硬币。给定硬币朝上概率p为0.5的情况下,抛5次看到3次朝上的可能。

训练集:在机器学习中,一般将样本分成独立的三部分训练集(trainset),验证集(validationset)和测试集(testset)。其中,训练集用于建立模型。

文本分类:将大量文本划分为一个或一组类别,使得每个类别代表不同的概念或主题。文本分类又是模式分类和自然语言处理的一个交叉学科,是和文档的语义紧密相关的。它可以抽取数据特征,对传统研究中难以量化的时间趋势这一社会内容,进行计算和分析,并基于分析结果建立分类趋势模型,与其他相应模型进行对比比较,用以预测某一事件的未来趋势,或为未来相似类型实践做预判。例如本文,应用贝叶斯分类器法,将微博上的全体用户和大学生用户对某一时间的微博评论,分别进行文本分类,并将大学生的模型与全体网民的模型进行比较,对教育机构研究大学生心理健康问题以及大学生舆情分析问题有积极作用。

使用方法

一、建立训练集

训练文档,应该是公认的经人工分类的语料库。应该能够广泛地代表分类系统所要处理的测试集中的文档。本为在建立训练集时,采用针对特定研究对象手动建立训练集的方法。具体表现为,从待研究的话题中,随机抽取若干数量的所有评论以及若干数量的大学生评论,对这些评论做人工分类,将其结果作为该话题的训练集。贝叶斯分类法,对训练集的准确性依赖较大,且处理缺失值时,困难,所以训练集的选择和对接下来的文本分析十分重要。本文主要研究二元分类,即“正面的和负面的”“支持的和反对的”这类问题。

缺点:1、费时,需要手动标注一定数量的文本  2、在某个主题上训练得到的分类器,应用到另一个主题,会导致较差的分类效果  3、标注文本的数量和质量对分类效果也会有较大影响

二、文本分类

目前国内比较权威的汉语分词系统所采用的分词方法:基于字典匹配的分词法、基于语料统计 的分词法、语义分词法。本文采用基于字符串匹配与词图扫描的分词方法,进行文本分词。交互信息以及次要信息在预处理阶段清理,只留下纯文本进行分词处理。分词后,删除“是”“哈哈”这些使用频度高,实际表征意义极小的停用词。针对大学生群体,注意区别某些词与传统含义不同。

三、建立特征词库

建立特征词库,目的是建立先验概率。特征词库的建立应该尽可能精确地选择与研究主题概念密切相关的文本。并且要根据特定事件,分析特殊词语有无特别的分类意义。

文本分类方法:

构造分类器的方法常见的有,决策树,逻辑回归,支持向量机,贝叶斯网络,神经网络等算法。

贝叶斯网络:第一阶段,贝叶斯网络分类器的学习,从样本数据构造分类器。第二阶段,贝叶斯网络分类器的推理,计算类节点的条件概率,对待分类数据进行分类。

一、贝叶斯公式

二、极大后验假设

学习器需要寻找给定特定实例集A(得到的评论特征值)可能性最大的假设B(文本分类的结果)。这种具有最大可能性的假设,被称为,极大后验假设。(简记为b,b=argmaxP(B|A))

应用贝叶斯公式得到:

以本文研究的文本分类问题中,“贾玲被要求道歉”事件中一个简单情况为例。在 7 月
12 日的全部文本中,有 56%的文本分类为“要求道歉”,其中“要求道歉”中出现“文化”
一词的概率为 1.7%,“要求不道歉”中出现“文化”一词的概率为 0.5%。应用公式,有:

实验及结果分析:

该事件前后评论文本内容高度统一,没有重大改变舆论导向事件。该事件不同时间的文本分类可以使用相同的训练集。从每天不同的用户属性的评论中分别随机抽出100条评论,总计各500条作训练文档。“不应该道歉”作为“1”,“应该道歉”作为“2”,没有感情的标注“0”,手动标注500条。将该训练文本作为训练集,生成特征词库。

画出走势图。画出词云图,用以观察词频特性。

总结:

研究了贝叶斯文本分类方法的原理,对贝叶斯分类法的应用做了实验分析,采用针对具体时间选择不同的训练集和调整特征词库的方法,得到结论:大学生对热点事件关注相较于整体网民更理性,冷静,中立的结论。

【论文学习】基于贝叶斯分类的大学生关注热点事件微博文本分类方法研究——殷复莲 张晓宇 冯晴相关推荐

  1. 论文笔记——基于多传感器融合的即时定位与地图构建方法研究

    1.多传感器融合SLAM不完全分类: 视觉和IMU融合VIO: 基于滤波的VIO:采用EKF进行视觉信息和IMU数据进行数据融合.预测和更新.经典算法:MSCKF.ROVIO 基于优化的VIO:对视觉 ...

  2. 基于Keras预训练词向量模型的文本分类方法

    本文语料仍然是上篇所用的搜狗新闻语料,采用中文预训练词向量模型对词进行向量表示.上篇文章将文本分词之后,采用了TF-IDF的特征提取方式对文本进行向量化表示,所产生的文本表示矩阵是一个稀疏矩阵,本篇采 ...

  3. 五年12篇顶会论文综述!一文读懂深度学习文本分类方法

    作者 | 何从庆 来源 | AI算法之心(ID:AIHeartForYou) 最近有很多小伙伴想了解深度学习在文本分类的发展,因此,笔者整理最近几年比较经典的深度文本分类方法,希望帮助小伙伴们了解深度 ...

  4. 基于深度神经网络的高光谱影响分类方法研究---MNF+自动编码器+Softmax (准确率比较低,17年的论文)

    论文地址 基于深度神经网络的高光谱影响分类方法研究 装备学院学报 遥感影像分类的问题:预处理复杂,高维特征提取困难,分类不够精确等缺陷 首先采用最大噪声分数来降低特征空间维度,然后将自动编码器与sof ...

  5. 基于逻辑回归,支持向量机,朴素贝叶斯以及简单深度学习文本分类方法(BiLSTM、CNN)实现的中文情感分析,含数据集可直接运行

    基于逻辑回归,支持向量机,朴素贝叶斯以及简单深度学习文本分类方法(BiLSTM.CNN)实现的中文情感分析,含数据集可直接运行 完整代码下载地址:中文情感分析 中文情感分析 本项目旨在通过一个中文情感 ...

  6. java 知网 语义 相似度,基于知网语义相似度的中文文本分类研究 论文笔记

    基于知网语义相似度的中文文本分类研究 1.传统的文本处理大部分是根据词频和逆向文档频率将文本表示成向量空间模型,实践证明这种模型确实简单高效并且得到了广泛应用,但这种模型表示缺乏对语义的理解,忽略了词 ...

  7. 朴素贝叶斯网络matlab实现_基于朴素贝叶斯的文本分类方法实战

    基于朴素贝叶斯的文本分类方法 一.朴素贝叶斯原理的介绍 二.朴素贝叶斯分类器的代码实现 分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时会给出这个猜测的概率估计值.朴素贝叶 ...

  8. 基于朴素贝叶斯和LSTM的两种新闻文本分类方法

    新闻文本分类 文章目录 新闻文本分类 一.项目背景 二.数据处理与分析 三.基于机器学习的文本分类--朴素贝叶斯 1. 模型介绍 2. 代码结构 3. 结果分析 四.基于深度学习的文本分类--LSTM ...

  9. NLP微博文本分类【Snorkel弱监督+ULMFiT迁移学习】

    本文是作者一个tweet/微博文本分类实战项目的全程重现与总结.该项目的最大特点是使用了弱监督技术(Snorkel)来获得海量标注数据,同时使用预训练语言模型进行迁移学习. 项目的主要步骤如下: 采集 ...

最新文章

  1. nginx 缓存时间说明
  2. 文计笔记 3: 软件系统
  3. ADO.NET- 基础总结及实例
  4. 什么是端到端训练测试_为什么端到端测试对您的团队很重要
  5. Kafka系列之-Kafka监控工具KafkaOffsetMonitor配置及使用
  6. 如何形象的解释javascript中map,foreach,reduce的区别
  7. ssas 分区 设置_如何在Analysis Services多维中对SSAS多维数据集进行分区
  8. 多个蓝牙缺陷可使攻击者假冒合法设备
  9. 六年级计算机教学进度计划,六年级下册信息技术教学计划及进度计划
  10. CSS Sprite(CSS雪碧图)
  11. 【fiddler手机抓包不能上网问题解决】
  12. 前端装逼必备--Canvas
  13. nginx+fastdfs 502异常解决
  14. 关于微信小程序获取小程序码并接受buffer流保存为图片
  15. 连续变量的全概率和贝叶斯公式_条件概率、全概率公式与贝叶斯公式
  16. contiki学习笔记(三)contiki系统
  17. 成都拓嘉启远:如何全面看待拼多多百亿补贴
  18. 最新 955 互联网公司白名单来了!
  19. 新道格XDG1400磁敏测速传感器的详细介绍
  20. 网吧服务器点歌系统,网吧点歌系统_网吧语音大师_蓝宝石语音_网吧点歌系统_蓝宝石呼叫网管_hylbs.com...

热门文章

  1. code函数oracle列子,Oracle内置函数SQLCODE和SQLERRM的使用
  2. 玩转ChatGPT:论文辅助写作(附Claude测评)
  3. 传奇装备穿戴位置查询脚本,使用GetUserItemName
  4. dhs手术是什么意思_DHS和PFNA内固定术治疗股骨近端骨折分析
  5. 3D月光宝盒游戏机模拟器方案源码项目解析(1)
  6. 计算机 金融硕士排名,“年薪20万”大学专业排名出炉,人工智能蝉联榜首,金融无缘前五...
  7. Android Drawable Resource学习(五)、StateListDrawable
  8. linux制作大容量磁盘,Linux对超大容量磁盘进行分区
  9. 统计物料A与B同时出现的概率,Apriori算法,关联性分析
  10. 双色球模拟程序 python_python 之双色球预测