本文内容:

  • 使用朴素贝叶斯对电影评论分类
    • 1.数据集讲解:
    • 2.具体实现:
    • 3.实验结果:
  • 实验总结
  • 代码地址

使用朴素贝叶斯对电影评论分类

1.数据集讲解:

​ 该数据集是IMDB电影数据集的一个子集,已经划分好了测试集和训练集,训练集包括25000条电影评论,测试集也有25000条,该数据集已经经过预处理,将每条评论的具体单词序列转化为词库里的整数序列,其中每个整数代表该单词在词库里的位置。例如,整数104代表该单词是词库的第104个单词。为实验简单,词库仅仅保留了10000个最常出现的单词,低频词汇被舍弃。每条评论都具有一个标签,0表示为负面评论,1表示为正面评论。

​ 训练数据在train_data.txt文件下,每一行为一条评论,训练集标签在train_labels.txt文件下,每一行为一条评论的标签;测试数据在test_data.txt文件下,测试数据标签未给出。

2.具体实现:

  1. 取出数据集:

    从txt中取出训练集与测试集:

    with open("test/test_data.txt", "rb") as fr:test_data_n = [inst.decode().strip().split(' ') for inst in fr.readlines()]test_data = [[int(element) for element in line] for line in test_data_n]test_data = np.array(test_data)
    
  2. 数据处理:

    对每条评论,先将其解码为英文单词,再键值颠倒,将整数索引映射为单词。

    把整数序列编码为二进制序列。

    最后把训练集标签向量化。

    # 将某条评论解码为英文单词word_index = imdb.get_word_index() # word_index是一个将单词映射为整数索引的字典reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])# 键值颠倒,将整数索引映射为单词decode_review = ' '.join([reverse_word_index.get(i - 3, '?') for i in train_data[0]]) \# 将评论解码\# 注意,索引减去了3,因为0,1,2是为padding填充\# "start sequence"序列开始,"unknow"未知词分别保留的索引\# 将整数序列编码为二进制矩阵def vectorize_sequences(sequences, dimension=10000):results = np.zeros((len(sequences), dimension)) # 创建一个形状为(len(sequences), dimension)的矩阵for i, sequence in enumerate(sequences):results[i, sequence] = 1 # 将results[i]的指定索引设为 1return resultsx_train = vectorize_sequences(train_data)x_test = vectorize_sequences(test_data)\# 标签向量化y_train = np.asarray(train_labels).astype('float32')
    
  3. 建立模型:

    可选多项式模型或者伯努利模型。

    二者的计算粒度不一样,多项式模型以单词为粒度,伯努利模型以文件为粒度,因此二者的先验概率和类条件概率的计算方法都不同。
    计算后验概率时,对于一个文档d,多项式模型中,只有在d中出现过的单词,才会参与后验概率计算,伯努利模型中,没有在d中出现,但是在全局单词表中出现的单词,也会参与计算,不过是作为“反方”参与的。
    当训练集文档较短,也就说不太会出现很多重复词的时候,多项式和伯努利模型公式的分子相等,多项式分母值大于伯努利分子值,因此多项式的似然估计值会小于伯努利的似然估计值。
    所以,当训练集文本较短时,我们更倾向于使用伯努利模型。而文本较长时,我们更倾向于多项式模型,因为,在一篇文档中的高频词,会使该词的似然概率值相对较大。

    使用拉普拉斯平滑

    alpha:先验平滑因子,默认等于1,当等于1时表示拉普拉斯平滑。

    # model = MultinomialNB()
    model = BernoulliNB()
    model.fit(X_train, y_train)
    
  4. 输出测试集上的预测结果:

    将结果写入txt

    # model evaluation
    print("model accuracy is " + str(accuracy_score(y_test, y_pred)))
    print("model precision is " + str(precision_score(y_test, y_pred, average='macro')))
    print("model recall is " + str(recall_score(y_test, y_pred, average='macro')))
    print("model f1_score is " + str(f1_score(y_test, y_pred, average='macro')))des = y_pred_local.astype(int)
    np.savetxt('Text3_result.txt', des, fmt='%d', delimiter='\n')
    

3.实验结果:

使用多项式模型:

使用伯努利模型:

在该场景下,两者差别不大。

实验总结

  1. 贝叶斯概率及贝叶斯 准则提供了一种利用已知值来估计位置概率的有效方法;
  2. 朴素贝叶斯假设数据特征之间相互独立,虽然该假设在一般情况下并不严格成立,但使用朴素贝叶斯进行分类,仍然可以取得很好的效果;
  3. 贝叶斯网络的优点:在数据较少的情况下仍然有效,可以处理多类别问题;
  4. 贝叶斯网络的缺点:对输入数据的准备方式较为敏感。
  5. 拉普拉斯平滑对于改善朴素贝叶斯分类器的分类效果有着积极的作用。

代码地址

代码地址点这里

使用朴素贝叶斯对电影评论分类相关推荐

  1. 从爬取豆瓣影评到基于朴素贝叶斯的电影评论情感分析(下)

    基于朴素贝叶斯的电影评论情感分析 用到的包:pandas.jieba(分词工具) file=open(r"review.txt",'r',encoding='utf-8') rev ...

  2. 朴素贝叶斯情感分析评分python_「豆瓣影评」从爬取豆瓣影评到基于朴素贝叶斯的电影评论情感分析(上) - seo实验室...

    豆瓣影评 一.爬取豆瓣影评 基本思路:先获取每个电影的评论区链接,然后依次进入其评论区爬取评论.选取10部电影,每部200条评论. 用到的包为:BeautifulSoup,urllib 这里选取的链接 ...

  3. 从爬取豆瓣影评到基于朴素贝叶斯的电影评论情感分析(上)

    一.爬取豆瓣影评 基本思路:先获取每个电影的评论区链接,然后依次进入其评论区爬取评论.选取10部电影,每部200条评论. 用到的包为:BeautifulSoup,urllib 这里选取的链接为:豆瓣电 ...

  4. Python实现基于朴素贝叶斯的垃圾邮件分类 标签: python朴素贝叶斯垃圾邮件分类 2016-04-20 15:09 2750人阅读 评论(1) 收藏 举报 分类: 机器学习(19) 听说

    Python实现基于朴素贝叶斯的垃圾邮件分类 标签: python朴素贝叶斯垃圾邮件分类 2016-04-20 15:09 2750人阅读 评论(1) 收藏 举报  分类: 机器学习(19)  听说朴 ...

  5. 朴素贝叶斯(西瓜数据集分类,社区恶意留言分类,垃圾邮件分类,新浪新闻分类),AODE分类器 代码实现

    朴素贝叶斯(西瓜数据集分类,社区恶意留言分类,垃圾邮件分类,新浪新闻分类),AODE分类器 代码实现 以下代码为本人学习后,修改或补充后的代码实现,数据集和原代码请参考:https://github. ...

  6. 朴素贝叶斯网络进行邮件分类

    朴素贝叶斯网络进行邮件分类 将以前做的邮件分类做个总结! 总体框架 下面我们将通过以下几个步骤,编写一个现实可用的垃圾邮件过滤器: 准备邮件数据: 创建词汇表: 特征提取: 训练模型: 模型验证: 使 ...

  7. 朴素贝叶斯进行新闻主题分类,有代码和数据,可以跑通

    folder_path = '/Users/apple/Documents/七月在线/NLP/第2课/Lecture_2/Naive-Bayes-Text-Classifier/Database/So ...

  8. 机器学习--使用朴素贝叶斯进行垃圾邮件分类

    一.学习背景 垃圾邮件的问题一直困扰着人们,传统的垃圾邮件分类的方法主要有"关键词法"和"校验码法"等,然而这两种方法效果并不理想.其中,如果使用的是" ...

  9. 朴素贝叶斯法 - 垃圾邮件分类

    本文基于朴素贝叶斯构建一个分类垃圾邮件的模型,研究对象是英文的垃圾邮件. 邮件内容保存在txt文件中,其中分为训练样本train和测试样本test. 在训练样本中正常邮件命名为:pos:垃圾邮件命名为 ...

最新文章

  1. 【转】实战 SSH 端口转发
  2. CSS之position
  3. typeScript模块四
  4. SSH putty Disconnected: Server protocol violation: unexpected SSH2_MSG_UNIMPLEMENTED packet
  5. 【guava】大数据量下的集合过滤—Bloom Filter
  6. 初识EntityFramework6【转】
  7. linux 指针什么意思,在linux中获取指向结构设备指针的更简洁方法是什么?
  8. WPF 动画执行后属性无法修改
  9. Hadoop IO操作之SequenceFile 和 MapFile
  10. Cordova android框架详解
  11. 怎么去掉字符串最后一个逗号
  12. java分布式应用设计核心技术
  13. 从零学光学设计 zemax中的三种优化
  14. 计算机组装拆卸 心得,学习组装电脑的心得体会怎么写?
  15. 腾讯精选50题—Day6题目43,46,53
  16. MySQL外键约束(FOREIGN KEY)是什么?
  17. 计算机切换用户神魔意思,快速切换用户是什么意思?
  18. android7.1 rtc,RK3288 Android7.1 RTC-pcf8563调试 待机唤醒
  19. 如何成为一个漏洞赏金猎人
  20. Star ccm+ 算例演示

热门文章

  1. vite:配置ip访问
  2. Conmi的正确答案——米家定时模块的使用以及showOnTimerType、showOffTimerType、showPeriodTimerType、identify的陷阱
  3. 计算机u盘设备无法启动不了,系统提示“该设备无法启动(代码:10)”,USB设备不能开始工作怎么办?...
  4. KanziStudio应用程序配置详解
  5. 评分的游戏:Uber是如何将乘客变成可怕的boss的?
  6. Python必会的12道面试题,看看你会几题?
  7. WireShark的过滤语法
  8. 车载以太网转换器 100/1000BASE-T1 转换器
  9. 法拉科机器人接头_【发那科】图解FANUC机器人I/O信号板
  10. 星宸科技SSD202D芯片+无线投屏协议在摩托车智能仪表,电动车智能仪表批量出货。