基于cnn的中文文本分类算法

简介

参考IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW实现的一个简单的卷积神经网络,用于中文文本分类任务(此项目使用的数据集是中文垃圾邮件识别任务的数据集),数据集下载地址:百度网盘

区别

原博客实现的cnn用于英文文本分类,没有使用word2vec来获取单词的向量表达,而是在网络中添加了embedding层来来获取向量。

而此项目则是利用word2vec先获取中文测试数据集中各个字的向量表达,再输入卷积网络进行分类。

运行方法

训练

run python train.py to train the cnn with the spam and ham files (only support chinese!) (change the config filepath in FLAGS to your own)

在tensorboard上查看summaries

run tensorboard --logdir /{PATH_TO_CODE}/runs/{TIME_DIR}/summaries/ to view summaries in web view

测试、分类

run python eval.py --checkpoint_dir /{PATH_TO_CODE/runs/{TIME_DIR}/checkpoints}

如果需要分类自己提供的文件,请更改相关输入参数

如果需要测试准确率,需要指定对应的标签文件(input_label_file):

python eval.py --input_label_file /PATH_TO_INPUT_LABEL_FILE

说明:input_label_file中的每一行是0或1,需要与input_text_file中的每一行对应。

在eval.py中,如果有这个对照标签文件input_label_file,则会输出预测的准确率

推荐运行环境

python 2.7.13 :: Anaconda 4.3.1 (64-bit)

tensorflow 1.0.0

gensim 1.0.1

Ubuntu16.04 64bit

说明

若按照以上步骤无法正常运行程序,请在Issues或在博客中提问,我会尽快回复。

python中文文本分析_基于CNN的中文文本分类算法(可应用于垃圾邮件过滤、情感分析等场景)...相关推荐

  1. 【机器学习】贝叶斯算法详解 + 公式推导 + 垃圾邮件过滤实战 + Python代码实现

    文章目录 一.贝叶斯简介 二.贝叶斯公式推导 三.拼写纠正案例 四.垃圾邮件过滤案例 4.1 问题描述 4.2 朴素贝叶斯引入 五.基于朴素贝叶斯的垃圾邮件过滤实战 5.1 导入相关库 5.2 邮件数 ...

  2. python中文相似度_基于TF-IDF、余弦相似度算法实现文本相似度算法的Python应用

    基于TF-IDF算法.余弦相似度算法实现相似文本推荐--文本相似度算法,主要应用于文本聚类.相似文本推荐等场景. 设计说明 使用jieba切词,设置自定义字典 使用TF-IDF算法,找出文章的关键词: ...

  3. 基于cnn的图像二分类算法(一)

    本算法是基于tensorflow,使用python语言进行的一种图像分类算法,参考于谷歌的mnist手写识别,包括以下几个模块:图像读取,图像处理,图像增强.卷积神经网络部分包括:卷积层1,汇合层1( ...

  4. 论题:基于机器学习的垃圾邮件过滤系统

    目录 摘要 1.引言 2.相关工作 3.数据集与特征提取 4.机器学习模型的设计与选择 5.模型优化与融合策略 6.系统实现与应用 7.结论 本文为论题:基于机器学习的垃圾邮件过滤系统的撰写思路. 摘 ...

  5. python微博文本分析_基于Python的微博情感分析系统设计

    基于 Python 的微博情感分析系统设计 王欣 ; 周文龙 [期刊名称] < <信息与电脑> > [年 ( 卷 ), 期] 2019(000)006 [摘要] 微博是当今公众 ...

  6. 基于 CNN 的中文对话情感分析

    1 基于 CNN 的中文对话情感分析:https://www.jianshu.com/p/87ca0616f1a4 2 清华 ACL 2020 长文 | KdConv:多领域知识驱动的中文多轮对话数据 ...

  7. 自然语言处理文本分析_通过自然语言处理释放文本分析的力量

    自然语言处理文本分析 深度学习 , 自然语言处理 (Deep Learning, Natural Language Processing) Natural language is a language ...

  8. python:基于朴素贝叶斯算法的垃圾邮件过滤分类

    目录 一.朴素贝叶斯算法 1.概述 2.推导过程 二.实现垃圾邮件过滤分类 1.垃圾邮件问题背景 2.朴素贝叶斯算法实现垃圾邮件分类的步骤 3.python实现 参考学习网址:https://blog ...

  9. 论文研读笔记_基于优化的SVM心音信号分类算法的研究

    论文研究_基于优化的SVM心音信号分类算法的研究 先存起来,持续更新 摘要 心音信号采集易混入杂音,影响判断: 经验式模态分解算法分析特征分布:心音信号集中于低频.噪音集中于高频: 利用切比雪夫滤波器 ...

最新文章

  1. TensorFlow数据归一化
  2. 修改开发环境、工程、文件的字符集
  3. 一秒等于多少毫秒_使用kibana对电影一秒钟影评数据测试,详述配图演示如何使用收藏了...
  4. gradle 构建完成自动删除_Gradle 6.6 RC6 发布,引入配置缓存特性,大幅提升构建性能
  5. 动图处理_100+动图带你看懂百大加工工艺(成型、表面处理、链接、切割)
  6. [LeetCode]:116:Populating Next Right Pointers in Each Node
  7. routerOS限速限流量
  8. Hls之Hls.js源码解析
  9. 一些不好理解的名词解释
  10. java 压缩二进制流_在java中压缩二进制数据
  11. 【微信小程序】【云开发】【从零开发】【零成本】翻译小程序 —《阿怼翻译》0.0.1版本(有教程视频和源码)
  12. HTML|按钮和多选框
  13. 【技能】excel小技巧:利用宏制作工资条
  14. 人工智能——深度学习
  15. 金士顿2G U盘 3S6677 量产工具
  16. 数据分析十年来电影票房数据
  17. 常见ABO血型遗传规律表
  18. [每日短篇] 5 - Sublime Text 的正则表达式 Capturing Group
  19. python和c 情侣网名_带符号的qq情侣网名 好听的情侣网名大全
  20. 预测不了世界杯比分,就预测百威啤酒销量,送数据竞赛冠军笔记

热门文章

  1. HTML5实现一个时钟动画,javascript实现时钟动画
  2. 全球及中国滚球粘度计行业发展动态及投资规划分析报告2022-2028年
  3. 安全不安全002:C#实现RSA算法加密解密
  4. [转]VR原理讲解及开发入门
  5. 威海升安海运公司疑伪造“任命书” 退休职工变“高管”遭巨额索赔
  6. postgresql截取字段的值
  7. 关于电化学传感器 + 趋肤效应
  8. 使用(VAE)生成建模,理解可变自动编码器背后的数学原理
  9. 要用什么软件才可以打开cdr格式文件
  10. 快速掌握Web高德地图开发