python中文文本分析_基于CNN的中文文本分类算法(可应用于垃圾邮件过滤、情感分析等场景)...
基于cnn的中文文本分类算法
简介
参考IMPLEMENTING A CNN FOR TEXT CLASSIFICATION IN TENSORFLOW实现的一个简单的卷积神经网络,用于中文文本分类任务(此项目使用的数据集是中文垃圾邮件识别任务的数据集),数据集下载地址:百度网盘
区别
原博客实现的cnn用于英文文本分类,没有使用word2vec来获取单词的向量表达,而是在网络中添加了embedding层来来获取向量。
而此项目则是利用word2vec先获取中文测试数据集中各个字的向量表达,再输入卷积网络进行分类。
运行方法
训练
run python train.py to train the cnn with the spam and ham files (only support chinese!) (change the config filepath in FLAGS to your own)
在tensorboard上查看summaries
run tensorboard --logdir /{PATH_TO_CODE}/runs/{TIME_DIR}/summaries/ to view summaries in web view
测试、分类
run python eval.py --checkpoint_dir /{PATH_TO_CODE/runs/{TIME_DIR}/checkpoints}
如果需要分类自己提供的文件,请更改相关输入参数
如果需要测试准确率,需要指定对应的标签文件(input_label_file):
python eval.py --input_label_file /PATH_TO_INPUT_LABEL_FILE
说明:input_label_file中的每一行是0或1,需要与input_text_file中的每一行对应。
在eval.py中,如果有这个对照标签文件input_label_file,则会输出预测的准确率
推荐运行环境
python 2.7.13 :: Anaconda 4.3.1 (64-bit)
tensorflow 1.0.0
gensim 1.0.1
Ubuntu16.04 64bit
说明
若按照以上步骤无法正常运行程序,请在Issues或在博客中提问,我会尽快回复。
python中文文本分析_基于CNN的中文文本分类算法(可应用于垃圾邮件过滤、情感分析等场景)...相关推荐
- 【机器学习】贝叶斯算法详解 + 公式推导 + 垃圾邮件过滤实战 + Python代码实现
文章目录 一.贝叶斯简介 二.贝叶斯公式推导 三.拼写纠正案例 四.垃圾邮件过滤案例 4.1 问题描述 4.2 朴素贝叶斯引入 五.基于朴素贝叶斯的垃圾邮件过滤实战 5.1 导入相关库 5.2 邮件数 ...
- python中文相似度_基于TF-IDF、余弦相似度算法实现文本相似度算法的Python应用
基于TF-IDF算法.余弦相似度算法实现相似文本推荐--文本相似度算法,主要应用于文本聚类.相似文本推荐等场景. 设计说明 使用jieba切词,设置自定义字典 使用TF-IDF算法,找出文章的关键词: ...
- 基于cnn的图像二分类算法(一)
本算法是基于tensorflow,使用python语言进行的一种图像分类算法,参考于谷歌的mnist手写识别,包括以下几个模块:图像读取,图像处理,图像增强.卷积神经网络部分包括:卷积层1,汇合层1( ...
- 论题:基于机器学习的垃圾邮件过滤系统
目录 摘要 1.引言 2.相关工作 3.数据集与特征提取 4.机器学习模型的设计与选择 5.模型优化与融合策略 6.系统实现与应用 7.结论 本文为论题:基于机器学习的垃圾邮件过滤系统的撰写思路. 摘 ...
- python微博文本分析_基于Python的微博情感分析系统设计
基于 Python 的微博情感分析系统设计 王欣 ; 周文龙 [期刊名称] < <信息与电脑> > [年 ( 卷 ), 期] 2019(000)006 [摘要] 微博是当今公众 ...
- 基于 CNN 的中文对话情感分析
1 基于 CNN 的中文对话情感分析:https://www.jianshu.com/p/87ca0616f1a4 2 清华 ACL 2020 长文 | KdConv:多领域知识驱动的中文多轮对话数据 ...
- 自然语言处理文本分析_通过自然语言处理释放文本分析的力量
自然语言处理文本分析 深度学习 , 自然语言处理 (Deep Learning, Natural Language Processing) Natural language is a language ...
- python:基于朴素贝叶斯算法的垃圾邮件过滤分类
目录 一.朴素贝叶斯算法 1.概述 2.推导过程 二.实现垃圾邮件过滤分类 1.垃圾邮件问题背景 2.朴素贝叶斯算法实现垃圾邮件分类的步骤 3.python实现 参考学习网址:https://blog ...
- 论文研读笔记_基于优化的SVM心音信号分类算法的研究
论文研究_基于优化的SVM心音信号分类算法的研究 先存起来,持续更新 摘要 心音信号采集易混入杂音,影响判断: 经验式模态分解算法分析特征分布:心音信号集中于低频.噪音集中于高频: 利用切比雪夫滤波器 ...
最新文章
- TensorFlow数据归一化
- 修改开发环境、工程、文件的字符集
- 一秒等于多少毫秒_使用kibana对电影一秒钟影评数据测试,详述配图演示如何使用收藏了...
- gradle 构建完成自动删除_Gradle 6.6 RC6 发布,引入配置缓存特性,大幅提升构建性能
- 动图处理_100+动图带你看懂百大加工工艺(成型、表面处理、链接、切割)
- [LeetCode]:116:Populating Next Right Pointers in Each Node
- routerOS限速限流量
- Hls之Hls.js源码解析
- 一些不好理解的名词解释
- java 压缩二进制流_在java中压缩二进制数据
- 【微信小程序】【云开发】【从零开发】【零成本】翻译小程序 —《阿怼翻译》0.0.1版本(有教程视频和源码)
- HTML|按钮和多选框
- 【技能】excel小技巧:利用宏制作工资条
- 人工智能——深度学习
- 金士顿2G U盘 3S6677 量产工具
- 数据分析十年来电影票房数据
- 常见ABO血型遗传规律表
- [每日短篇] 5 - Sublime Text 的正则表达式 Capturing Group
- python和c 情侣网名_带符号的qq情侣网名 好听的情侣网名大全
- 预测不了世界杯比分,就预测百威啤酒销量,送数据竞赛冠军笔记
热门文章
- HTML5实现一个时钟动画,javascript实现时钟动画
- 全球及中国滚球粘度计行业发展动态及投资规划分析报告2022-2028年
- 安全不安全002:C#实现RSA算法加密解密
- [转]VR原理讲解及开发入门
- 威海升安海运公司疑伪造“任命书” 退休职工变“高管”遭巨额索赔
- postgresql截取字段的值
- 关于电化学传感器 + 趋肤效应
- 使用(VAE)生成建模,理解可变自动编码器背后的数学原理
- 要用什么软件才可以打开cdr格式文件
- 快速掌握Web高德地图开发