这篇文章发表于2016.04,作者还发表了一篇Text Unders tanding from Scratch的论文,有兴趣的可以去看看。

字符级的卷积网络是一个有效的方法。 模型如何很好地进行比较,这取决于许多因素,比如数据集的大小,文本是否是组织化的,以及对字母表的选择。

1:Character quantization

构建字母表,包含70种字符。

The alphabet used in all of our models consists of 70 characters, including 26 english letters, 10digits, 33 other characters and the new line character. The non-space characters are:

abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:’’’/\|_@#$%ˆ&*˜‘+-=<>()[]{}

2:Model Design

9 layers deep with 6 convolutionallayers and 3 fully-connected layers

因为字母表最大为70个,输入特征数都等于70,也就是行数,输入特征长度为1014.

The input have number of features equal to 70 due to our character quantization method, and the input feature length is 1014. It seems that 1014 characters could already capture most of the texts ofinterest. We also insert 2 dropout [10] modules in between the 3 fully-connected layers to regularize.They have dropout probability of 0.5. Table 1 lists the configurations for convolutional layers, andtable 2 lists the configurations for fully-connected (linear)

6个卷积层,每一层的最大最小特征长度,卷积核的个数,和是否接池化,卷积核都是用的大小为3和7的。

上面是作者给出的3个池化层的信息。

3:数据增强技术

通过对数据集的扩充能增强模型泛化性能减小模型的泛化误差,比如图像处理中经常要对图片进行缩放、平移、

旋转等操作不会改变图片整体本身的含义;语音识别中对语音的声调、语速、噪声也不会改变其结果,但是文本

处理中,随意改变字符顺序会改变原文的语义信息,所以其提出使用同义词替换技术对数据集进行处理。

同义词替换时需要处理的问题主要有

1:哪些词应当被替换。

2:应该是用哪个词来替换该词,其提出以一定概率方式进行随机旋转。

4:模型对比

在9个不同的数据集上进行对比实验。

作者分别与传统的机器学习模型和深度学习模型方法进行了对比。

Character-level Convolutional Networks for Text Classification之每日一篇相关推荐

  1. Very Deep Convolutional Networks for Text Classification之每日一篇

    源码:https://github.com/lethienhoa/Very-Deep-Convolutional-Networks-for-Natural-Language-Processing 一: ...

  2. Character-level Convolutional Networks for Text Classification

    论文总体结构 本文历史意义: 1.构建多个文本分类数据集,推动文本分类发展 2.提出CharTextCNN方法,由于只使用字符信息,所以可以用于多种语言中 一.Abstract(通过实验探究了字符级别 ...

  3. 【论文复现】Character-level Convolutional Networks for Text Classification

    写在前面 今天讨论的论文依然是文本分类主题的.Character-level Convolutional Networks for Text Classification这篇论文是在2016年4月份发 ...

  4. 论文阅读笔记:Graph Convolutional Networks for Text Classification

    Abstract 文本分类作为一个经典的自然语言处理任务,已经有很多利用卷积神经网络进行文本分类的研究,但是利用图卷积神经网络进行研究的仍然较少. 本文基于单词共现和文档单词间的关系构建一个text ...

  5. 当GCN遇见NLP(三) Tensor Graph Convolutional Networks for Text Classification,AAAI2020

    文章目录 1.Introduction 2.Model 2.1 Graph Tensor 2.2 Text graph tensor construction Semantic-based graph ...

  6. 【文本分类】Recurrent Convolutional Neural Networks for Text Classification

    ·摘要:   从模型的角度,本文作者将RNN(Bi-LSTM)和max_pooling结合使用,提出RCNN模型,应用到了NLP的文本分类任务中,提高了分类精度. ·参考文献:   [1] Recur ...

  7. 【论文解读 ICLR 2020 | DropEdge】TOWARDS DEEP GRAPH CONVOLU-TIONAL NETWORKS ON NODE CLASSIFICATION

    论文题目:DROPEDGE: TOWARDS DEEP GRAPH CONVOLU-TIONAL NETWORKS ON NODE CLASSIFICATION 论文来源:ICLR 2020 论文链接 ...

  8. Recurrent Convolutional Neural Networks for Text Classification(中文版)

    文章目录 用于文本分类的递归卷积神经网络 摘要 介绍 相关工作 文本分类 深度神经网络 模型 词表示学习 文本表示学习 训练 训练网络参数 预训练单词嵌入 实验 数据集 20Newsgroups 复旦 ...

  9. Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps

    开源:http://code.google.com/p/cuda-convnet/ 网上的代码实现(在这个网页里面,自己寻找):https://www.jianshu.com/p/e46b1aa488 ...

最新文章

  1. 亮风台提出用完全可训练的图匹配方法,优于最新SOTA | CVPR 2020
  2. linux 下解压缩rar文件
  3. Concurrent集合 Atomic类
  4. 分布式事务选型的取舍 | 建议收藏
  5. php 数组元素分类,数组分类、定义及遍历
  6. c向文件中插入数据_Redis从文件中批量插入数据
  7. html中js方法中如何传递本元素对象,JS HTML DOM (文档对象模型)
  8. 多播委托(multicast delegate)
  9. 关于二分查找 使用 lower_bound
  10. “拉勾2020年超级雇主”奖项颁布:美团、腾讯等获得“巅峰雇主”奖
  11. 消息中间件学习总结(10)——Kafka、RabbitMQ、RocketMQ消息中间件的消息发送性能对比
  12. 大众新能源电动车ID.3ID.4技术培训教材手册维修手册电路图
  13. 《Spring实战第四版》随书源码导入Eclipse
  14. Charles 抓包工具绿化过程记录
  15. 解决RestTemplate的No instances available for localhost错误
  16. PT100恒流源电路及仿真
  17. IDEA关联MySQL数据库库
  18. yv12、I420、nv12、nv21相互转换
  19. PHP使用header实现文件下载功能
  20. RIoTBoard开发板系列笔记(三)—— 移植Gstreamer

热门文章

  1. 告别极寒,科学家突破将量子计算机运行最低温提了15倍
  2. PhysX物理引擎(入门教程) —— PhysX,Hello World!
  3. 收集的关于并行开发的文章
  4. mysql 查询部门工资前三高的所有员工,分组查询前几的问题
  5. 计算机等级考试电子邮件的附件在哪里查看,​计算机等级考试详解:电子邮箱的地址组成结构!...
  6. php swoft 路由,Swoft 源码解读
  7. 【软件相关】推荐一个“下载神器”——万能命令
  8. python按列名删除某列_python-根据熊猫中的列名删除多个列
  9. 一个好用的Outlook ost格式文件转pst文件的工具 (支持exchange2016)
  10. Python爬虫之Requests的基础运用