0. 起

  最近没有更新。暑假之后学的东西也比较杂,看了一下基于DL的智能美颜,感觉入了个大坑。前前后后看了传统的轮廓提取算法和FCN等等,调代码巴拉巴拉几个星期就这么过了。前几天看ACM的best paper也觉得很有意思,两个步骤:1)给图片打标题,属于多媒体计算和NLP的结合 2)由标题生成诗歌。感觉这里面可以学的东西也有很多。等项目结束论文写完一定好好的顺着学一遍,看京都大学团队说近期会公布数据集,不错不错。

  最近是在看论文和弄实验室的项目。之前的短评预测预订明年的一个项目,而今年的题目是:新知识抽取与发现。主要是针对科技文章的,也就是知网文章。我在想怎么做这个题目的时候也是百般思考(因为这个题目是去年订的,没有经过我的手),如何体现新知识?抽取与发现在NLP倒是老生常谈,提取主题、摘要、关键字,发现无非也就是分类或者打标签。

  之前已经毕业的师兄是有一套完整的单标签代码的,包含他的毕业论文一同给了我参考。这里也可以简单说一下打标签和分类的区别,也方便捋清思路。好比你在淘票票上买电影票,点进电影介绍,它会告诉你这是一部18R/成人向/.../的电影,这就是一个分类;而电影的类型是Comedy/Tragedy/.../Family and Comedy,这就是多标签,即可以存在交叉项或是合并项。所以我合计着师兄的单标签其实也就是分类....

  为什么我不用师兄的呢,可以省很多事情,连答辩PPT都有改一改去糊弄一下甲方就完事。在我的理解里面,交叉学科最容易产生新知识,甚至是新科学。计算机+智能形成了近年来很火的人工智能领域,金融+数学的结合成为了金融工程,这都是新知识新领域的诞生。IG进入S赛决赛,那提及一下传媒+电竞+主持等等你能想到什么呢,不仅是新知识,新岗位也出现了。所以,从多标签的角度去阐述新知识更有意义

1. 承

  前面废话了很多,其实也就是想说明白我这个伪逻辑。既然针对知网文章,那么如何爬取一个文本--多标签对的数据集就尤为关键了。在这里我们也想了很多办法,包括知网本身也有一些奇奇怪怪的反爬机制,这一块我交给学弟去做了,也是煞费时间。

  知网本身没有明显的多标签痕迹,它把文章的分类放在一个动态加载frame里面。我们按照高级检索栏的10来个大类*10来个子栏进行爬取,选取每篇文章的标题、摘要、多标签。目前进展有10W+数据,数据还在更新中。(用的学校的公网ip,似乎没有被封)为什么要按照这种方式爬取呢,主要是为了各个类别标签下的文章数量分布均匀。不然训练出某些词向量会导致比重失衡。

图1 按知网的分类进行爬取

  然后具体每篇文章的爬取内容如下,多标签可以爬取一级、二级甚至三级标签。我们爬取了一级和二级。主要是防止三级标签太多导致稀疏问题,训练时难以收敛,测试时结果可以也会和预期相去甚远。当然具体的选择可以根据自己的项目来做决定。

图2 爬取内容

  存放呢。所有数据先写入excel之后再进行整理。第一列设定一个ID,第二列标题,第三列摘要,第四列一级标签,第五列二级标签。然后将按文章,将题目和摘要整理到一个txt,标题一行摘要一行;将label整理到一个txt。这两个文件按id命名,只是后缀不同。最后再将所有的标签汇总到一个文件方便读写,一个标签一行。目前为止我们总共收集了120+标签。

2. 转

10.29写完上面的。直到现在还是没时间更新后面的。项目结项了,然后施工论文ing。累。先贴几张图吧,之后有时间再继续更,大概过年的时候了吧。


2018.12.10 16:53 更新

To be continue


转载于:https://www.cnblogs.com/catallen/p/9869321.html

针对科技文章的多标签分类相关推荐

  1. 【论文复现与改进】针对弱标注数据多标签矩阵恢复问题,改进后的MCWD算法,让你的弱标注多标签数据赢在起跑线上

    改进后的MCWD算法,让你的弱标注多标签数据赢在起跑线上 前言 MCWD算法 算法展示 算法改进 实现代码 实验结果 总结 前言 最近刷完了李航老师的<统计学习与方法>,手痒到又想复现几个 ...

  2. 将“softmax+交叉熵”推广到多标签分类问题

    ©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 一般来说,在处理常规的多分类问题时,我们会在模型的最后用一个全连接层输出每个类的分数,然后用 softma ...

  3. 机器学习之深度学习 二分类、多分类、多标签分类、多任务分类

    多任务学习可以运用到许多的场景. 首先,多任务学习可以学到多个任务的共享表示,这个共享表示具有较强的抽象能力,能够适应多个不同但相关的目标,通常可以使主任务获取更好的泛化能力. 此外,由于使用了共享表 ...

  4. 多标签分类方法总结——实现方法、评价指标、损失函数

    目录 一.两种思想总结 1.问题转换 2.算法改编 二.深度网络多标签分类 三.多标签分类评价指标 四.多标签分类的损失函数 1.二分类和多分类 2.多标签分类 五.参考文章 注:本文为总结性文章,应 ...

  5. ###好好好####深度学习---多标签分类问题

    keras multi-label classification 多标签分类 问题:一个数据又多个标签,一个样本数据多个类别中的某几类:比如一个病人的数据有多个疾病,一个文本有多种题材,所以标签就是: ...

  6. 使用python和sklearn的文本多标签分类实战开发

    文本分类一般可以分为二分类.多分类.多标签分类三种情况,二分类是指将一组文本分成两个类(0或1),比较常见的应用如垃圾邮件分类.电商网站的用户评价数据的正负面分类等,多分类是指将文本分成若干个类中的某 ...

  7. 计算机管理工具怎么设置,日程安排管理工具敬业签电脑版如何更改默认标签分类?...

    原标题:日程安排管理工具敬业签电脑版如何更改默认标签分类? 作为一款跨Windows电脑.iPhone手机.Android手机等多端云同步的日程安排管理工具,云便签敬业签电脑版初次使用时,会发现系统给 ...

  8. NLP(三十六)使用keras-bert实现文本多标签分类任务

      本文将会介绍如何使用keras-bert实现文本多标签分类任务,其中对BERT进行微调. 项目结构   本项目的项目结构如下: 其中依赖的Python第三方模块如下: pandas==0.23.4 ...

  9. ICCV 2019 论文解读:用图神经网络改善视频的多标签分类

    作者 | 王磊 本文介绍了汽车之家团队在ICCV 2019一篇关于视频理解论文相关的工作.针对视频多标签分类的问题,论文提出了将视频多标签之间相关性特征加入到网络之中,结果证明该方法可以显著的提高视频 ...

最新文章

  1. MAC EI Capitan上更新系统自带SVN版本号(关闭SIP方能sudo rm)
  2. Mysql的coalesce
  3. foreman源NO_PUBKEY 6F8600B9563278F6
  4. Configutation读取properties文件信息
  5. 云图说|初识云数据库GaussDB(for Cassandra)
  6. 【备忘录】word利用mathtype进行公式分章节编号和引用
  7. VMware安装windows2003操作系统
  8. excel打开密码忘记了_忘记EXCEL表格密码怎么办,这样操作可以清除
  9. cmos电路多余输入端能否悬空_CMOS电路不使用的输入端不能悬空
  10. mac 电脑软件安装常见的问题
  11. 基于 SpringBoot 手写 RPC 框架
  12. rails3 使用nifty
  13. 大家保险发布“早下班一小时”倡议,呼吁“重阳节,不脱节”
  14. java下载m3u8转ts合成mp4
  15. 大学计算机原理知识点,四川大学计算机组成原理知识点
  16. 苹果手机如何远程控制华为安卓平板电脑
  17. 【机器学习】SVR支持向量机回归
  18. 【数字图像处理】期末理论考试复习——图像分割与检测
  19. 北京南天软件java工程师面试题
  20. java中equals合if的用法_java中的equals和==

热门文章

  1. sublime php快捷键,分享Sublime Text 3快捷键精华版!
  2. CAP 原则与 BASE 理论
  3. JVM——对象的创建与内存布局
  4. 某系统有6台输出设备 有多个进程均需要使用2台_系统设计硬核知识(4)——操作系统的设备管理...
  5. php cookie 二级域名,php如何设置cookie对整个域名有效及二级域名
  6. SpringBoot vue图片上传不能立即回显问题解决
  7. buffsize 缓冲区的大小多少合适_对于Redis性能指标监控!你了解多少?
  8. python编程 迷你世界_迷你编程下载-迷你世界迷你编程下载 v1.0官方版--pc6下载站...
  9. html生成原理,Axure生成HTML的原理是什么?
  10. mysql crash定位分析_MySQL实例crash的案例详细分析