1、选筛选的人对分类的结构、每个分类中应该有哪些文章应该比较清楚并有一定的理解。

2、择较容易判别、典型的文章:一篇文章大致阅读以后,就能判定这篇文章属于哪个类别,而且可以指出因为哪些词语而使得这篇文章归属到该类别,这样的样本为上佳样本。

3、感觉这篇文章会在类别中有交叉,则立即放弃 。

4、对于分类中可能出现的文章内容,每个都筛选一些样本 。

反例:关于时事新闻的类别可能包含的内容:国际时事、近期的国际事件(钓鱼岛)、美国大选等等,但选样本是选择所有的文章均是关于钓鱼岛事件的 。这些样本典型,而且和别的分类交叉也不大,但这样的样本总体来说是不好的,不能代表整体。

正例:选一些关于美国大选的文章、选一些关于台陆关系的文章,选一些关于钓鱼岛事件的文章 。

5、样本文本不要选太长的文本,一般选取适中的文章 。

自己的一些见解,欢迎讨论、更正.....

转载于:https://www.cnblogs.com/serendipity/articles/1862004.html

文本分类中样本的筛选(基于VSM模型)相关推荐

  1. EMNLP 2021 | 多标签文本分类中长尾分布的平衡策略

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者 | 黄毅 作者简介:黄毅,本文一作,目前为罗氏集团的数据科学家 ...

  2. label-embedding在文本分类中的应用

    ©PaperWeekly 原创 · 作者|蔡杰 学校|北京大学硕士生 研究方向|QA 最近在做文本分类相关的工作,目标是想提高分类器泛化新样本的能力,当有新样本产生的时候能够不需要重新训练分类器.所以 ...

  3. paddle2.0高层API实现自定义数据集文本分类中的情感分析任务

    paddle2.0高层API实现自定义数据集文本分类中的情感分析任务 本文包含了: - 自定义文本分类数据集继承 - 文本分类数据处理 - 循环神经网络RNN, LSTM - ·seq2vec· - ...

  4. 公开课报名 | 那些年,我们在文本分类中遇到的坑

    文本分类问题是企业在 NLP 领域中处理文本数据时经常会遇到的一个问题,很多时候,我们需要将文本信息进行分类,或提相关的接口以供外部进行文本上传,在针对于用户所上传的文档信息就需要进行文档内容的分类, ...

  5. 文本分类中的文本特征表示

    Introduce 文本话题分析文本分类的一个应用领域,主要是针对文本表现的主题的划分.目前,针对文本话题分类的研究还是很热的,主要包括微博,知乎等大型话题社区,论坛类网站.之前知乎针对该问题在著名的 ...

  6. 【自然语言处理】词袋模型在文本分类中的用法

    词袋模型在文本分类中的用法 1.加载数据 20 Newsgroups:数据被组织成 20 个不同的新闻组,每个新闻组对应一个不同的主题.一些新闻组彼此非常密切相关(例如 comp.sys.ibm.pc ...

  7. FastText文本分类中的n-grams

    FastText文本分类中的n-grams FastText FastText模型结构 FastText n-grams n-grams如何计算 FastText FastText是facebook ...

  8. NLP文本分类入门学习及TextCnn实践笔记——模型训练(三)

    这篇记模型训练. 距离第一篇已过去一个月.从学习到正式启动模型训练,花了两周.模型训练召回率和准确率达到上线标准又花了两三周. 训练及测试样本评估的精确率都是97%.98%,结果一到线上实验,结果惨不 ...

  9. 自然语言处理基于java实现(4) 之 基于VSM模型的信息检索程序

    一. 题目如下: 依据实验3建立的索引文件,实现一个基于VSM模型的信息检索程序. 解释下,如何实现一个基于VSM模型的信息检索程序? // 段落序号,词条, tf-idf值 的二维空间表privat ...

最新文章

  1. R语言实现sigmoid激活函数并可视化
  2. Linux 构建一些 开机就可以使用的命令
  3. 彻底理解cookie,session,localStorage(附代码)
  4. C# 用文本框输入的时间段查询SQL数据库
  5. 阿里云云原生网关,开启下一代网关新进程
  6. js解释器rhino查看执行环境
  7. 四大触点,教你从“用户视角”构建数据分析体系
  8. 参观移动公司机房感想
  9. python实现PDF文件合并成一个文件
  10. 学会可视化大屏布局技巧,让领导都赞不绝口
  11. 分布式集群中大数据的中位数
  12. “黎明”号新任务继续“锁定”谷神星
  13. 360P2建html网站,360 P2路由器密码怎么设置?
  14. 学习纯软件开发(如Java/Python...)还是C语言、嵌入式、物联网呢?
  15. word07去掉回车符
  16. 拼多多分享好友砍价Java实现_拼多多怎么帮助好友砍价免费拿商品,详情介绍...
  17. 硫化氢探针|H2S荧光探针|hydrogen sulfide荧光探针的结构式
  18. (转)微信公众号发表情 Emoji
  19. Mysql存储过程-新增数据时多条件判定是否已经存在某值
  20. OPA进阶-简洁的推导式comprehensions

热门文章

  1. MySQL数据库怎么查看er图表_详解 Navicat 查看方式之ER图表
  2. 循环执行oracle到mysql的迁移步骤及各种注意事项
  3. 计算机网络常见问题归纳
  4. 车牌识别系统不能连接服务器,车牌识别系统图像无法正常输出的原因与解决方法...
  5. 托爾斯泰《安娜‧卡列妮娜》的寫作背景
  6. 加油站以后还能叫加油站吗?
  7. 新手必备:淘宝爆款应如何选款测款?
  8. eclipse JDT相关知识
  9. Jobs乔布斯传总结
  10. China Operating System 电脑操作系统 2016全球互联网排名