对文本分词后,接下来需要对分词后的每个term计算一个权重,重要的term应该给与更高的权重。举例来说,“什么产品对减肥帮助最大?”的term weighting结果可能是: “什么 0.1,产品 0.5,对 0.1,减肥 0.8,帮助 0.3,最大 0.2”。Term weighting在文本检索,文本相关性,核心词提取等任务中都有重要作用。我们可以把这个拿来进行对我们构建的词向量进行加权。

Term weighting的打分公式一般由三部分组成:local,global和normalization。即
TermWeight=L_{i,j}、 G_i、 N_j。L_{i,j}是term i在document j中的local weight,G_i是term i的global weight,N_j是document j的归一化因子。

常见的local,global,normalization weight公式有:

Local weight formulas:

Global weight formulas:

Normalization factors:

TF-IDF:

Tf-Idf是一种最常见的term weighting方法。在上面的公式体系里,Tf-Idf的local weight是FREQ,glocal weight是IDFB,normalization是None。tf是词频,表示这个词出现的次数。df是文档频率,表示这个词在多少个文档中出现。idf则是逆文档频率,idf=log(TD/df),TD表示总文档数。Tf-Idf在很多场合都很有效,但缺点也比较明显,以“词频”度量重要性,不够全面,譬如在搜索广告的关键词匹配时就不够用。

核心词、关键词提取
  • 短文本串的核心词提取。对短文本串分词后,利用上面介绍的term weighting方法,获取term weight后,取一定的阈值,就可以提取出短文本串的核心词。

转载于:https://www.cnblogs.com/callyblog/p/9056151.html

Term Weighting相关推荐

  1. Several alternative term weighting ~~ ——3. Proposed unsupervised term weighting schemes 提出的无监督词项加权方案

    "It should be claimed that choose an appropriate metric function used for weighting terms is th ...

  2. java构建词性词袋_词袋模型

    词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型.此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方 ...

  3. 语义分析的一些方法(中篇)

    2 文本语义分析 前面讲到一些文本基本处理方法.一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务. 2.1 Topic Model 首先介绍主题模型 ...

  4. 语义分析的一些方法(上篇)

    语义分析,本文指运用各种机器学习方法,挖掘与学习文本.图片等的深层次概念.wikipedia上的解释:In machine learning, semantic analysis of a corpu ...

  5. WWW 2020 | 信息检索中基于上下文的文本词项权重生成

    ©PaperWeekly 原创 · 作者|金金 单位|阿里巴巴研究实习生 研究方向|推荐系统 本文由卡耐基梅隆大学发表于 WWW 2020,介绍了基于上下文的文本词项权重生成方法 HDCT.原有的搜索 ...

  6. python pos函数_使用python+sklearn实现特征提取

    sklearn.feature_extraction模块可用于以机器学习算法支持的格式从原始数据集(如文本和图像)中提取特征.**注意:**特征提取与特征选择有很大不同:前者是将任意数据(例如文本或图 ...

  7. 基于机器学习方法的POI品类推荐算法

    前言 在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称.品类.电话.地址.坐标等).如何使用这些已校准的POI数据,挖掘出 ...

  8. 知乎搜索框背后的Query理解和语义召回技术

    一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 随着用户规模和产品的发展, 知乎搜索面临着越来越大的 query 长尾化挑战,query 理解是提升搜索召回质量的关键.本次分享将介绍知乎搜索在 ...

  9. 论文集 | 精选133篇知识图谱论文

    从广义上来说,知识图谱是一个包括知识表示.知识构建.知识维护以及知识应用的完整生态系统,它不仅包含特定领域中的知识定义和实例数据,还包含了支撑描述.构建.储存.管理和应用知识所需的配套标准.技术和工具 ...

  10. 【字节跳动-搜索】22秋招提前批/社招 内推来了!直推到组!全程跟进!

    字节跳动-搜索  22秋招提前批/社招  部门内推来了!直推到组!全程跟进! 团队介绍1:字节跳动搜索 字节跳动搜索团队主要负责抖音.今日头条.西瓜视频等产品的搜索算法创新和架构研发工作.我们使用最前 ...

最新文章

  1. 文件同步工具 lsyncd2.1.6 安装使用问题
  2. linux 程序输出 logo,Linux下制作logo并显示到开发板上
  3. jflash合并stm32f103之bin文件及hex文件
  4. python获取当前文件夹下所有文件名
  5. redis 多线程_Java架构师Redis单线程?别逗了,Redis6.0多线程重磅来袭
  6. java 视图对象转换_java-如何从onItemSelected()方法返回的视图对象...
  7. elasticsearch7常见查询(term、match、bool、filter)
  8. cmmi评估如果可以再来
  9. 漂亮的英文字体 android,资深字体设计师私藏的10大APP,只怪你知道的太晚 !
  10. 第四章_思科ASDM网管系统搭建(java环境,jdk环境)
  11. 常用项目文档目录示例
  12. 基于MATLAB的数字信号处理(5) FIR数字滤波器设计及软件实现
  13. java 截取图片后缀
  14. php+矩阵,PHP实现简单矩阵算法
  15. 【论文写作】——设置正文和标题格式
  16. 基于javaweb的简单员工管理系统
  17. 创造与魔法服务器维护一维护是多久,创造与魔法5月17日更新维护公告
  18. OJ的介绍以及使用方法
  19. outlook邮件 css 不生效问题
  20. win10邮件配置qq邮箱和outlook邮箱

热门文章

  1. 快速健身---马步站桩
  2. 部分国内外遥感与GIS杂志(小百合)
  3. PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
  4. RK3328硬件解码+SPR5801边缘加速
  5. 大数据会议资料学习笔记201402
  6. java多个文件加密压缩_java中文件如何加密压缩?
  7. JAVA接口签名(Signature)实现方案
  8. 安卓语音识别文字软件
  9. 夜莺(Nightingale)企业级监控平台
  10. Intel汇编指令在线手册