Term Weighting
对文本分词后,接下来需要对分词后的每个term计算一个权重,重要的term应该给与更高的权重。举例来说,“什么产品对减肥帮助最大?”的term weighting结果可能是: “什么 0.1,产品 0.5,对 0.1,减肥 0.8,帮助 0.3,最大 0.2”。Term weighting在文本检索,文本相关性,核心词提取等任务中都有重要作用。我们可以把这个拿来进行对我们构建的词向量进行加权。
Term weighting的打分公式一般由三部分组成:local,global和normalization。即
TermWeight=L_{i,j}、 G_i、 N_j。L_{i,j}是term i在document j中的local weight,G_i是term i的global weight,N_j是document j的归一化因子。
常见的local,global,normalization weight公式有:
Local weight formulas:
Global weight formulas:
Normalization factors:
TF-IDF:
Tf-Idf是一种最常见的term weighting方法。在上面的公式体系里,Tf-Idf的local weight是FREQ,glocal weight是IDFB,normalization是None。tf是词频,表示这个词出现的次数。df是文档频率,表示这个词在多少个文档中出现。idf则是逆文档频率,idf=log(TD/df),TD表示总文档数。Tf-Idf在很多场合都很有效,但缺点也比较明显,以“词频”度量重要性,不够全面,譬如在搜索广告的关键词匹配时就不够用。
核心词、关键词提取
- 短文本串的核心词提取。对短文本串分词后,利用上面介绍的term weighting方法,获取term weight后,取一定的阈值,就可以提取出短文本串的核心词。
转载于:https://www.cnblogs.com/callyblog/p/9056151.html
Term Weighting相关推荐
- Several alternative term weighting ~~ ——3. Proposed unsupervised term weighting schemes 提出的无监督词项加权方案
"It should be claimed that choose an appropriate metric function used for weighting terms is th ...
- java构建词性词袋_词袋模型
词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型.此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方 ...
- 语义分析的一些方法(中篇)
2 文本语义分析 前面讲到一些文本基本处理方法.一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务. 2.1 Topic Model 首先介绍主题模型 ...
- 语义分析的一些方法(上篇)
语义分析,本文指运用各种机器学习方法,挖掘与学习文本.图片等的深层次概念.wikipedia上的解释:In machine learning, semantic analysis of a corpu ...
- WWW 2020 | 信息检索中基于上下文的文本词项权重生成
©PaperWeekly 原创 · 作者|金金 单位|阿里巴巴研究实习生 研究方向|推荐系统 本文由卡耐基梅隆大学发表于 WWW 2020,介绍了基于上下文的文本词项权重生成方法 HDCT.原有的搜索 ...
- python pos函数_使用python+sklearn实现特征提取
sklearn.feature_extraction模块可用于以机器学习算法支持的格式从原始数据集(如文本和图像)中提取特征.**注意:**特征提取与特征选择有很大不同:前者是将任意数据(例如文本或图 ...
- 基于机器学习方法的POI品类推荐算法
前言 在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称.品类.电话.地址.坐标等).如何使用这些已校准的POI数据,挖掘出 ...
- 知乎搜索框背后的Query理解和语义召回技术
一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 随着用户规模和产品的发展, 知乎搜索面临着越来越大的 query 长尾化挑战,query 理解是提升搜索召回质量的关键.本次分享将介绍知乎搜索在 ...
- 论文集 | 精选133篇知识图谱论文
从广义上来说,知识图谱是一个包括知识表示.知识构建.知识维护以及知识应用的完整生态系统,它不仅包含特定领域中的知识定义和实例数据,还包含了支撑描述.构建.储存.管理和应用知识所需的配套标准.技术和工具 ...
- 【字节跳动-搜索】22秋招提前批/社招 内推来了!直推到组!全程跟进!
字节跳动-搜索 22秋招提前批/社招 部门内推来了!直推到组!全程跟进! 团队介绍1:字节跳动搜索 字节跳动搜索团队主要负责抖音.今日头条.西瓜视频等产品的搜索算法创新和架构研发工作.我们使用最前 ...
最新文章
- 文件同步工具 lsyncd2.1.6 安装使用问题
- linux 程序输出 logo,Linux下制作logo并显示到开发板上
- jflash合并stm32f103之bin文件及hex文件
- python获取当前文件夹下所有文件名
- redis 多线程_Java架构师Redis单线程?别逗了,Redis6.0多线程重磅来袭
- java 视图对象转换_java-如何从onItemSelected()方法返回的视图对象...
- elasticsearch7常见查询(term、match、bool、filter)
- cmmi评估如果可以再来
- 漂亮的英文字体 android,资深字体设计师私藏的10大APP,只怪你知道的太晚 !
- 第四章_思科ASDM网管系统搭建(java环境,jdk环境)
- 常用项目文档目录示例
- 基于MATLAB的数字信号处理(5) FIR数字滤波器设计及软件实现
- java 截取图片后缀
- php+矩阵,PHP实现简单矩阵算法
- 【论文写作】——设置正文和标题格式
- 基于javaweb的简单员工管理系统
- 创造与魔法服务器维护一维护是多久,创造与魔法5月17日更新维护公告
- OJ的介绍以及使用方法
- outlook邮件 css 不生效问题
- win10邮件配置qq邮箱和outlook邮箱