KeyBERT是一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键短语。

from keybert import KeyBERT
en_sentence = '' #这是你输入的字符串
kw_model = KeyBERT()
keywords = kw_model.extract_keywords(en_sentence)
print(kw_model.extract_keywords(en_sentence, keyphrase_ngram_range=(1, 5), stop_words=None))

tm2tb 是一个专注于双语数据的术语提取模块。

它使用 spaCy 的词性标签和句子转换器模型从成对的句子和双语文档中提取和匹配术语。

方法:为了从句子中提取术语,tm2tb 首先使用词性标签作为分隔符选择候选者。然后,使用模型语言来嵌入候选和句子。 最后,嵌入用于使用余弦相似度和最大边际相关性找到与句子更相似的术语。

对于成对的句子,对每个句子执行上述过程。 然后,使用余弦相似度比较生成的词嵌入,该余弦相似度返回每个源词最相似的目标词。对于双语文档,使用上述过程从每对句子中提取术语。 最后,计算相似度平均值以产生最终的术语选择。

labse是谷歌提出的用于生成语言无关的句子表示的BERT模型,该工作可以为跨语言的、相同含义的句子形成相似的句子表达,可以用于多种涉及跨语言匹配的下游任务,比如机器翻译的双语语料挖掘、跨语言句对检索等。

参考代码:

GitHub - luismond/tm2tb: Bilingual term extraction and matching with spaCy and sentence transformers.

KeyBERT和labse提取字符串中的关键词相关推荐

  1. python 正则之提取字符串中的汉字,数字,字母

    python 正则之提取字符串中的汉字,数字,字母 #\d 匹配一个数字字符.等价于 [0-9] #\D 匹配一个非数字字符.等价于 [^0-9]#过滤字符串中的英文与符号,保留汉字 import r ...

  2. 【Java】不需要正则表达式,提取字符串中的所有汉字、数字、字母

    功能 提取字符串中的所有汉字.数字.字母 测试用例 待提取的字符串:Th<><?isI":sa--S??/t+-/ring,这? ???~!===是!$#@%^&一 ...

  3. linux 取出字符中数字,使用awk提取字符串中的数字或字母

    1.提取字符串中的数字$ echo 'dsFUs34tg*fs5a%8ar%$#@' |awk -F "" ' { for(i=1;i<=NF;i++) { if ($i ~ ...

  4. 正则表达式 - 去掉乱码字符/提取字符串中的中文字符/提取字符串中的大小写字母 - Python代码

    目录 1.乱码符号种类较少,用replace() 2.乱码字符种类较多,用re.sub() 3.提取字符串中的中文字符 4.提取字符串中的中文字符和数字 5.提取其他 数据清洗的时候一大烦恼就是数据中 ...

  5. c语言十六进制字符串转整数,C语言-提取字符串中的十六进制数字并转换为一个十进制整数输出...

    问题描述:提取字符串中的十六进制数字并转换为一个十进制整数输出 源代码: /*十六进制转换成十进制*/ #include int main(void) { int i,k; char hexad[80 ...

  6. [转载] java提取字符串中的字母数字

    参考链接: 使用Regex检查字符串在Java中是否仅包含字母 String str = "adsf    adS DFASFSADF阿德斯防守对方asdfsadf37<?:?@%#¥ ...

  7. awk 内嵌正则 提取字符串_使用awk提取字符串中的数字或字母

    1.提取字符串中的数字 $ echo 'dsFUs34tg*fs5a%8ar%$#@' |awk -F "" ' { for(i=1;i<=NF;i++) { if ($i ...

  8. C语言 提取字符串中的所有整数

    //提取字符串中的整数 #include<stdio.h> //调用库函数实现 #include<stdlib.h>void string_extract_int(char * ...

  9. php 正则 尖括号,php使用正则表达式提取字符串中尖括号、小括号、中括号、大括号中的字符...

    PHP使用正则表达式提取字符串中尖括号<>.小括号().中括号[].大括号{}中的字符示例,需要的朋友可以参考下 代码如下: $str="你好(爱)[北京]{天安门}" ...

最新文章

  1. vs配置编译c语言,为 VSCode 配置 C 语言编译环境
  2. 算法学习:后缀数组 height的求取
  3. hive加载大文件(3G)
  4. 面向过程分析与面向对象分析之间的区别
  5. html-loader无效,html-loader加载失败
  6. 随记:Linux中一个修改活动卷组名所引发的血案
  7. JDK 11:轻松取出单文件Java源代码程序
  8. java gc full gc_Java中full gc什么意思?
  9. android 安装assets中的apk,如何安装assets下apk,附源码(原创)
  10. 以太网和局域网的关系
  11. 面试:一文搞懂 final 关键字的作用
  12. badbody下_badboy下载_badboy测试工具2.0.5官方免费版 - 系统之家
  13. 三星为Ativ S发布WP8更新
  14. IEEEtran模板的参考文献管理问题a missing \item. \begin{thebibliography}{}
  15. Lock wait timeout exceeded
  16. 内网通过映射后的公网IP访问内网服务测试--ASA8.0 hairpin NAT测试
  17. 微信 dat 文件还原
  18. C++写的简易的控制台游戏
  19. 关于滑轮组的计算机知识点,【中考备考】初三物理常考知识点讲解:滑轮
  20. 更新Android版GPS定位源代码

热门文章

  1. 西门子840d备份到u盘_西门子840D系统的备份新方法
  2. KNN(K-最近邻分类)分类算法
  3. 适合写作业时听的歌(高效学习)
  4. Java 只有引用类型(reference type)
  5. 视频教程-Spring Cloud微服务--入门到精通-Java
  6. python rm 条件_python版rm命令
  7. yellow dog linux ps3,ps3安装yellow dog linux相关
  8. 安全渗透测试-win7
  9. winForm中RichTextBox富文本框的使用
  10. 基于Python+Keras+OpenCV实现实时人脸活体检测 | 文末送书