NLP之替换不在词表中的分词为‘UNK‘
1. 问题描述
现在有一个词表,它是取分词后的语料,统计出现频率最高的300个(前300个)词构建的词表。现在要将分词后的语料进行替换,替换掉那些不在词表中的token为“UNK”,在词表中的则保持不变。
语料csv文件
内容格式如下:
param | parsed | words |
---|---|---|
未正则化的原始语料 | 正则化并分词后的语料 | 查询词表后待生成的列 |
⭐2. 解决方法
# 根据第二列parsed,查询词表后,生成第三列words
def generate_words(col_parsed, evil_word_vocab):lst = []for i in col_parsed:words = []for j in i:if j in evil_word_vocab:words.append(j)else:words.append('UNK')lst.append(words)words = words.copy()words.clear()return lst
# 这里要用 tolist()方法 将词表中词那一列转化为列表
list_words = generate_words(evil['parsed'], evil_word_vocab['word'].tolist())
# 将新生成的word列添加到原csv文件中
evil['words'] = list_words
NLP之替换不在词表中的分词为‘UNK‘相关推荐
- Word控件Spire.Doc 【Table】教程(7): 如何在C#中用表格替换word文档中的文本
Spire.Doc for .NET 是一款专门对 Word 文档进行操作的 .NET 类库.在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建.编辑.转换和打印 Mic ...
- linux sed 批量替换多个文件中的字符串
原文: http://blog.csdn.net/kauu/article/details/1757325 一.linux sed 批量替换多个文件中的字符串 sed -i "s/oldst ...
- 替换 wcf 消息传输中的 命名空间
替换 wcf 消息传输中的 命名空间,http://vanacosmin.ro/Articles/Read/WCFEnvelopeNamespacePrefix 转载于:https://www.cnb ...
- php中的替换函数,php字符串中替换函数是什么
php字符串中替换函数有两种,分别是:1.substr_replace函数,用于把字符串的一部分替换为另一个字符串:2.str_replace函数,能够使用一个字符串替换字符串中的另一些字符. 本文操 ...
- 【Android 安全】DEX 加密 ( Application 替换 | 分析 ContentProvider 组件中调用 getApplication() 获取的 Application 二 )
文章目录 一. ActivityThread 中的 installProvider 方法 ( 创建 ContentProvider 内容提供者 ) 二. installProvider 方法的第三分支 ...
- php 单词替换,如何在PHP中替换字符串中的单词?
给定一个包含一些单词的字符串,任务是替换PHP中给定字符串str中出现的所有单词.为了完成这项任务,我们在PHP中使用了以下方法:方法1:使用str廑replace()方法:str廑replace() ...
- python统计单词频率、存放在字典中_Python3实现统计单词表中每个字母出现频率的方法示例...
本文实例讲述了Python3实现统计单词表中每个字母出现频率的方法.分享给大家供大家参考,具体如下: 作为python字典与数组概念的运用,统计字母表中每个字母出现的频率,作为练习再合适不过. 解决问 ...
- 使用awk用一个列替换另一个文件中的列?
转自使用awk用一个列替换另一个文件中的列? - 程序园 (voidcn.com) 我有两个文件: f1: 111 aaa 444 222 bbb 555 333 ccc 666f2: 111 333 ...
- 批量替换 MySQL 指定字段中的字符串
批量替换 MySQL 指定字段中的字符串 批量替换 MySQL 指定字段中的字符串是数据库应用中很常见的需求,但是有很多初学者在遇到这种需求时,通常都是用脚本来实现:其实,MySQL 内置的有批量替换 ...
最新文章
- 两个小模型就能吊打大模型!北大校友、谷歌华人一作「模型集合」,CNN、Transformer都适用!...
- easymock 图片_数据模拟神器 easy-mock 正式开源
- cnn对网络数据预处理_CNN中的数据预处理和网络构建
- storyBoard方式ScrollView的AutoLayout
- js 在html中新建个节点,javascript节点是什么?
- 2021-2022学期计划
- 影视APP下载页面html源码
- UE TurnInPlace 转身动画的解决方案和常见问题
- 一直播、小咖秀大数据自动化运维实践
- 计算机休眠模式是关机吗,电脑中的待机、休眠、睡眠和关机状态的区别。
- matlab中的灰色预测,灰色预测MATLAB程序
- 【C语言语法】表达式与语句的区别与联系
- [内网渗透]—NetLogon 域内提权漏洞(CVE-2020-1472)
- 聊聊我在阿里所经历的新零售业务商品中心微服务化的过程
- 机器学习总结(三):矩估计
- TensorFlow调试之一种很笨但行之有效的调试方案
- 用沾福卡去沾一张花花卡的条件
- java 当前时间戳_通过各种方法 获取当前系统时间、时间戳
- vmware无法使用nat上网解决方式
- 【SpringAOP进阶】添加注解方式进行接口增强