1. 问题描述
现在有一个词表,它是取分词后的语料,统计出现频率最高的300个(前300个)词构建的词表。现在要将分词后的语料进行替换,替换掉那些不在词表中的token为“UNK”,在词表中的则保持不变。
语料csv文件内容格式如下:

param parsed words
未正则化的原始语料 正则化并分词后的语料 查询词表后待生成的列

2. 解决方法

# 根据第二列parsed,查询词表后,生成第三列words
def generate_words(col_parsed, evil_word_vocab):lst = []for i in col_parsed:words = []for j in i:if j in evil_word_vocab:words.append(j)else:words.append('UNK')lst.append(words)words = words.copy()words.clear()return lst
# 这里要用 tolist()方法 将词表中词那一列转化为列表
list_words = generate_words(evil['parsed'], evil_word_vocab['word'].tolist())
# 将新生成的word列添加到原csv文件中
evil['words'] = list_words

NLP之替换不在词表中的分词为‘UNK‘相关推荐

  1. Word控件Spire.Doc 【Table】教程(7): 如何在C#中用表格替换word文档中的文本

    Spire.Doc for .NET 是一款专门对 Word 文档进行操作的 .NET 类库.在于帮助开发人员无需安装 Microsoft Word情况下,轻松快捷高效地创建.编辑.转换和打印 Mic ...

  2. linux sed 批量替换多个文件中的字符串

    原文: http://blog.csdn.net/kauu/article/details/1757325 一.linux sed 批量替换多个文件中的字符串 sed -i "s/oldst ...

  3. 替换 wcf 消息传输中的 命名空间

    替换 wcf 消息传输中的 命名空间,http://vanacosmin.ro/Articles/Read/WCFEnvelopeNamespacePrefix 转载于:https://www.cnb ...

  4. php中的替换函数,php字符串中替换函数是什么

    php字符串中替换函数有两种,分别是:1.substr_replace函数,用于把字符串的一部分替换为另一个字符串:2.str_replace函数,能够使用一个字符串替换字符串中的另一些字符. 本文操 ...

  5. 【Android 安全】DEX 加密 ( Application 替换 | 分析 ContentProvider 组件中调用 getApplication() 获取的 Application 二 )

    文章目录 一. ActivityThread 中的 installProvider 方法 ( 创建 ContentProvider 内容提供者 ) 二. installProvider 方法的第三分支 ...

  6. php 单词替换,如何在PHP中替换字符串中的单词?

    给定一个包含一些单词的字符串,任务是替换PHP中给定字符串str中出现的所有单词.为了完成这项任务,我们在PHP中使用了以下方法:方法1:使用str廑replace()方法:str廑replace() ...

  7. python统计单词频率、存放在字典中_Python3实现统计单词表中每个字母出现频率的方法示例...

    本文实例讲述了Python3实现统计单词表中每个字母出现频率的方法.分享给大家供大家参考,具体如下: 作为python字典与数组概念的运用,统计字母表中每个字母出现的频率,作为练习再合适不过. 解决问 ...

  8. 使用awk用一个列替换另一个文件中的列?

    转自使用awk用一个列替换另一个文件中的列? - 程序园 (voidcn.com) 我有两个文件: f1: 111 aaa 444 222 bbb 555 333 ccc 666f2: 111 333 ...

  9. 批量替换 MySQL 指定字段中的字符串

    批量替换 MySQL 指定字段中的字符串 批量替换 MySQL 指定字段中的字符串是数据库应用中很常见的需求,但是有很多初学者在遇到这种需求时,通常都是用脚本来实现:其实,MySQL 内置的有批量替换 ...

最新文章

  1. 两个小模型就能吊打大模型!北大校友、谷歌华人一作「模型集合」,CNN、Transformer都适用!...
  2. easymock 图片_数据模拟神器 easy-mock 正式开源
  3. cnn对网络数据预处理_CNN中的数据预处理和网络构建
  4. storyBoard方式ScrollView的AutoLayout
  5. js 在html中新建个节点,javascript节点是什么?
  6. 2021-2022学期计划
  7. 影视APP下载页面html源码
  8. UE TurnInPlace 转身动画的解决方案和常见问题
  9. 一直播、小咖秀大数据自动化运维实践
  10. 计算机休眠模式是关机吗,电脑中的待机、休眠、睡眠和关机状态的区别。
  11. matlab中的灰色预测,灰色预测MATLAB程序
  12. 【C语言语法】表达式与语句的区别与联系
  13. [内网渗透]—NetLogon 域内提权漏洞(CVE-2020-1472)
  14. 聊聊我在阿里所经历的新零售业务商品中心微服务化的过程
  15. 机器学习总结(三):矩估计
  16. TensorFlow调试之一种很笨但行之有效的调试方案
  17. 用沾福卡去沾一张花花卡的条件
  18. java 当前时间戳_通过各种方法 获取当前系统时间、时间戳
  19. vmware无法使用nat上网解决方式
  20. 【SpringAOP进阶】添加注解方式进行接口增强

热门文章

  1. springboot 自动化装配机制(一)
  2. English Word —— Day 38——四级中学已学单词表
  3. < 渗透测试实战指南 > 从公网渗透到夺取域控
  4. 创维百度联手进军智慧家居,或将补位乐视电视市场
  5. [算法]猫扑素数的算法实现
  6. 易维帮助台:从细节升级优化彰显服务品质
  7. 阿里巴巴 史上最强《Java 开发手册》泰山版 全本开放下载!
  8. matlab三维图像比较,matlab 画三维图像
  9. 【JS】url传参中文乱码的解决方法
  10. 【转】更详细的 有关session和cookie介绍及应用的讲解