在自然语言处理中为tokenize后的句子进行转化成id时会用到,该代码的意思是,如果在词表vocab中有word这个单词,那么就取出它的id;如果没有,就去除UNK(未知词)对应的id,其中UNK表示所有的未知词(out of vocab)都对应该id,对应到下一步取词向量时,该id对应的词向量就表示所有未知词语义的平均。

vocab.get(word, vocab.get(UNK))相关推荐

  1. 基于Pytorch的NLP入门任务思想及代码实现:判断文本中是否出现指定字

    今天学了第一个基于Pytorch框架的NLP任务: 判断文本中是否出现指定字 思路:(注意:这是基于字的算法) 任务:判断文本中是否出现"xyz",出现其中之一即可 训练部分: 一 ...

  2. [Pytorch系列-61]:循环神经网络 - 中文新闻文本分类详解-3-CNN网络训练与评估代码详解

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...

  3. 【LSTM新闻数据集分类代码】

    rnn import time import torch import numpy as np from train_eval import train, init_network from impo ...

  4. NLP 第五周 语言模型,bert(2)

    BERT类预训练语言模型 我们传统训练网络模型的方式首先需要搭建网络结构,然后通过输入经过标注的训练集和标签来使得网络可以直接达成我们的目的.这种方式最大的缺点就是时间长,因为我们对于模型权重的初始化 ...

  5. [Pytorch系列-60]:循环神经网络 - 中文新闻文本分类详解-2-LSTM网络训练与评估代码详解

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...

  6. 卷积神经网络实现THUCNews新闻文本分类(Pytorch实现)

    代码结构 整体代码结构如下图所示: 点击run.py文件,直接运行.可以手动调节参数以及更换模型 1数据集 本文采用的数据集属于清华NLP组提供的THUCNews新闻文本分类数据集的一个子集(原始的数 ...

  7. 【nlp自然语言处理实战】案例---FastText模型文本分类

    目录 1.案例简介 2 代码 2.1 load_data.py 2.2 load_data_iter.py 2.3 FastText.py 2.4 train.py 2.5 predict.py 2. ...

  8. 自然语言处理NLP文本分类顶会论文阅读笔记(一)

    笔记目录 关于Transformer 小样本学习 BERT: Pre-training of Deep Bidirectional Transformers for Language Understa ...

  9. 6. 吴恩达机器学习课程-作业6-SVM

    fork了别人的项目,自己重新填写,我的代码如下 https://gitee.com/fakerlove/machine-learning/tree/master/code 代码原链接 文章目录 6. ...

最新文章

  1. mysql-mybatis 8.0版本配置====解决could not create connection to database server.
  2. 青龙面板-傻妞sillyGirl xdd机器人频繁掉线解决方法
  3. 【26】Python Iterator笔记
  4. 《Python Cookbook 3rd》笔记(2.16):以指定列宽格式化字符串
  5. Windows 7 :微软目前最好的操作系统
  6. 使用Nodejs搭建server
  7. 弹幕解析播放器json客户端解析后台管理源码
  8. XenApp For Windows 2016 关闭程序后无法结束进程
  9. Apache—DBUtils框架简介
  10. .sql文件如何执行_一条SQL查询语句是如何执行的?
  11. 引用的本质是const指针
  12. Oracle的去重函数 distinct
  13. php获取文本中的大写字母个数,php字符串英文文本中大写字母,小写字母,空格,标点符号的个数统计...
  14. 学习使用DCMTK工具
  15. AD637_高精度,宽带RMS-DC转换器
  16. Tomcat官网下载对应版本
  17. Vue最佳实践(项目经验总结,定期更新)
  18. 4G工业路由器如何助力自动售货机更智能?
  19. 【wsl2】从头开始配置
  20. 史上非常简单、快速的解决Excel导出遇到Excel导出错误

热门文章

  1. Matlab常用命令汇总
  2. k8s节点资源耗尽处理
  3. 1.面试题目汇总-嵌入式篇
  4. 【转】手机充电器原理
  5. C++虚函数概念及使用(基础)
  6. SK电讯与霍尼韦尔结成物联网联盟以推动LoRa应用
  7. 关于短网址短链接生成的算法问题
  8. 预防死锁,检测死锁,避免死锁,解除死锁....
  9. 达梦数据库常用sql
  10. 基于stm32f10x的超声波模块HC-SR04的测距示例,并用串口将数据打印出来