word2vec关键词提取 python_如何从word2vec的Google预训练模型中提取单词向量?
文件GoogleNews-vectors-negative300.bin包含3亿个单词向量。我想(不确定)这个文件是在写下一行时加载的:from gensim.models.keyedvectors import KeyedVectors
我想下载我在一个名为words的列表中给出的单词的向量。这是我的代码:
^{pr2}$
但当我运行代码时,它会冻结我的系统。是因为它在搜索words中的单词之前加载了整个二进制文件?如果是,我如何避开这个问题?当我收到以下警告时,我想到了这一点,这就是为什么我使用warning包来抑制它:c:\Python35\lib\site-packages\gensim\utils.py:860: UserWarning: detected Windows; aliasing chunkize to chunkize_serial
warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
它给出的误差是:Traceback (most recent call last):
File "word2vec.py", line 18, in
model = gensim.models.KeyedVectors.load_word2vec_format(topic, binary=True)
File "c:\Python35\lib\site-packages\gensim\models\keyedvectors.py", line 196, in load_word2vec_format
with utils.smart_open(fname) as fin:
File "c:\Python35\lib\site-packages\smart_open\smart_open_lib.py", line 208, in smart_open
raise TypeError('don\'t know how to handle uri %s' % repr(uri))
TypeError: don't know how to handle uri [['access'], ['aeroway'], ['airport'], ['amenity'], ['area'], ['atm'], ['barrier'], ['bay'], ['bench'], ['boundary'], ['bridge'], ['building'], ['bus'], ['cafe'], ['car'], ['coast'], ['continue'], ['created'], ['defibrillator'], ['drinking'], ['ele'], ['embankment'], ['entrance'], ['ferry'], ['foot'], ['fountain'], ['fuel'], ['gate'], ['golf'], ['gps'], ['grave'], ['highway'], ['horse'], ['hospital'], ['house'], ['landuse'], ['layer'], ['leisure'], ['man'], ['manmade'], ['market'], ['marketplace'], ['maxheight'], ['name'], ['natural'], ['noexit'], ['oneway'], ['park'], ['parking'], ['pgs'], ['place'], ['worship'], ['playground'], ['police'], ['police station'], [''], ['post'], ['post box or mail'], ['power'], ['powerstation'], ['private'], ['public'], ['railway'], ['ref'], ['residential'], ['restaurant'], ['road'], ['route'], ['school'], ['shelter'], ['shop'], ['source'], ['sport'], ['toilet'], ['toilets'], ['tourism'], ['unknown'], ['vehicle'], ['vending'], ['vending machine'], ['village'], ['wall'], ['waste'], ['water'], ['waterway'], ['worship']]
我猜这意味着程序无法在二进制文件中搜索单词。那么,如何解决呢?在
word2vec关键词提取 python_如何从word2vec的Google预训练模型中提取单词向量?相关推荐
- word2vec关键词提取 python_【不可思议的Word2Vec】 3.提取关键词
本文主要是给出了关键词的一种新的定义,并且基于Word2Vec给出了一个实现方案.这种关键词的定义是自然的.合理的,Word2Vec只是一个简化版的实现方案,可以基于同样的定义,换用其他的模型来实现. ...
- python提取文件指定列_如何从csv文件中提取特定列并使用python绘图
我有一个csv文件,其中包含以下几行数据:# Vertex X Y Z K_I K_II K_III J 0 2.100000e+00 2.000000e+00 -1.000000e-04 0.000 ...
- python从字符串中提取数字并转换为相应数据类型_python从PDF中提取数据的示例
01 前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都 ...
- java pdfbox 提取pdf 标题_java – 使用pdfbox从PDF文件中提取文本
我试图使用pdfbox从PDF文件中提取文本,但不是作为命令行工具,而是在我的 Java应用程序中.我正在使用jsoup下载pdf. res = Jsoup .connect(host+action) ...
- php 提取文字,如何使用PHP从word文档中提取文本内容?
我想用PHP从word文档中提取文本内容. 我在Microsoft Word for Mac 2011中创建了一个新的单词文档. 编辑:也通过在Windows 7中的Microsoft Word中创建 ...
- python在txt文件中提取段落_如何使用python从.txt文件中提取段落?
我需要从一个.txt文件中提取段落,其中每个段落都以字母摘要开头,如下所示.在 文摘:大规模多输入多输出天线系统.毫米波通信和超密集网络被广泛认为是 促进5G开发和部署的三大关键因素 系统.我们提出了 ...
- gis怎么提取水系_如何使用ArcGIS从DEM数据中提取水系
1. 概述 在比较偏远的地方,往往会缺少水文信息,我们可以通过ArcGIS对高程DEM数据进行水文分析,为地表水流建立模型,进而获取到该地的水文信息,DEM数据精度越高,获取到的水文数据精度也就越高, ...
- python从文件中提取特定文本_使用Python从HTML文件中提取文本
我发现最好的一段代码用于提取文本,而不需要javascript或不需要的东西:import urllibfrom bs4 import BeautifulSoupurl = "http:// ...
- pythonopencv提取圆内图像_python – 使用OpenCV从图像中提取多边形给定...
使用cv2.fillConvexPoly以便您可以指定2D点阵列并定义一个蒙版,该蒙版填充由这些点定义的形状在蒙版中为白色.如果多边形中定义的点是凸的(因此名称为fillConvexPoly),则应该 ...
最新文章
- SSO(Single Sign-on) in Action
- ACE中的Proactor和Reactor
- 如何简单的在 ASP.NET Core 中集成 JWT 认证?
- linux 内核协助的探测
- python 共轭转置_python矩阵运算,转置,逆运算,共轭矩阵实例
- linux----LAMP之编译安装apache
- SQL to ElasticSearch DSL
- [bzoj1062] [NOI2008]糖果雨
- Mcafee(麦咖啡) 无法升级的解决办法 附:进程详解,设置指南
- C++实现简单读取Obj格式文件
- python excel数据框_Python快速设置Excel表格边框
- python猜拳小游戏
- 绕过SSL双向校验抓取Soul App的数据包
- 学生选课系统功能分析
- 最新计算机ppt,计算机应用基础(最新版)ppt课件
- C/C++编程:reference to non-static member function must be called
- 八、DOM(一) -- DOM对象
- ssh免密登陆远程linux服务器
- 用户行为分析的背景以及几种模型分析、实例分析——淘宝用户行为分析
- swing入门教程(一) swing简介