Python深度学习-NLP实战:字向量的训练与生成
系列文章目录
Python深度学习-NLP实战:深度学习系列培训教程
- Linux服务器软件的简单使用
- Linux命令的简单使用
- 训练集、测试集、验证集的介绍及制作
- 字向量的训练与生成
- 文本分类之SVM模型的简单使用
- 文本分类之FASTTEXT实现中文文本分类
- 命名实体识别(NER)之分词与序列标注、实体识别任务简介
前言
由于神经网络计算过程为矩阵化向量化运算,因此需要先将语料中汉字进行向量化表示,即常说的进行字嵌入(Word Embedding)。
这一步操作既可以下载网络上预训练好的通用字向量,也可以自己根据特定的任务语料训练针对性更强的字向量,甚至可以直接跳过预训练,让神经网络模型自己去训练字向量。
当然,字向量的优劣对模型性能的高低会产生一定的影响。
按序安装所需的Python第三方库
- 字向量的训练需要借助Python的第三方库,包括
numpy-mkl
、scipy
、gensim
。 - 先使用
pip
命令安装,若出现找不到合适版本其他错误提示,则手动安装其whl文件,链接如下:
【python第三方库点我下载】
将语料制作成训练所需的word_list
待第三方库装好了后,将自己需要训练的任务语料,参考以下解释制作word_list
。
解释
训练字向量所需的word_list为二维列表,若待处理语料如下格式:
从明天起,做一个幸福的人
喂马,劈柴,周游世界
从明天起,关心粮食和蔬菜
我有一所房子,面朝大海,春暖花开则word_list中元素结构为:
word_list = [
['从', '明', '天', '起', ',', '做', '一', '个', '幸', '福', '的', '人'],
['喂', '马', ',', '劈', '柴', ',', '周', '游', '世', '界'],
['从', '明', '天', '起', ',', '关', '心', '粮', '食', '和', '蔬', '菜'],
['我', '有', '一', '所', '房', '子', ',', '面', '朝', '大', '海', ',', '春', '暖', '花', '开']
]
即每一个小列表均由一个句子的单字组成(含标点符号)。
训练生成字向量文件
# 字向量训练代码
‘’‘
min_count=1 :最小字频,即频数大于等于1的字参与字向量训练
size=128 :设置的字向量维度为128维
’‘’
from gensim.models import word2vec
import codecsmodel = word2vec.Word2Vec(word_list, min_count=1, size=128)
fw = codecs.open("word_vec.txt", "w", "utf-8")
fw.write(str(len(model.wv.vocab.keys())) + " " + "128")
fw.write("\n")
for k in model.wv.vocab.keys():fw.write(k + " " + ' '.join([str(wxs) for wxs in model[k].tolist()]))fw.write("\n")
print('done')
在正确环境下运行代码,待训练完成后,即在当前路径下生成“word_vec.txt”
字向量文件。
写在最后
【学习交流】
WX:WL1498544910
【文末小宣传】
----博主自己开发的小程序,希望大家点赞支持一下,谢谢!-----
Python深度学习-NLP实战:字向量的训练与生成相关推荐
- Python深度学习-NLP实战:命名实体识别(NER)之分词与序列标注、实体识别任务简介
系列文章目录 Python深度学习-NLP实战:深度学习系列培训教程 Linux服务器软件的简单使用 Linux命令的简单使用 训练集.测试集.验证集的介绍及制作 字向量的训练与生成 文本分类之SVM ...
- 深度学习项目实战——1.基于WordCloud词云生成
深度学习项目实战--1.基于WordCloud词云生成 准备 安装依赖库 pip install wordcloud matplotlib jieba pillow WordCloud()可选的参数 ...
- Python深度学习企业实战之TensorFlow的底层原理及安装
(一)TensorFlow 的底层原理 TensorFlow 是一个用于训练深度学习模型的强大开源软件库,由 Google Brain 小组推出. 基本原理是定义一个用来计算的图(可以简称为计算图), ...
- 【重磅干货】Python、机器学习、深度学习算法实战和应用必备书籍
[导读]首先祝大家中秋佳节快乐,乘此良辰美景,今天就给大家发一波福利干货!本文给大家分享机器学习.深度学习算法实战和应用必备的4本"宝藏"书.具体书籍展示如下:(文末提供下载方式! ...
- Python深度学习实战:声呐返回值分类
Python深度学习实战:声呐返回值分类 声呐物体分类数据 简单的神经网络 预处理数据以增加性能 调整模型的拓扑和神经元 缩小网络 扩大网络 总结 本章我们使用Keras开发一个二分类网络.本章包括: ...
- Python深度学习实战:多类花朵分类
Python深度学习实战:多类花朵分类 鸢尾花分类数据集 导入库和函数 指定随机数种子 导入数据 输出变量编码 设计神经网络 用K折交叉检验测试模型 总结 本章我们使用Keras为多类分类开发并验证一 ...
- 【PyTorch深度学习项目实战100例】—— Python+OpenCV+MediaPipe手势识别系统 | 第2例
前言 大家好,我是阿光. 本专栏整理了<PyTorch深度学习项目实战100例>,内包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集. 正在更新 ...
- 深度学习NLP领域文本生成总结
最近也不知道干啥了,索性把这个坑填完,也算是对自己研一的一些总结吧. 文章目录 前言 一.神经网络与深度学习 二.神经网络的过拟合与正则化 三.深度学习的优化算法 四.卷积神经网络 五.循环神经网络 ...
- 一文概述2017年深度学习NLP重大进展与趋势
本文,我将概述 2017 年深度学习技术在 NLP 领域带来的进步.可能会有遗漏,毕竟涵盖所有论文.框架和工具难度太大.我想和大家分享这一年我最喜欢的一些研究.我认为 2017 年是 NLP 领域的重 ...
最新文章
- 简单的 基于seajs一个base基础库
- CISS.SideMenu的bug
- css3 - 语言伪类选择器
- 关于windows的version和OS build version
- private-bower
- 【编译原理笔记14】中间代码生成:布尔表达式的回填,控制流语句的回填,switch语句的翻译,过程调用语句的翻译
- 长春工业大学计算机组成原理考试开卷考吗,计算机组成原理期末复习资料
- linux执行命令在哪,在linux终端中执行root命令有哪些方法
- Cocos Creator 实现虚拟摇杆
- 如何配置JLINK给STM32单片机下载程序
- 烽火交换机S2000单独划分VLAN的方法
- 天才小毒妃 第917章 深藏不露大财主
- windows 无法停止ics_Win10系统ICS服务启动后停止怎么办
- ipv4地址的编码长度为_IPv4 中IP地址的长度为 ( ) 位,IPv6中IP地址的长度位 ( ) 位。_建筑施工技术答案_学小易找答案...
- 面具root后如何解决SafetyNet不通过-SafetyNet API错误解决办法
- 微信公众平台订阅号、服务号和企业号三者之间的区别与联系
- 计算机专业名词(缩写、全称、中文全称)
- COGNOS安装笔记
- 网站登录入口大全|搜索引擎登录入口
- 苹果手机计算机隐藏应用,超实用!15个苹果手机的隐藏功能,不看你手机就白买了!...
热门文章
- vlookup使用步骤_vlookup怎么用详细步骤(vlookup函数的使用方法是什么)
- 2022王式安概率论辅导讲义+辅导讲义严选题pdf版
- 微信之父张小龙:怎样做简单的产品经理?二
- 「公开课实录」幻境视界周志强:艺术+VR,一次非冲动的完美跨界
- mac 电脑CPU温度怎么看?怎么可以监控Mac CPU温度,为什么我的 MacBook Air 这么热?
- 安卓模拟器使用Genymotion
- cad自定义菜单cui_AutoCAD.NET二次开发:创建自定义菜单(AcCui)
- 《Go程序设计语言》中文版翻译错误
- C语言的变量类型(int、short、char、float...)及变量类型转换详解
- 15个常用的JavaScript简写技巧