系列文章目录

Python深度学习-NLP实战:深度学习系列培训教程

  1. Linux服务器软件的简单使用
  2. Linux命令的简单使用
  3. 训练集、测试集、验证集的介绍及制作
  4. 字向量的训练与生成
  5. 文本分类之SVM模型的简单使用
  6. 文本分类之FASTTEXT实现中文文本分类
  7. 命名实体识别(NER)之分词与序列标注、实体识别任务简介

前言

由于神经网络计算过程为矩阵化向量化运算,因此需要先将语料中汉字进行向量化表示,即常说的进行字嵌入(Word Embedding)。
这一步操作既可以下载网络上预训练好的通用字向量,也可以自己根据特定的任务语料训练针对性更强的字向量,甚至可以直接跳过预训练,让神经网络模型自己去训练字向量。
当然,字向量的优劣对模型性能的高低会产生一定的影响。

按序安装所需的Python第三方库

  1. 字向量的训练需要借助Python的第三方库,包括numpy-mklscipygensim
  2. 先使用pip命令安装,若出现找不到合适版本其他错误提示,则手动安装其whl文件,链接如下:
    【python第三方库点我下载】

将语料制作成训练所需的word_list

待第三方库装好了后,将自己需要训练的任务语料,参考以下解释制作word_list

解释
训练字向量所需的word_list为二维列表,若待处理语料如下格式:
从明天起,做一个幸福的人
喂马,劈柴,周游世界
从明天起,关心粮食和蔬菜
我有一所房子,面朝大海,春暖花开则word_list中元素结构为:
word_list = [
['从', '明', '天', '起', ',', '做', '一', '个', '幸', '福', '的', '人'],
['喂', '马', ',', '劈', '柴', ',', '周', '游', '世', '界'],
['从', '明', '天', '起', ',', '关', '心', '粮', '食', '和', '蔬', '菜'],
['我', '有', '一', '所', '房', '子', ',', '面', '朝', '大', '海', ',', '春', '暖', '花', '开']
]
即每一个小列表均由一个句子的单字组成(含标点符号)。

训练生成字向量文件

# 字向量训练代码
‘’‘
min_count=1 :最小字频,即频数大于等于1的字参与字向量训练
size=128 :设置的字向量维度为128维
’‘’
from gensim.models import word2vec
import codecsmodel = word2vec.Word2Vec(word_list, min_count=1, size=128)
fw = codecs.open("word_vec.txt", "w", "utf-8")
fw.write(str(len(model.wv.vocab.keys())) + " " + "128")
fw.write("\n")
for k in model.wv.vocab.keys():fw.write(k + " " + ' '.join([str(wxs) for wxs in model[k].tolist()]))fw.write("\n")
print('done')

在正确环境下运行代码,待训练完成后,即在当前路径下生成“word_vec.txt”字向量文件。

写在最后

【学习交流】
WX:WL1498544910

【文末小宣传】
----博主自己开发的小程序,希望大家点赞支持一下,谢谢!-----

Python深度学习-NLP实战:字向量的训练与生成相关推荐

  1. Python深度学习-NLP实战:命名实体识别(NER)之分词与序列标注、实体识别任务简介

    系列文章目录 Python深度学习-NLP实战:深度学习系列培训教程 Linux服务器软件的简单使用 Linux命令的简单使用 训练集.测试集.验证集的介绍及制作 字向量的训练与生成 文本分类之SVM ...

  2. 深度学习项目实战——1.基于WordCloud词云生成

    深度学习项目实战--1.基于WordCloud词云生成 准备 安装依赖库 pip install wordcloud matplotlib jieba pillow WordCloud()可选的参数 ...

  3. Python深度学习企业实战之TensorFlow的底层原理及安装

    (一)TensorFlow 的底层原理 TensorFlow 是一个用于训练深度学习模型的强大开源软件库,由 Google Brain 小组推出. 基本原理是定义一个用来计算的图(可以简称为计算图), ...

  4. 【重磅干货】Python、机器学习、深度学习算法实战和应用必备书籍

    [导读]首先祝大家中秋佳节快乐,乘此良辰美景,今天就给大家发一波福利干货!本文给大家分享机器学习.深度学习算法实战和应用必备的4本"宝藏"书.具体书籍展示如下:(文末提供下载方式! ...

  5. Python深度学习实战:声呐返回值分类

    Python深度学习实战:声呐返回值分类 声呐物体分类数据 简单的神经网络 预处理数据以增加性能 调整模型的拓扑和神经元 缩小网络 扩大网络 总结 本章我们使用Keras开发一个二分类网络.本章包括: ...

  6. Python深度学习实战:多类花朵分类

    Python深度学习实战:多类花朵分类 鸢尾花分类数据集 导入库和函数 指定随机数种子 导入数据 输出变量编码 设计神经网络 用K折交叉检验测试模型 总结 本章我们使用Keras为多类分类开发并验证一 ...

  7. 【PyTorch深度学习项目实战100例】—— Python+OpenCV+MediaPipe手势识别系统 | 第2例

    前言 大家好,我是阿光. 本专栏整理了<PyTorch深度学习项目实战100例>,内包含了各种不同的深度学习项目,包含项目原理以及源码,每一个项目实例都附带有完整的代码+数据集. 正在更新 ...

  8. 深度学习NLP领域文本生成总结

    最近也不知道干啥了,索性把这个坑填完,也算是对自己研一的一些总结吧. 文章目录 前言 一.神经网络与深度学习 二.神经网络的过拟合与正则化 三.深度学习的优化算法 四.卷积神经网络 五.循环神经网络 ...

  9. 一文概述2017年深度学习NLP重大进展与趋势

    本文,我将概述 2017 年深度学习技术在 NLP 领域带来的进步.可能会有遗漏,毕竟涵盖所有论文.框架和工具难度太大.我想和大家分享这一年我最喜欢的一些研究.我认为 2017 年是 NLP 领域的重 ...

最新文章

  1. 简单的 基于seajs一个base基础库
  2. CISS.SideMenu的bug
  3. css3 - 语言伪类选择器
  4. 关于windows的version和OS build version
  5. private-bower
  6. 【编译原理笔记14】中间代码生成:布尔表达式的回填,控制流语句的回填,switch语句的翻译,过程调用语句的翻译
  7. 长春工业大学计算机组成原理考试开卷考吗,计算机组成原理期末复习资料
  8. linux执行命令在哪,在linux终端中执行root命令有哪些方法
  9. Cocos Creator 实现虚拟摇杆
  10. 如何配置JLINK给STM32单片机下载程序
  11. 烽火交换机S2000单独划分VLAN的方法
  12. 天才小毒妃 第917章 深藏不露大财主
  13. windows 无法停止ics_Win10系统ICS服务启动后停止怎么办
  14. ipv4地址的编码长度为_IPv4 中IP地址的长度为 ( ) 位,IPv6中IP地址的长度位 ( ) 位。_建筑施工技术答案_学小易找答案...
  15. 面具root后如何解决SafetyNet不通过-SafetyNet API错误解决办法
  16. 微信公众平台订阅号、服务号和企业号三者之间的区别与联系
  17. 计算机专业名词(缩写、全称、中文全称)
  18. COGNOS安装笔记
  19. 网站登录入口大全|搜索引擎登录入口
  20. 苹果手机计算机隐藏应用,超实用!15个苹果手机的隐藏功能,不看你手机就白买了!...

热门文章

  1. vlookup使用步骤_vlookup怎么用详细步骤(vlookup函数的使用方法是什么)
  2. 2022王式安概率论辅导讲义+辅导讲义严选题pdf版
  3. 微信之父张小龙:怎样做简单的产品经理?二
  4. 「公开课实录」幻境视界周志强:艺术+VR,一次非冲动的完美跨界
  5. mac 电脑CPU温度怎么看?怎么可以监控Mac CPU温度,为什么我的 MacBook Air 这么热?
  6. 安卓模拟器使用Genymotion
  7. cad自定义菜单cui_AutoCAD.NET二次开发:创建自定义菜单(AcCui)
  8. 《Go程序设计语言》中文版翻译错误
  9. C语言的变量类型(int、short、char、float...)及变量类型转换详解
  10. 15个常用的JavaScript简写技巧