1.词向量预训练模型的优势:

(1)训练和保存含有语义信息的词向量,在用于模型训练之前,enbedding的过程同样带有语义信息,使模型训练的效果更好;

(2)可以用预训练好的词向量模型直接计算两个词和文本的相似度,常推荐用余弦相似度计算;

2.词向量预训练模型的限制因素:

(1)对训练语料的要求非常高,要求训练语料大而全,所以训练起来比较费时间,并且训练语料的来源也是个问题;

(2)公开的预训练模型一般都是用大量的公共数据训练的,如百科、文献、报纸等公开数据集,所以只能适用于一些通用型的机器学习任务,像医学、生物等领域就不太实用。

3.自己训练词向量的全流程:

(1)准备数据:我这边是训练的电子病历数据,将来也是用于电子病历的enbedding过程,所以我这边只准备了电子病历数据,大概是1000w+的数据。

(2)清洗数据:电子病历数据的清洗比较麻烦,首先,二次脱敏,保证将姓名、医院名、地市名称以及一些相关的电话和编号等信息脱敏干净,一是防止隐私泄露,二是防止这些噪声的影响训练效果。

(3)选用模型:word2vec中的CBOW:

(4)代码如下:

from gensim.models import Word2Vec
import pandas as pd
import numpy as np
import re
import jieba

数据读取:数据量太大,不建议用excel,无内存限制当我没说

pd_data = pd.read_excel('data/emr_500w.xlsx')

清洗一下数据

def clean_data(data):res = re.sub('[\s@\u3000\u2002\?\*%#¥&::,,。.-_——?、《》;;]+', ' ' ,data)return resres = pd_data.text.apply(lambda x : jieba.lcut(clean_data(x))).to_list()train_data = [i for lis in res for i in lis if i.strip()]train_data_02 = []
for i in res:lis_ = [j for j in i if j.strip()]train_data_02.append(lis_)

参数设置和参数解释:
·  sentences:可以是一个list,对于大语料集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建。
·  sg: 用于设置训练算法,默认为0,对应CBOW算法;sg=1则采用skip-gram算法。
·  size:是指特征向量的维度,默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。
·  window:表示当前词与预测词在一个句子中的最大距离是多少。Harris 在 1954 年提出的分布假说( distributional hypothesis)指出, 一个词的词义由其所在的上下文决定。所以word2vec的参数中,窗口设置一般是5,而且是左右随机1-5(小于窗口大小)的大小,是均匀分布,随机的原因应该是比固定窗口效果好,增加了随机性,个人理解应该是某一个中心词可能与前后多个词相关,也有的词在一句话中可能只与少量词相关(如短文本可能只与其紧邻词相关)。
·  alpha: 是学习速率
·  seed:用于随机数发生器。与初始化词向量有关。
·  min_count: 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉, 默认值为5。该模块在训练结束后可以通过调用model.most_similar('电影',topn=10)得到与电影最相似的前10个词。如果‘电影’未被训练得到,则会报错‘训练的向量集合中没有留下该词汇’。
·  max_vocab_size: 设置词向量构建期间的RAM限制。如果所有独立单词个数超过这个,则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
·  sample: 高频词汇的随机降采样的配置阈值,默认为1e-3,范围是(0,1e-5)
·  workers参数控制训练的并行数。
·  hs: 如果为1则会采用hierarchica·softmax技巧。如果设置为0(defau·t),则negative sampling会被使用。
·  negative: 如果>0,则会采用negativesamp·ing,用于设置多少个noise words
·  cbow_mean: 如果为0,则采用上下文词向量的和,如果为1(defau·t)则采用均值。只有使用CBOW的时候才起作用。
·  hashfxn: hash函数来初始化权重。默认使用python的hash函数
·  iter: 迭代次数,默认为5
·  trim_rule: 用于设置词汇表的整理规则,指定那些单词要留下,哪些要被删除。可以设置为None(min_count会被使用)或者一个接受()并返回RU·E_DISCARD,uti·s.RU·E_KEEP或者uti·s.RU·E_DEFAU·T的函数。
·  sorted_vocab: 如果为1(defau·t),则在分配word index 的时候会先对单词基于频率降序排序。
·  batch_words:每一批的传递给线程的单词的数量,默认为10000。这里我认为是在训练时,控制一条样本(一个句子)中词的个数为10000,大于10000的截断;训练时依次输入batch_words的2*window(实际上不一定是2*window,因为代码内部还对[0,window]取了随机。

 模型训练:sg没写,默认CBOW;训练50维度;word2vec的参数中,窗口设置一般是5,而且是左右随机1-5(小于窗口大小)的大小,是均匀分布,随机的原因应该是比固定窗口效果好,增加了随机性;min_count = 1控制词频和筛选;iter = 10迭代10次;

model = Word2Vec(train_data_02, size=50, window=5, min_count=1, workers=8,  sg=0, batch_words=1500,iter = 10)

模型保存:

# 第一种
# model = Word2Vec.load(word2vec.model)
model.save('emr2vec.model')
# 第二种
# model = gensim.models.KeyedVectors.load_word2vec_format('word2vec.bin',binary=True)
model.wv.save_word2vec_format('emr2vec.bin')
# 第三种
# gensim.models.KeyedVectors.load_word2vec_format('word2vec.txt',binary=False)
model.wv.save_word2vec_format('emr2vec.txt')

测试:导入模型

model = Word2Vec.load("emr2vec.model")
#筛选10个与当前词最近的词向量
model.wv.similar_by_word("脑梗死", topn=10)

结果: 

Python word2vec训练词向量,电子病历训练词向量,超简单训练电子病历的词向量,医学电子病历词向量预训练模型相关推荐

  1. 《预训练周刊》第23期:Smart Bird:解决变换器性能瓶颈的新方法、Prompt:如何提升预训练模型的迁移效果...

    No.23 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第23期&l ...

  2. python词云图制作壮观天体照_超简单:快速制作一款高逼格词云图

    词云图,也叫文字云,是对文本中出现频率较高的"关键词"予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨. 一.先看看几个词云图 ...

  3. python编程midi键盘按键错乱_键盘按键错乱超简单解决教程

    在使用台式电脑和笔记本电脑的时候会遇到键盘错乱的问题,比如我们按J,K键确出现数字键,完全的错了,这是怎么回事呢,其实原因有几种情况,下面就教大家来解决. 方法一.按键切换 键盘字母数字多功能的数字键 ...

  4. 采用预训练模型来训练新的模型

    一.为什么需要使用预训练模型? 当可用的数据集较少时,我们从头开始训练的自己的卷积神经网络,想要将模型的精度会十分困难,如果我们想要进一步提高精度,因此下一步我们需要使用预训练的模型. 想要将深度学习 ...

  5. 《智源社区周刊:预训练模型》第2期:Facebook用“预微调”改进预训练性能、再议GPT-3中的东方主义偏见...

    超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第2期<智源社区周刊:预训练模型>,从论文推荐.研究动态.热点讨论等几个维度推 ...

  6. 《智源社区周刊:预训练模型》第1期:吴恩达团队医疗影像预训练、快手落地万亿参数模型...

    超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了<智源社区周刊:预训练模型>,从研究动态.行业资讯.热点讨论等几个维度推荐最近 ...

  7. Pytorch中使用Bert预训练模型,并给定句子得到对应的向量

    写在前面 本次的需求是:通过预训练好的Bert模型,得到不同语境下,不同句子的句向量.相比于word2vec.glove这种静态词向量,会含有更丰富的语义,并能解决不同场景不同意思的问题. 建议大家先 ...

  8. Python Word2vec训练医学短文本字/词向量实例实现,Word2vec训练字向量,Word2vec训练词向量,Word2vec训练保存与加载模型,Word2vec基础知识

    一.Word2vec概念 (1)Word2vec,是一群用来产生词向量的相关模型.这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本.网络以词表现,并且需猜测相邻位置的输入词,在word2 ...

  9. 常用的中文预训练模型、预训练词向量下载地址收藏

    中文预训练模型下载 原版:https://huggingface.co/models Google原版bert:https://github.com/google-research/bert 中文XL ...

最新文章

  1. 和12岁小同志搞创客开发:手撕代码,做一款节拍电子鼓
  2. USB协议基础知识笔记
  3. Linux的tty设备介绍
  4. Linux 串口编程分析
  5. CSS控制表格的方法
  6. superset设置自动刷新
  7. 前端也要懂Http缓存机制
  8. 获取数组名称 php,php 获取美国50个州的名称、简写对应数组用法示例
  9. android -------- 解决NDK开发中的 Method 'NewStringUTF' could not be resolved
  10. io vivado 怎么查看ps_vivado学习之PS与PL通信
  11. Python的基本数据类型(1)
  12. review一下上一年的积累
  13. php fckeditor,PHP FCKeditor使用说明
  14. Android播放器框架分析之AwesomePlayer
  15. yolov7训练自己的数据集
  16. java怎么下载我的世界手机版_我的世界JAVA版手机版
  17. 新世纪大学英语(第二版)综合教程第一册 Unit 2 (中英翻译和重点单词)
  18. [跨境工具通]SHOPIFY有哪些好用的流量推广工具?10款免费工具了解一下~
  19. 2010数据库大事记
  20. python爬虫抖音音浪_爬虫抖音_抖音淘宝联盟入驻条件

热门文章

  1. 前端实现括号匹配,假如字符串有且仅有[],{},(),''几种,判断字符串是否符合规格
  2. 给你n个数,其中有且仅有一个数出现了奇数次,其余的数都出现了偶数次。用线性时间常数空间找出出现了奇数次的那一个数。...
  3. flink checkpoint
  4. oracle数据库资源管理器,ORACLE资源管理器概念及试验(OCM复习)
  5. [交互问题]We‘re sorry but ***** doesn‘t work properly without JavaScript enabled. Please enable it to co
  6. Java使用Poi读取Excel数据(exor)
  7. buu reverse xor
  8. REALTEK_WIFI 驱动移植说明
  9. office365字体选项卡里的字体发虚不清晰
  10. 【Android】Android Broadcast源码解析