• 项目地址:https://github.com/BeJane/word2vec
  • 数据集链接: https://pan.baidu.com/s/1mnJedKLKZLqjH7940rz5iQ 提取码: 8phf

数据集

人民日报:2020年10月04日-2021年10月04日

  • 概况

    • 25590 articles
    • 742362 sentences
    • 0.021 billion words
    • 294730 tokens
    • 182004942 pairs (window size: 5)

训练参数

vector dimension: 100

window size: 5

K: 5

batch size: 50

epoch: 10

learning rate: 0.025

训练结果

  • loss下降曲线

  • 词向量保存

  • 词向量可视化

  • 相似性测试
words: 新冠
similar words:
[('肺炎', 0.8603816032409668),('抗击', 0.7354764342308044),('病毒', 0.7166163921356201),('延宕', 0.6780088543891907),('疫情', 0.6722403764724731),('内新冠', 0.6578879356384277),('疫苗', 0.6544620990753174),('接种', 0.6023126244544983),('同新冠', 0.5994764566421509),('冠状病毒', 0.5871719121932983)]
words: 发展
similar words:
[('旅游业', 0.6072622537612915),('创新性', 0.5869481563568115),('经济社会', 0.5864200592041016),('跨越式', 0.5672993659973145),('体育事业', 0.5610668063163757),('文旅', 0.5601040720939636),('高质量', 0.554404616355896),('黄河流域', 0.5506658554077148),('繁荣', 0.5431921482086182),('进步', 0.5419984459877014)]
words: 绿色
similar words:
[('低碳', 0.7634264230728149),('环保', 0.6420109272003174),('转型', 0.6213286519050598),('环境友好', 0.6132680773735046),('讲究卫生', 0.6122341156005859),('都市型', 0.6091085076332092),('绿色革命', 0.5904538035392761),('能源', 0.5856208205223083),('碳循环', 0.5794229507446289),('清洁', 0.5748923420906067)]
words: 北京
similar words:
[('未完待续', 0.6831703186035156),('专栏(', 0.673279345035553),('发本报', 0.6611239910125732),('汝新华社', 0.6597181558609009),('汪哲平本报', 0.6554037928581238),('张丹峰新华社', 0.6540434956550598),('杨文斌', 0.6522436141967773),('第比利斯', 0.652116596698761),('张芳曼本报', 0.6461266279220581),('沈亦伶本报', 0.6431300044059753)]
words: 数字
similar words:
[('数字化', 0.6296783685684204),('人工智能', 0.6016441583633423),('虚拟现实', 0.5961554646492004),('飞桨', 0.591392457485199),('开发者', 0.5806708335876465),('交互式', 0.5730010271072388),('裸眼', 0.5715974569320679),('及物', 0.5713117122650146),('全息', 0.5710457563400269),('信息技术', 0.5665836930274963)]
words: 产业
similar words:
[('生态旅游', 0.6470369696617126),('新兴产业', 0.6328831911087036),('优势产业', 0.6275804042816162),('委员会洛川县', 0.6137779355049133),('特色产业', 0.6064068675041199),('传统产业', 0.6043283939361572),('转型', 0.603561520576477),('一二三', 0.601521372795105),('产业化', 0.6010552048683167),('信创', 0.5984545946121216)]
words: 经济
similar words:
[('复苏', 0.5899767279624939),('贸易', 0.5835217237472534),('拉动', 0.5685859322547913),('疫后', 0.5623974800109863),('主动力', 0.5564263463020325),('主任医师孙', 0.5527517795562744),('主任吉林省田秋', 0.5423448085784912),('中巴', 0.5394772291183472),('服务业', 0.5384839177131653),('腾格里', 0.5380746126174927)]
  • 类比测试
男--博士,
女--?
[('硕士', 0.6023393869400024),('香港科技大学', 0.5548747181892395),('计算机系', 0.5405473709106445),('剑桥大学', 0.534896969795227),('李传锋', 0.5326829552650452),('南京农业大学', 0.5315748453140259),('旁听生', 0.5241110920906067),('郭光灿', 0.5227930545806885),('海归', 0.522708535194397),('药学院', 0.5192795395851135)]
女--女士,
男--?
[('刘先生', 0.5702798366546631),('李先生', 0.5457801818847656),('某某', 0.540930986404419),('感谢信', 0.5367707014083862),('陈女士', 0.521395742893219),('胡锡恩', 0.5200252532958984),('领养', 0.5141705870628357),('奶奶', 0.5098757147789001),('夏行', 0.5089772939682007),('一位', 0.5088501572608948)]
城市--建设,
农村--?
[('文化公园', 0.5251893997192383),('拔地而起', 0.5027098655700684),('廊道', 0.49922025203704834),('外环', 0.49078091979026794),('这座', 0.4868094027042389),('园林景观', 0.47893524169921875),('世界级', 0.4766378700733185),('长隆', 0.47415652871131897),('城市公园', 0.4703103303909302),('大运河', 0.4702015519142151)]
经济--发展,
生态环境--?
[('业态', 0.5431914329528809),('注入', 0.5175008177757263),('旅游业', 0.5149070024490356),('拉动', 0.507580041885376),('引擎', 0.503610372543335),('崛起', 0.5028665661811829),('文旅', 0.5023772716522217),('增长极', 0.5019749402999878),('重振', 0.49992120265960693),('增长点', 0.49920737743377686)]

人民日报训练word2vec实验相关推荐

  1. 【用户行为分析】 用wiki百科中文语料训练word2vec模型

    本文地址: http://blog.csdn.net/hereiskxm/article/details/49664845  前言 最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个 ...

  2. 中英文维基百科语料上的Word2Vec实验

    本文网址为:http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E ...

  3. 使用中文维基百科进行Word2Vec实验

    1. 环境及语料 1.1 环境 Homebrew Python jieba分词库 gensim库 1.2 下载维基百科语料 从这个链接下载http://download.wikipedia.com/z ...

  4. 中文维基百科语料上的Word2Vec实验

    说明:此文主要参考52nlp-中英文维基百科语料上的Word2Vec实验,按照上面的步骤来做的,略有改动,因此不完全是转载的.这里,为了方便大家可以更快地运行gensim中的word2vec模型,我提 ...

  5. 预训练word2vec,代码

    高频词在训练中可能不是那么有用.我们可以对他们进行下采样,以便在训练中加快速度. 为了提高计算效率,我们以小批量方式加载样本.我们可以定义其他变量来区分填充标记和非填充标记,以及正例和负例. 我们可以 ...

  6. 是否有可能从python中的句子语料库重新训练word2vec模型(例如GoogleNews-vectors-negative300.bin)?

    是否有可能从python中的句子语料库重新训练word2vec模型(例如GoogleNews-vectors-negative300.bin)? http://www.voidcn.com/artic ...

  7. 在物体检测任务上进行预训练的实验分析

    ©PaperWeekly 原创 · 作者|费玥姣 学校|西湖大学博士生 研究方向|视频预测 论文标题:An Analysis of Pre-Training on Object Detection 论 ...

  8. gensim流式训练word2vec模型,不需要一次性加载完整数据集

    首先训练文本train_text.txt文件内容如下: 优惠的政策和政府对产业发展的重视也吸引了更多医美企业来成都寻觅机遇.2018年成都医美机构的数量一度飙升至407家,较之前一年激增131家 中国 ...

  9. 多进程使用wikimedia数据训练word2vec模型

    语料库下载: 请参考:https://blog.csdn.net/weixin_35757704/article/details/115614112 1.训练Word2vec模型代码 单单使用gens ...

最新文章

  1. Dojo学习13 dijit.Tree 动态添加节点之一
  2. android之实现各个组件点击事件监听
  3. 《剑指offer》c++版本 4.二维数组中的查找
  4. 用SQL语句添加删除修改字段及一些表与字段的基本操作 .
  5. maven,阿里云国内镜像,提高jar包下载速度
  6. 全景图解高铁数据,谁是最有潜力的高铁城市?
  7. php判断字符串中是否包含某字符串
  8. 详解Python变量作用域
  9. day1 java基础回顾- 文件路径
  10. 施乐S2011设置IP地址,打印自检页方法
  11. java game nokia 5233 model,诺基亚S60/^3完美运行GBA游戏教程 重回孩提时代
  12. 调频去加重 matlab,调频广播中预加重和去加重问题的讨论.doc
  13. python小波去噪的方法_小波去噪基本概念
  14. android 自定义多边形,android自定义形状的按键实例代码
  15. user declined directory sharing Creating xxxx
  16. android实现高德地图实时导航,高德地图之实时导航
  17. 学习方法和学习经验总结
  18. 用指针写出strcmp函数
  19. java不会英语可以学习吗,详细说明
  20. HTML5+CSS3小实例:菜单栏图标悬停效果

热门文章

  1. 光谷码农·每日新闻(2019-05-10)
  2. Win10+非英伟达显卡+Anaconda+Pytorch安装stable diffusion
  3. 要钱的html模板,25+ 个免费和收费的企业网站模板
  4. Window 音频架构
  5. Bill Gates 在某大学毕业典礼上的演讲
  6. 农业银行K宝不能下载证书
  7. java基础 I/O流
  8. 张汉东:如何高效开发 Rust
  9. 名画384 齐白石《画选二十四幅》
  10. 好书推荐之《哈利波特与魔法石》 隐私策略(Privacy policy)