fastText中常见问题汇总:
1、什么是fastText
fastText是一个用于文本分类和词向量表示的库,它能够把文本转化成连续的向量然后用于后续具体的语言任务,目前教程较少!

2、为什么训练的模型非常大
fastText对字和字符串使用hash表,hash表的大小将直接影响模型的大小,可以通过选项-hash来减少词汇hash表的大小,一个可选的好参数时20000。另一个影响模型大小重要的因素是训练向量的维度大小(-dim),如果维度缩小模型将大大减小,但同时也会很大程度影响模型的性能,因为向量维度越大则捕获的信息越多,当然还有一种将模型变小的方法是使用量化选项(-quantize),命令如下所示:

./fasttext quantize -output model
3、模型中使用单词短语而不是单个单词最佳方式是什么
目前使用单词短语或句子最好的方式是使用词向量的bow(bag of words),另一种方式例如New York,我们可以将其处理成New_York也会有帮助

4、为什么fastText甚至可以为语料库中未出现的单词产生词向量
fastText一个重要的特性便是有能力为任何单词产生词向量,即使是未出现的,组装的单词。主要是因为fastText是通过包含在单词中的子字符substring of character来构建单词的词向量,正文中也有论述,因此这种训练模型的方式使得fastText可以为拼写错误的单词或者连接组装的单词产生词向量

5、为什么分层softmax在效果上比完全softmax略差
分层softmax是完全softmax的一个近似,分层softmax可以让我们在大数据集上高效的建立模型,但通常会以损失精度的几个百分点为代价

6、可以在GPU上运行fastText项目吗
目前fastText仅仅可运行在CPU上,但这也是其优势所在,fastText的目的便是要成为一个高效的CPU上的分类模型,可以允许模型在没有CPU的情况下构建

7、可以使用python语言或者其他语言使用fastText嘛
目前在GitHub上有很少的关于fastText的其他语言实现的非官方版本,但可以负责任的说,是可以用tensorflow实现的

8、可以在连续的数据集上使用fastText吗
不可以,fastText仅仅是用于离散的数据集,因此无法直接在连续的数据集上使用,但是可以将连续的数据离散化后使用fastText

9、数据中存在拼写错误,我们需要对文本进行规范化处理吗
如果出现的频率不高,没有必要,对模型效果不会有什么影响

10、在模型训练时遇到了NaN,为什么会这样
这种现象是可能出现的,很大原因是因为你的学习率太高了,可以尝试降低一下学习率直到不再出现NaN

11、系统无法编译fastText,怎么处理
尝试更新一下编译器版本,很大可能就是因为编译器太旧了

12、如何完全重现fastText的运行结果,为什么每次运行的结果都有些差异
当多次运行fastText时,因为优化算法异步随机梯度下降算法或Hogwild,所以每次得到的结果都会略有不同,如果想要fastText运行结果复现,则必须将参数thread设置为1,这样你就可以在每次运行时获得完成相同的性能
--------------------- 
作者:feilong_csdn 
来源:CSDN 
原文:https://blog.csdn.net/feilong_csdn/article/details/88655927 
版权声明:本文为博主原创文章,转载请附上博文链接!

fastText中常见问题汇总相关推荐

  1. HoloLens 2 打包发布过程中 常见问题汇总(长期更新)

    HoloLens 2 打包发布过程中 常见问题汇总(长期更新)                   目 录 1. Unity 中发布Hololens的时候界面变灰,提示无发布权限. 2. Unity发 ...

  2. 期货开户中常见问题汇总

    期货公司提供全方位交易软件: 行情软件:文华.富远.彭博.通达信等: 交易软件:闪电手.文华财经.易盛.金仕达.TB.MC等软件,满足不同需求的投资者. 手机交易软件:支持云条件单.止盈止损.价格预警 ...

  3. PbootCMS建站系统日常使用过程中常见问题汇总

    博主抽空整理了一份PbootCMS新手常见问题导航.可以使用Ctrl+F进行搜索查阅. 或者你遇到其他棘手的问题也可以加群交流QQ群:PB教程网交流群,点击即可加入 汇总列表 1.PbootCMS图片 ...

  4. HTML中常见问题汇总贴

    1:html link标签有什么作用?html link标签的定义及属性介绍 2:CSS中@import url() 3:HTML中的div标签 4:<i>标签用来定义斜体字. 5:Htm ...

  5. 工作中常见问题汇总(不定期更新)

    基于工作中遇到的一些问题,总结一下经验: 单双引号的区别 大家都知道 php 里双引号可以解析变量,单引号不可以,其实换行符等特殊情况也需要双引号处理. $aWhiteIP = explode('\n ...

  6. Android系统编译过程中常见问题汇总(1)

    转自: http://www.2cto.com/kf/201204/127658.html 1.问题一:/bin/bash: bison: 未找到命令 解决方法:$ sudo apt-get inst ...

  7. 计算机报名为什么说我没有在系统用户中注册,硕士研究生网上报名常见问题汇总...

    硕士研究生网上报名常见问题汇总 登录: 1.登录时怎么看不见验证码? 答:看不见验证码是由于本地机器禁止了脚本实行,解决途径是:打开IE浏览器,点击[工具]->[Internet选项]-> ...

  8. 小米手机助手 云服务器错误,小米手机助手使用过程中的常见问题汇总解答

    小米助手是针对小米谁而开发的PC管理工具,您可以借助小米助手安装应用.备份数据.升级系统,甚至刷机等.不过,在使用中,大家也容易遇到一些问题,以下是小米助手常见问题汇总答疑. 小米手机助手在公测以来, ...

  9. 凤舞天骄服务器网络延迟,凤舞天骄游戏中新手玩家常见问题汇总

    经常见新手玩家游戏遇到不明白的地方只会世界喊问,逐个回答比较麻烦,现在我把一些游戏的常见问题汇总下,希望能给新手玩家一点帮助 一.新手村任务完成后,洛阳必须要寻找的NPC 1.洪域(284,155): ...

最新文章

  1. 平板电脑哪个品牌的好_平板电脑性价比排行 这些品牌你值得拥有
  2. Linux电源管理(5)_Hibernate和Sleep功能介绍【转】
  3. iPhone模拟器中程序的删除
  4. 如何使用ListView实现一个带有网络请求,解析,分页,缓存的公共的List页面来大大的提高工作效率
  5. 【转】DXErrorProvider与DxValidationProvider的使用
  6. mysql中表的约束,主键外键唯一键
  7. Android Bitmap 加载与像素操作
  8. 如何查看CentOS版本方法
  9. ocx控件注册和解除注册
  10. 图像质量评估---FID
  11. 2015年电商行业十大发展趋势分析预测
  12. 如何锻炼现货白银的心态?
  13. 猜数字小游戏,超级简单就可以实现哦
  14. linux传奇私服文件包,传奇私服服务器端文件结构
  15. 将文件保存到fpga
  16. Linux:安装和配置tomcat详细教程
  17. 封装的含义、封装的作用、如何封装、什么情况下封装?
  18. win10 uwp 打开文件管理器选择文件
  19. 小米手机(HM1SW)高通开发android程序全过程
  20. ios解锁动态图片_iPhone不越狱如何设置酷炫的动态锁屏壁纸

热门文章

  1. Python 类常用各种方法及区别
  2. 最新款服务器主板,服务器主板
  3. web前端入门学习 html5(1)
  4. 【中级软考】什么是McCabe测量法(McCabe复杂性度量、环路度量。计算有向弧数、结点数、强连通分量个数)
  5. 为什么两个数异或结果在与其中一个数异或得到的是另一个数?(a^b)^a=b
  6. Tensorflow yolov3 Intel Realsense D435 多进程multiprocessing线程池pool识别时间测试
  7. AcWing算法提高课 Level-3 第三章 图论
  8. pgsql 筛选中文字符正则_「每日一练」巧用Python对字符串进行筛选
  9. linux sql server硬件要求,SQL Server On Linux(20)—— SQL Server On Linux性能(6)——针对性能的配置(Linux层面)...
  10. html获取鼠标按键数,鼠标在IE、Firefox和Opera点击键所对应的数字代码