原标题:蜡炬教育:如何处理机器学习中大型数据的加载问题?

蜡炬教育老师表示,在处理机器学习算法时,经常会因为数据库太大而导致无法放入内存中,而遇到这样几个问题:当运行数据集算法而导致崩溃时如何解决?当需要处理大容量数据文件时该如何加载?如何方便快捷的解决内存不足的问题?

针对以上问题,蜡炬教育老师给出7个建议:


1.分配更多内存
某些ML工具或数据库默认内存配置不合理,可以看看是否可以手动分配。

2.使用较小样本
确认是否需要处理所有数据?在对最终数据拟合前,使用随机抽取数据样本这个示例即可。

3.使用内存更大的设备
可以租用大内存的服务器,这样可以在物理手段上获取更大的计算能力。

4.更改数据格式
可以通过更改数据格式来加快数据加载并降低内存使用率,比如二进制格式。

5.流数据或使用渐进加载
可以将数据逐步加载到内存中进行使用。

6.使用关联数据库
从内部来看,存储在磁盘上的数据可以逐步加载,并可以使用标准语言(SQL)来进行查询。

7.使用大型数据平台
比如用Mahout机器学习库的Hadoop以及用MLLib库的Spark,它们是为处理非常大的数据集专门设计的平台。

蜡炬教育老师说到,如果遇到数据库太大无法放入内训的相关问题,可以从如上7个方法中寻找解决办法。

转载于:https://blog.51cto.com/14355900/2401928

蜡炬教育:如何处理机器学习中大型数据的加载问题?相关推荐

  1. 蜡炬教育:机器学习的12条核心知识

    原标题: 蜡炬教育:机器学习的12条核心知识 机器学习算法可以通过概括示例来确定如何执行重要任务.在手动编程不是这样的情况下,这通常是可行且成本有效的.随着更多数据的出现,可以解决更加雄心勃勃的问题. ...

  2. 在PyCharm中大型数据集indexing...加载缓慢的问题

    ** 在PyCharm中大型数据集indexing-加载缓慢的问题 这是由于在工程目录data下导入了过大的NTU-RGBD(13.4G)骨骼数据集导致的加载缓慢问题,在加载过程中有可能会出现以下问题 ...

  3. Cesium中地形数据的加载

    在cesium中为了看到更真实的世界,加载地形数据是必不可少的. 有地形数据和没有地形数据进行比较,就会一目了然了. 说明:1.地形数据是无法单独展示的,地形数据需要结合影像图或者普通瓦片来展示才能看 ...

  4. mint-ui 中 Infinite scroll 在tab-container中使用数据全部加载的问题

    项目中用到了Infinite scroll 这个组件,但是初始化的时候,getList总会请求两次, 网上查了部分资料,如 <ul class="mui-table-view &quo ...

  5. cesium获取模型高度_Cesium中地形数据的加载

    Cesium开发中,如果想要看到真实感,地形数据(DEM)不可或缺.但是很多非GIS专业的人,对地形数据的定位不清晰,不明白地形数据如何展示. 最近很多人问我这个问题,综合看下来,主要问题就集中在地形 ...

  6. 新手学大数据、机器学习相关开发技术,蜡炬教育提醒会经历这几个阶段

    原标题:蜡炬教育:新手学大数据.机器学习相关开发技术,要经历这几个阶段 蜡炬教育任课老师说,学习一门新技术其实不难,但很多人越学越迷茫,归根结底是对要学的东西没有系统化的认识,学习起来没有规划. 作为 ...

  7. 从重采样到数据合成:如何处理机器学习中的不平衡分类问题?

    从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 2017-03-19 13:17 来源:机器之心 技术 原标题:从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 选自Analytic ...

  8. 从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载 2017年08月01日 17:09:03 标签: 机器学习 / 数据 719 转自:http://www.sohu.com/a/12

    从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载 2017年08月01日 17:09:03 标签: 机器学习 / 数据 719 转自:http://www.sohu.com/a/1293 ...

  9. 蜡炬教育:我们的学员很受企业欢迎,因为他们去了就能直接工作

    原标题:蜡炬教育:我们的学员很受企业欢迎,因为他们去了就能直接工作 蜡炬教育负责人在接受采访时表示,他们的学员很受企业欢迎,经常有公司的Hr跟蜡炬教育的就业老师联系,希望从学员中找到合适的员工. 蜡炬 ...

最新文章

  1. 有哪些好用的远程办公软件推荐?
  2. java 给控件添加边框_Android UI 利用Drawable Shape给控件加边框/立体效果
  3. 【Android】MTK Android 源码开发环境搭建
  4. python写web自动化_Web接口开发与自动化测试——基于Python语言
  5. 负载均衡在分布式架构中是怎么玩起来的?
  6. Cris 的 Scala 笔记整理(八):面向对象中级-封装
  7. Cocos2dx 3.0 过渡篇(二十六)C++11多线程std::thread的简单使用(上)
  8. 未来,突破束缚是唯一的选择?
  9. 如何用cool edit剪辑拼接音频文件
  10. matlab假设网格颜色,MATLAB 画颜色网格图
  11. jsoneditor
  12. 当前日期或 *(星号)显示在 think-cell 标签中
  13. 【合宙GSM模块Air202 烧录iRTU固件连接阿里云】
  14. VNC实现Windows远程访问Ubuntu 16.04(无需安装第三方桌面)
  15. OSChina 周五乱弹 ——什么样的工作每天都有艳遇
  16. 世界读书日送你畅销好书!前所未有4折购书福利
  17. m4a怎么转换成mp3格式?
  18. Nginx是什么,为什么使用Nginx
  19. ETHA Lend完成160万美元融资---为DeFi领域带来全新的收益优化协议
  20. stm32使用dsp库,结合Matlab进行FIR滤波器设计

热门文章

  1. Unity牧师与魔鬼小游戏
  2. 虚拟化 VMware ESXi(一)
  3. 炸裂!MySQL 82 张图带你飞
  4. Qt 控件设置透明和半透明方法汇总
  5. 桌面安装计算机,获取新计算机或重新安装Windows后快速安装桌面程序的4种方法 | MOS86...
  6. 误删除域用户后恢复用户环境的方法
  7. python中集合用什么表示_python中集合用法大全
  8. 集成模型-组合预测模型
  9. java jndi ldap_JNDI 与 LDAP
  10. 自然语言处理1 -- 分词