蜡炬教育:如何处理机器学习中大型数据的加载问题?
原标题:蜡炬教育:如何处理机器学习中大型数据的加载问题?
蜡炬教育老师表示,在处理机器学习算法时,经常会因为数据库太大而导致无法放入内存中,而遇到这样几个问题:当运行数据集算法而导致崩溃时如何解决?当需要处理大容量数据文件时该如何加载?如何方便快捷的解决内存不足的问题?
针对以上问题,蜡炬教育老师给出7个建议:
1.分配更多内存
某些ML工具或数据库默认内存配置不合理,可以看看是否可以手动分配。
2.使用较小样本
确认是否需要处理所有数据?在对最终数据拟合前,使用随机抽取数据样本这个示例即可。
3.使用内存更大的设备
可以租用大内存的服务器,这样可以在物理手段上获取更大的计算能力。
4.更改数据格式
可以通过更改数据格式来加快数据加载并降低内存使用率,比如二进制格式。
5.流数据或使用渐进加载
可以将数据逐步加载到内存中进行使用。
6.使用关联数据库
从内部来看,存储在磁盘上的数据可以逐步加载,并可以使用标准语言(SQL)来进行查询。
7.使用大型数据平台
比如用Mahout机器学习库的Hadoop以及用MLLib库的Spark,它们是为处理非常大的数据集专门设计的平台。
蜡炬教育老师说到,如果遇到数据库太大无法放入内训的相关问题,可以从如上7个方法中寻找解决办法。
转载于:https://blog.51cto.com/14355900/2401928
蜡炬教育:如何处理机器学习中大型数据的加载问题?相关推荐
- 蜡炬教育:机器学习的12条核心知识
原标题: 蜡炬教育:机器学习的12条核心知识 机器学习算法可以通过概括示例来确定如何执行重要任务.在手动编程不是这样的情况下,这通常是可行且成本有效的.随着更多数据的出现,可以解决更加雄心勃勃的问题. ...
- 在PyCharm中大型数据集indexing...加载缓慢的问题
** 在PyCharm中大型数据集indexing-加载缓慢的问题 这是由于在工程目录data下导入了过大的NTU-RGBD(13.4G)骨骼数据集导致的加载缓慢问题,在加载过程中有可能会出现以下问题 ...
- Cesium中地形数据的加载
在cesium中为了看到更真实的世界,加载地形数据是必不可少的. 有地形数据和没有地形数据进行比较,就会一目了然了. 说明:1.地形数据是无法单独展示的,地形数据需要结合影像图或者普通瓦片来展示才能看 ...
- mint-ui 中 Infinite scroll 在tab-container中使用数据全部加载的问题
项目中用到了Infinite scroll 这个组件,但是初始化的时候,getList总会请求两次, 网上查了部分资料,如 <ul class="mui-table-view &quo ...
- cesium获取模型高度_Cesium中地形数据的加载
Cesium开发中,如果想要看到真实感,地形数据(DEM)不可或缺.但是很多非GIS专业的人,对地形数据的定位不清晰,不明白地形数据如何展示. 最近很多人问我这个问题,综合看下来,主要问题就集中在地形 ...
- 新手学大数据、机器学习相关开发技术,蜡炬教育提醒会经历这几个阶段
原标题:蜡炬教育:新手学大数据.机器学习相关开发技术,要经历这几个阶段 蜡炬教育任课老师说,学习一门新技术其实不难,但很多人越学越迷茫,归根结底是对要学的东西没有系统化的认识,学习起来没有规划. 作为 ...
- 从重采样到数据合成:如何处理机器学习中的不平衡分类问题?
从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 2017-03-19 13:17 来源:机器之心 技术 原标题:从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 选自Analytic ...
- 从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载 2017年08月01日 17:09:03 标签: 机器学习 / 数据 719 转自:http://www.sohu.com/a/12
从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载 2017年08月01日 17:09:03 标签: 机器学习 / 数据 719 转自:http://www.sohu.com/a/1293 ...
- 蜡炬教育:我们的学员很受企业欢迎,因为他们去了就能直接工作
原标题:蜡炬教育:我们的学员很受企业欢迎,因为他们去了就能直接工作 蜡炬教育负责人在接受采访时表示,他们的学员很受企业欢迎,经常有公司的Hr跟蜡炬教育的就业老师联系,希望从学员中找到合适的员工. 蜡炬 ...
最新文章
- 有哪些好用的远程办公软件推荐?
- java 给控件添加边框_Android UI 利用Drawable Shape给控件加边框/立体效果
- 【Android】MTK Android 源码开发环境搭建
- python写web自动化_Web接口开发与自动化测试——基于Python语言
- 负载均衡在分布式架构中是怎么玩起来的?
- Cris 的 Scala 笔记整理(八):面向对象中级-封装
- Cocos2dx 3.0 过渡篇(二十六)C++11多线程std::thread的简单使用(上)
- 未来,突破束缚是唯一的选择?
- 如何用cool edit剪辑拼接音频文件
- matlab假设网格颜色,MATLAB 画颜色网格图
- jsoneditor
- 当前日期或 *(星号)显示在 think-cell 标签中
- 【合宙GSM模块Air202 烧录iRTU固件连接阿里云】
- VNC实现Windows远程访问Ubuntu 16.04(无需安装第三方桌面)
- OSChina 周五乱弹 ——什么样的工作每天都有艳遇
- 世界读书日送你畅销好书!前所未有4折购书福利
- m4a怎么转换成mp3格式?
- Nginx是什么,为什么使用Nginx
- ETHA Lend完成160万美元融资---为DeFi领域带来全新的收益优化协议
- stm32使用dsp库,结合Matlab进行FIR滤波器设计