【云端大数据实战】大数据误区、大数据处理步骤分析
1.背景
2.对于大数据和云的一些误区
(1)误区一:云的计算能力是无穷的,不用考虑效率?
(2)误区二:数据量越大,预测效果越好?
大数据计算,顾名思义。就是需要一个很大的数据量,通过一些算法,找到它们和目标序列的特定规则和联系。这就容易造成一个误区,是不是数据量越大,结果准确。其实对于推荐系统来讲,当我们使用随机森林或是gbrt这些算法的时候,数据集在几百万的时候往往能得到比数据集在几千万的时候更好的计算效果。因为对于一个算法来讲,如果数据集过大,容易造成过拟合。
所以在面对一个真正的大数据集的时候,不要盲目的拿来全部训练,做好抽样和正负样本的比例调整,可能会得到更好的效果。
(3)误区三: 算法的参数是一成不变的?
def chooseBestFeatureToSplit(dataSet):numFeatures = len(dataSet[0]) - 1 #the last column is used for the labelsbaseEntropy = calcShannonEnt(dataSet)bestInfoGain = 0.0; bestFeature = -1for i in range(numFeatures): #iterate over all the featuresfeatList = [example[i] for example in dataSet]#create a list of all the examples of this featureuniqueVals = set(featList) #get a set of unique valuesnewEntropy = 0.0for value in uniqueVals:subDataSet = splitDataSet(dataSet, i, value)prob = len(subDataSet)/float(len(dataSet))newEntropy += prob * calcShannonEnt(subDataSet) infoGain = baseEntropy - newEntropy #calculate the info gain; ie reduction in entropyif (infoGain > bestInfoGain): #compare this to the best gain so farbestInfoGain = infoGain #if better than current best, set to bestbestFeature = ireturn bestFeature #returns an integer
3.大数据云处理步骤
from __future__ import division
def GetAverage(mat):n=len(mat)m= width(mat) num = [0]*mfor j in range(0,m): for i in mat:num[j]=num[j]+i[j] num[j]=num[j]/n return numdef width(lst):i=0for j in lst[0]:i=i+1return idef GetVar(average,mat): ListMat=[]for i in mat: ListMat.append(list(map(lambda x: x[0]-x[1], zip(average, i))))n=len(ListMat)m= width(ListMat) num = [0]*mfor j in range(0,m): for i in ListMat:num[j]=num[j]+(i[j]*i[j]) num[j]=num[j]/n return num def DenoisMat(mat):average=GetAverage(mat)variance=GetVar(average,mat)section=list(map(lambda x: x[0]+x[1], zip(average, variance))) n=len(mat)m= width(mat) num = [0]*mdenoisMat=[] for i in mat:for j in range(0,m):if i[j]>section[j]:i[j]=section[j]denoisMat.append(i) return denoisMat
(3)训练集采样
'''
Sampling archive@author: Garvin Li
'''
import randomdef RandomSampling(dataMat,number):try:slice = random.sample(dataMat, number) return sliceexcept:print 'sample larger than population'def SystematicSampling(dataMat,number): length=len(dataMat)k=length/numbersample=[] i=0if k>0 : while len(sample)!=number:sample.append(dataMat[0+i*k])i+=1 return sampleelse :return RandomSampling(dataMat,number)
4.总结
u010691898的专栏
/********************************
* 本文来自博客 “李博Garvin“
* 转载请标明出处:http://blog.csdn.net/buptgshengod
******************************************/
【云端大数据实战】大数据误区、大数据处理步骤分析相关推荐
- python中显示第三行数据_Python从零开始第三章数据处理与分析①python中的dplyr(1)...
前言 我经常使用R的dplyr软件包进行探索性数据分析和数据处理. dplyr除了提供一组可用于解决最常见数据操作问题的一致函数外,dplyr还允许用户使用管道函数编写优雅的可链接的数据操作代码. 现 ...
- 【观点见解】解读大数据的5个误区
[观点见解]解读大数据的5个误区 大数据并不会给你带来大麻烦,事实上,大数据能够帮助你尽量减少业务问题,还能帮助你作出战略性决策.但如果不搞清楚对大数据的一些误区,也可能会给你带来不必要的麻烦.下面就 ...
- Python微博地点签到大数据实战(二)POI与坐标
原文:http://m.blog.csdn.net/article/details?id=49018193 什么是POI? 无奈网上关于POI的解释大多是"只是白露级驱逐舰'夕立'的一个口癖 ...
- 大数据【Java开发转大数据学习路线分解】(不断细化ing)
技术点: 将基础的数仓搭建沉淀成自己的实践方法论 提高大数据实时处理平台的稳定性和高效性 提升自己分析定位及解决问题的能力 既懂得平台开发又懂得算法原理和应用 注重风控系统,监控大数据平台安全 前后端 ...
- 「数据ETL」从数据民工到数据白领蜕变之旅(六)-将Python的能力嫁接到SSIS中...
前一篇推文中,给大家演示了在SSIS上使用dotNET脚本,实现一些原生SSIS难以实现的功能,并冠以无限可能的说法. 充分复用python的现有优势 python的确是一门非常优秀的编程语言,特别是 ...
- 云端大数据实战记录-大数据推荐
前言 WHY 云:为什么我们需要云,大数据时代我们面对两个问题,一个是大数据的存储,一个是大数据的计算.由于数据量过大,在单个终端上运行效率过差,所以人们用云来解决这两个问题. WHAT IS 云:云 ...
- 工资8000以下的程序员注意了:《零coding数据大屏实战宝典.pdf》
马云曾说:"整个世界将变成数据,这还只是数据时代的开始.新浪潮即将来临,很多就业机会将被夺走.有些人会赶上潮流,变得富有和成功.但是对那些落后的人,未来将是痛苦的. 大数据从2013年一路发 ...
- R语言ggplot2可视化使用不连续的y轴、中断的Y轴来可视化数值分布差异很大的数据实战:把数据轴分为两个区间或者多个区间来匹配不同区间数据的可视化(因为有的数据可能10附近,有的数值可能1W附近)
R语言ggplot2可视化使用不连续的y轴.中断的Y轴来可视化数值分布差异很大的数据实战:把数据轴分为两个区间或者多个区间来匹配不同区间数据的可视化(因为有的数据可能10附近,有的数值可能1W附近) ...
- 《企业大数据系统构建实战:技术、架构、实施与应用》——第3章 企业大数据解决方案 3.1 企业大数据解决方案实现方式...
本节书摘来自华章计算机<企业大数据系统构建实战:技术.架构.实施与应用>一书中的第3章,第3.1节,作者 吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区"华章计算机 ...
最新文章
- [试卷]古诗文背诵(七年级上学期)
- 处理中文乱码_为什么PDF转换成Word后是乱码?这种PDF要怎么转换?
- update 后面能接子查询吗_只用身份证能查询CPA成绩吗?查询步骤不能忘
- Caffe+UbuntuKylin14.04_X64+CUDA 6.5配置
- oracle 9 插入日期,oracle date日期类型 精析
- centos7 mysql
- springcloud是如何进行服务治理的
- JavaScript重难点解析3(原型与原型链、执行上下文与执行上下文栈)
- 027_编写MapReduce的模板类Mapper、Reducer和Driver
- 【BZOJ4837】LRU算法 [模拟]
- MySQL 批量插入,如何不插入重复数据?
- springboot-20-全局异常处理
- 契约测试工具的思考(一)
- WiFi相关知识介绍
- PDP Context 激活流程(UE发起)
- 车辆身份特征识别引擎
- vios aix_为AIX或VIOS选择多路径路径控制模块的指南
- 怎样使用轻快pdf阅读器
- 【数据分析】系列-Python分析淘宝4200款Bra(没错,就是文胸)后,发现最好卖的款式居然是。。。
- 阿里达摩院数学竞赛新一轮考题曝光,李永乐老师曾给出第一题详细解答
热门文章
- c语言原始,[蓝桥杯][历届试题]回文数字 最原始的方法(C语言代码)
- php5ts.dll 注册码,修复php5ts.dll
- android没有捂脸表情,Emoji神器 | 如果你也喜欢[捂脸]表情
- matlab把每次循环的结果保存idx,来自Matlab的循环Python
- 多核处理器_手机处理器性能排行:骁龙865第四,麒麟9000拿下第二
- linux如何时间更新最新版本,桌面应用|Linux有问必答:如何更新过期版本的Ubuntu...
- php yaf框架模块化,基于yaf的模块化开发方案
- 列联表分析程序,以卢淑华书上的例子为例
- linux 指定时间加3天,Linux系统的定时任务和延时任务
- java nginx tomcat_Nginx + Tomcat (java )服务器部署