关于2013.12大数据课题的计划
关于课题的计划:名称目前还没有,另外本人电脑没有任何office软件,初期先用这个txt 好表达点。
以后课题的计划,进展,总结均在此文件夹更新。
对于工作时间我分为 12月到1月 3月到4月 4月到5月
12月到1月:这个月主要还是以学习为主,论文,书籍的学习,初步的环境搭建与实践,主要任务是多看多学。
论文:GFS+map/reduce+bigtable ; 还有后续的引用论文等等等
书籍: 实战hadoop ;以及涉及到的其他好的书籍的阅读。
初步的实践:linux操作系统,java开发环境,hadoop环境 等的搭建;写少量的hadoop相关小程序练手
第一周目标:3篇论文+书的前三章。
第一周工作:
1、论文学习
就看了GFS的论文,并且还没看完,看到中途有点看不懂的感觉。 google重新审视了关于目前所用的旧分布式文件系统,基于从自身实际数据存储需求和处理等目标,设计一套与传统分布式文件系统截然不同的文件系统,即GFS。并且在实践中提到,他们已经部署到相关服务中去,以此证实了该文件系统的价值,从而也才有这篇论文。不愧是以实践驱动型的公司,即使是论文也要有一定规模的实践项目相支撑。
接下来是他的设计观点:
*组件的故障常态化:相对于当今大数据的时代,动则上TB的数据处理之迅速,所以对数据的处理的稳定性要求更好,在如此大的数据规模下,发生故障应该是非常非常常见的,我感觉在某种程度上,这样的常态化增强了系统的灵敏度和高稳定性,而不像传统的系统那样面对突发的故障动不动就以宕机的结果呈现出来。
*把块的单位尺寸增大:文中说面对总量TB级的数据,如果还是以传统KB级的单位块管理的话,实际上是浪费处理效率的。面对大数据的来领,其数据处理的单位块的大小也应该有所变化。
*数据读写方面的优化集中在大数据的访问上面尤其是读方面:从实际测试的情况看,追加比重写发生的更频繁,并且追加的数据要方面后面数据能够比较方面的读取,我感觉读取是最最频繁的,从数据库的表操作来看也是select是最最常用的,所以如何高效读取(访问)大数据块文件是优化的关键,也可以说把精力集中于此。
*协同设计或者说放松模型架构适应实际需求:这里我读到的意思感觉就是,google认为就有的文件系统架构过于死板或者固定(也可能是旧模型并没有考虑到现在大数据处理的现状),所以他们觉得对于目前的现状可以把模型改的松弛,使其更倾向于目前的大数据处理。说白了宗旨就是一切为现实的实际而服务,对于已有的教科书式的模型架构如果发现有与现状不契合的没必要强制地去实现这种不契合现状的设计。
接下来是他们设计的猜想:
*故障常态化:前面所说的系统的高灵敏与高稳定
*数据单位尺寸变大:更方面现状的大数据量的处理
*优化大数据的访问(读写,主要是读):这里读到了优化磁头来回偏移的工作,实际上从总的来看这不是新东西了,当时读到这里立马就定位到当初阅读操作系统原理中关于磁盘存储读写文件的工作原理,感觉是把操作系统层的文件系统的优化搬到这里来,感觉不是什么新东西,当然我还没读完这篇论文,不敢妄下定论。
*上面是读的优化,那这里就是写的优化:写上上面说了主要是追加而不是重写。如果一个进程对应一个追加操作,那么在大数据的应用环境下,必然有无数个追加进程对同一个文件的追加操作,如何解决其不冲突性呢??这里我又定位到数据库原理了,操作系统原理也有,感觉是学好学精基础课程是相当的有好处的而不要盲目地追赶时髦的技术,应用情景太相似了,记得里面有很多方式实现不冲突 什么互斥锁啊,信号量啊等等。
*最后一点猜想是持续的带宽比低延迟要很重要:我觉得究其原因是现在是分布式的天下,其不同终端不同服务器间的通讯都是要依靠贷款的,旧有的文件系统一般是单个机器下的应用环境所以应该很少有涉及到关于文件系统带宽的影响。而且我觉得以前对应不管是文件系统还是操作系统的实时性,低延迟都研究的非常多了,尤其是航天航空领域。所以现在google似乎是要另辟蹊径,从其他方面作优化,而且他们也说了在实际的现状应用中系统对于延迟的忍受不是非常严格的,这也可以对应到上面他们的设计观点最后一点的宗旨,服务于实际。
2、书籍学习
大概扫了一下书本的前两章,应为有些地方是关于实践的工作,当时没有linux工作环境,所以就跳过
基本上了解了下hadoop的历史由来吧,相比较而言我更感兴趣的是它的创始人Doug-Cutting,因为以前稍微用过Nutch和Lucene,感觉此人的开源做的好牛啊。其他的关于hadoop的安这些实践操作的就大概看了下没写看,第二章的hdfs除了他的配置,API没怎么细看外,其他它说的原理方面的感觉跟论文GFS的大致相同总之都是一个大数据的思想。
3、看过书后我才开始进行环境的搭建
因为当时我电脑上有win7 win8 ubuntu macOS四个操作系统,但现状是win7 win8能用,后面两个系统通通进不去,但是重装ubuntu的话,我又舍不得我在ubuntu上已完成的工作积累,像自己搭建的一套linux电源管理方案cpufreq+sysfsutils,3d的的compiz配置,配置buct的linux下载源等等,所以我花了一天的时间去找回原有的linux,在不损坏当前四个操作系统共存的机制下,至少grub是没被破坏的;最终还是找回了linux,并且能正常启动,至于mac还是encoutered a problem 然后不断地重启进不去系统。
这周的工作基本上就做了这些。
遇到的问题主要是
* 自己在读论文的时候,没有看英文原版,上来就看中文版的GFS,而且看的过程中感觉中文版的看得极其别扭,特别是在涉及到技术细节的地方,很难理解这中文翻译要表达什么,其实当时上来就看得中文版 我已经看到了2.7左右 关于一致性模型的地方,但是到这里实在看不下去了,因为这些技术细节实在没看懂,只是扫了一遍知道有这回事,当然也有可能跟我看论文的一种漫不经心的态度有关,态度不认真,当小说来看可能也有这方面的因素在里面;最后放弃纯看中文版,因为再看下我根本不知道他在讲什么,所以自己又重头看英文原版,看到不懂的单词自己查翻译等等,这其中的过程的确是浪费了比较多的时间。
* 对于一些底层的基本的实现,还有术语,机制等等不是很了解,比如什么一致性模型,网络通信的一些机制,数据访问读写的细节,原子性操作等等;这可能跟各种底层原理基础课程没有学深有关系,到时候还得多问问相关的知识,更要把这些课程重新拿来学深才好。
* 对于论文的担忧:现在论文我只看了他的总览思路等等,涉及到具体细节设计的地方还没看,不会到时候看到这里又是一头雾水吧。。。
第二周目标:(假想:希望能够读完GFS这篇论文吧,希望,希望;另外结合那本实战书的阅读和现有的操作系统环境的实践,逐步地把系统环境真正地架起来)
第二周工作:
3月到4月:这个月应该要明确自己要做个什么东西出来了,并且要实现。
实现:软件工程的一套,需求 设计 文档 实现等等。
4月到5月:鉴于完成的成品写论文。
论文:写论文,查论文 再学习
实践:在论文的写作过程中,可能有维护,二次编码一类的东西把。
现在是精确到月的计划设定,不足的地方请指正。
关于2013.12大数据课题的计划相关推荐
- 2013 中国大数据技术大会
2013 中国大数据技术大会 2013年12月5日-6日 北京·世纪金源大饭店 中国大数据技术大会(Big Data Technology Conference, BDTC)是目前国内最具影响.规 ...
- 华为报告称2013年大数据将引发IT系统大变革
华为报告称2013年大数据将引发IT系统大变革 华为公司昨天发布的2013年行业趋势展望显示,大数据将引发IT系统大变革.华为认为,运营商和企业的IT系统将成为实时的业务系统,而不再是后处理的支撑系统 ...
- 参加2013中国大数据技术大会(BDTC2013)
2013年12月5日-6日参加了为期两天的2013中国大数据技术大会(Big Data Technology Conference, BDTC2013),本期会议主题是:"应用驱动的架构与技 ...
- 2013中关村大数据日:大数据驱动创新
文章讲的是2013中关村大数据日:大数据驱动创新,2013年12月13日消息,2013中关村大数据日在中关村云广场酒店开幕.该活动由中关村管委会指导,云基地主办,中关村大数据产业联盟协办,通过搭建大数 ...
- 【MaxCompute官宣】大数据计算技术共享计划 — 技术公开课第四季干货集锦!
你可知,每个时代,都悄悄犒赏会学习的人. 因此,我在这里等你主动,一起演绎新的故事. MaxCompute在2018年的双11全球购物狂欢节中, 以单日处理数据量超过500PB再次冲击新极限,书写新记 ...
- 江苏印发《大数据发展行动计划》
8月30日,江苏省政府公布了"大数据发展行动计划".到2020年,江苏省将建成10个省级大数据产业园,引进培养100名大数据领军人才,60%的软件企业实现服务化转型,培育5家业务收 ...
- 上海市国资大数据课题启动仪式暨数据资产技术及金融行业应用沙龙隆重开
Gartner在最新研究报告中指出,大数据技术正从概念炒作回归到理性认知阶段.在大数据即将成为国家基础性战略资源的今天,国资系统沉淀的大数据将在我国国民经济和社会发展中发挥举足轻重的作用.那么,如何评 ...
- 【8.23更新--技术干货全家桶】大数据计算技术共享计划 — MaxCompute技术公开课第二季...
2018年5月-6月 MaxCompute 开启大数据计算技术共享计划技术公开课第一季,有超过1500名用户以及大数据爱好者参与到直播学习中来.7月,我们又开启第二季直播,5次大数据技术直播,有近60 ...
- 上海市国资大数据课题启动仪式暨数据资产技术及金融行业应用沙龙隆重开幕...
Gartner在最新研究报告中指出,大数据技术正从概念炒作回归到理性认知阶段.在大数据即将成为国家基础性战略资源的今天,国资系统沉淀的大数据将在我国国民经济和社会发展中发挥举足轻重的作用.那么,如何评 ...
最新文章
- SA区坏道数据恢复的经历
- Java多线程Socket在控制台输出的多人聊天室编程
- mybaits二十五:mybatis整合ehcache
- 蓝桥杯-K好数(java)
- HTML---百度新闻轮播图--定位练习
- 面向对象开发===继承特点
- WHAT IS ERP
- [CODEVS 1087] 麦森数
- 【Python】14种方式,34个案例:对比SQL,学习Pandas操作
- Java开发人员应该知道的三件事
- php实现一个简单的四则运算计算器
- 百度分享新浪微博无法分享图片的解决方法
- Linux命令行下”!”的用法
- 用python做个网络爬虫
- python入门学习(五 字符串string和变量variable)
- 浅谈MyBatis持久层框架
- Windows小工具 tcping
- 使用Beep()函数发出指定音高 (一)
- Detecting Causality in Complex Ecosystems(检测复杂生态系统中的因果关系附件)
- 在Windows 记事本中快速选中大量文本的方法