最近需要处理海量数据的分布式计算及数据挖掘,经过多次选择(hadoop,Spark,DPark),最后还是选择了DPark,主要是看中DPark的轻量级及python的灵活性,且除了豆瓣外,在几个友公司都有成功的应用案例。

不过很痛苦的是DPark的资料太少了,连github上的官方wiki都不够详细,暂时只能主要靠自己摸索。

这篇文章主要记录DPark的一些资料及我在安装时的一些问题(其实基本是python问题,由于我暂时对python不熟导致的)。

1. DPark一句话简介:

DPark是豆瓣开发的基于Mesos的开源分布式计算框架,是spark的python版克隆。

2. python2.6下DPark安装:

git clone git://github.com/douban/dpark.git
cd dpark
python setup.py install

DPark使用easy_install进行安装,我这边没有setuptools,因此安装下:

yum -y install python-setuptools

问题继续出现,如下:

error: Couldn't find a setup script in /tmp/easy_install-riZxUs/protobuf-2.5.0.zip

坑爹,查了很久才在protobuf的google code中的issue 66中发现了如下说明:

#52 gregory....@gmail.com

Workaround: use easy_install's --allow-hosts options to force downloading from PyPI:easy_install --allow-hosts pypi.python.org protobufWorked for me

配置了easy_install的下载域名:

easy_install --allow-hosts pypi.python.org protobuf

之前的错误消失了,个人推测是之前默认下载google code的protobuf有问题?麻烦知情者告诉我一声,非常感谢!

新的错误总是会出现,又来:

error: Setup script exited with error: command 'gcc' failed with exit status 1

这个问题一般是由于缺少python-dev包导致的,继续装吧!

yum -y install python-devel

总算OK了,对python不熟确实不行,最近只是学习了python的语法,各种常用包的使用还不太清楚,需要继续努力。

3. 最后附上DPark的一些资料

官方中文wiki: https://github.com/jackfengji/test_pro/wiki

google group:https://groups.google.com/forum/#!forum/dpark-users

支持迭代计算的MapReduce框架PDF: http://velocity.oreilly.com.cn/2011/ppts/dpark.pdf

没了。。好惨。有知道其他资料的麻烦继续告诉我,多谢!

DPark安装及相关资料整理相关推荐

  1. 转:基于iOS上MDM技术相关资料整理及汇总

    转自:http://www.mbaike.net/mdm/6.html 一.MDM相关知识: MDM (Mobile Device Management ),即移动设备管理.在21世纪的今天,数据是企 ...

  2. epoll相关资料整理

    http://www.cppblog.com/converse/archive/2008/10/13/63928.html epoll相关资料整理 学习epoll有一段时间了,最近终于有一个服务器采用 ...

  3. PRML:Pattern Recognition And Machine Learning 相关资料整理与下载

    Pattern Recognition And Machine Learning 相关资料整理与下载 前言 一.PRML英文原文 二.PRML中文翻译版 三.PRML勘误与附加评论 四.读者整理的笔记 ...

  4. Scaleform相关资料整理

    Scaleform相关资料整理 官方教程: http://udn.epicgames.com/Three/Scaleform.html 麻将桌的视频: http://gameware.autodesk ...

  5. Citrix 相关资料整理

    转载请注明 http://blog.csdn.net/u011046042/article/details/72638345 思杰相关的资料整理: 官方网站 https://www.citrix.co ...

  6. Linux+Docker+腾讯云/阿里云服务器 安装MySQL相关命令整理

    注:主要是收集整理一些常用的命令 主要参考:狂神说docker以及其他的一些命令收集.主要是因为平常安装的mysql外部无法访问 MYSQL的创建用户,授权用户,删除用户,查看用户_ZJE-CSDN博 ...

  7. Vrep/CoppeliaSim:安装及相关资料

    目录 Vrep/CoppeliaSim安装 相关资料 自带场景 官方用户手册 官方论坛 其他网络资料与教程 Vrep/CoppeliaSim安装 Vrep(现已更名为CoppeliaSim)是虚拟机器 ...

  8. 文本处理相关资料整理

    github 搜索文本相似度 文本处理实践相关资料,包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算.文档自动摘要,信息抽取,情感分析与观 ...

  9. 无人机相关资料整理-备忘

    近期一直在学习无人机相关基础知识以及平台搭建方面的知识,搜集了很多网站的相关信息,有一些比较有用的github.中英文资料.谈论区网址.还收藏了一些免费的课程,以及自己已购买的课程的链接.有些普及的教 ...

最新文章

  1. 讲座记录:从码农到架构师(精简版)
  2. 如何保住我们的头发?初级程序员的碎碎念
  3. linux如何ARP嗅探 Linux下嗅探工具Dsniff安装记录
  4. Nginx配置X-Forwarded-Proto
  5. HP P2000 RAID-5两块盘离线的数据恢复报告
  6. 【Python文件处理】递归批处理文件夹子目录内所有txt数据
  7. HTML5: 两个viewport的故事(第一部分)
  8. Javascript——Math对象
  9. 关闭流时,抛出异常:java.io.IOException: Stream Closed
  10. [Web 前端] React Js img 图片显示默认 占位符
  11. VC程序运行时间测试
  12. 第一次申请去美国面签,需要注意哪些事项提高成功率?
  13. php判断手机浏览器,php判断是不是手机浏览器访问
  14. 有向图和无向图转化为邻接表后链表中结点个数
  15. 什么是OneData?阿里数据中台实施方法论解读
  16. 5.4 塑造IT人的专业核心能力——《逆袭大学》连载
  17. 欢迎报名2021年湖北省中小学电脑制作活动无人机编程赛项
  18. iOS之ffmpeg开发音视频编解码概要、SDL
  19. visual fortran run-time error can45_64.dll
  20. 新增网站组网方案与解释说明

热门文章

  1. ES 与关系型数据库的对比
  2. 高级软件工程第九次作业:东理三剑客团队作业-随笔6
  3. 易语言助手用法与方便之处
  4. SQL Server 查询案例
  5. 大数据产业驱动智慧家庭发展
  6. node.js详细安装教程及使用
  7. Promise.all()、Promise.allSettled()、Promise.any()、Promise.race()用法与区别
  8. ThreadLock
  9. 想象力的再突破!无人机后还有大招?!
  10. 泡泡机市场前景分析及行业研究报告