python文件hadoop_采用Python来访问Hadoop HSFS存储实现文件的操作
用python访问hdfs是个很头疼的事情。
这个是pyhdfs的库
import pyhdfs
fs = pyhdfs.connect("192.168.1.1", 9000)
pyhdfs.get(fs, "/rui/111", "/var/111")
f = pyhdfs.open(fs, "/test/xxx", "w")
pyhdfs.write(fs, f, "fuck\0gfw\n")
pyhdfs.close(fs, f)
pyhdfs.disconnect(fs)
pyhdfs的安装过程很吐血
svn checkout http://libpyhdfs.googlecode.com/svn/trunk/ libpyhdfs
cd libpyhdfs
cp /usr/lib/Hadoop-0.20/hadoop-core-0.20.2-cdh3u0.jar lib/hadoop-0.20.1-core.jar
cp /usr/lib/hadoop-0.20/lib/commons-logging-1.0.4.jar lib/
cp /usr/lib/libhdfs.so.0 lib/
ln –s lib/libhdfs.so.0 lib/libhdfs.so
python setup.py install --prefix="/usr/local"
还有是把 selinux也给关了 不然会出现莫名的问题
如果出现
/usr/lib/jvm/java-6-sun/include/jni.h:27:20: error: jni_md.h: No such file or directory
搜下find / -name jni.h
然后修改#include "jni_md.h" 为 #include "linux/jni_md.h"
这个是用pydoop的库
import pydoop.hdfs as hdfs
with hdfs.open('/user/myuser/filename') as f:
for line in f:
print(line)
我现在使用的方法是用subprocess
也挺行~
需要把很多自己常用的指定都封装成库
cat = subprocess.Popen(["hadoop", "fs", "-cat", "/path/to/myfile"], stdout=subprocess.PIPE)
for line in cat.stdout:
print line
python文件hadoop_采用Python来访问Hadoop HSFS存储实现文件的操作相关推荐
- 使用python来访问Hadoop HDFS存储实现文件的操作
在调试环境下,咱们用hadoop提供的shell接口测试增加删除查看,但是不利于复杂的逻辑编程 查看文件内容 www.xiaorui.cc 用python访问hdfs是个很头疼的事情.... 这个是p ...
- 如何python安装hadoop_使用Python操作Hadoop,Python-MapReduce
环境 环境使用:hadoop3.1,Python3.6,ubuntu18.04 Hadoop是使用Java开发的,推荐使用Java操作HDFS. 有时候也需要我们使用Python操作HDFS. 本次我 ...
- python还是hadoop_使用Python和Hadoop Streaming编写MapReduce
最近有个需求,就是对视频日志中的部分URL提取出来,并随机挑选五条.由于线上日志比较大,而且需要每天执行一次,如果单纯的用python即便是多线程性能也会大大折扣.于是考虑到用hadoop的MR去实现 ...
- python语言实例-采用python进行编程的实例有哪些?
来源:Linux论坛 查看:2150 回复:1 Python是一门简单.易学并且很有前途的编程语言,很多人都对Python感兴趣,但是当学完Python基础用法之后,又会产生迷茫,尤其是自学的人员,不 ...
- 如何修改xd.properties文件中对象存储文件信息_对块存储、文件存储、对象存储的认识总结...
因工作原因接触了对象存储,从而了解到相关的块存储和文件存储.搜罗了网上各种信息,结合自己的理解,整理如下.欢迎阅读,批评指正. 开头引用下几篇关于"块存储.文件存储.对象存储"的文 ...
- 怎么把文件存进obs服务器,华为云对象存储 obs 文件流上传
2019-12-25 11:14:08 foolish 995 华为云对象存储 obs 文件流上传 /** * obs 二进制流上传 * * @return \Illuminate\Http\Json ...
- 文件系统位于服务器,如何访问hadoop文件系统上的文件,该文件系统位于与本地计算机不同的服务器上?...
我有一台本地计算机(local_user@local_machine).hadoop文件系统位于不同的服务器(some_user@another_server)上.hadoop服务器中的一个用户名为t ...
- java gb13000 ucs2_采用GB 13000的UCS-2进行存储的文件怎么转换
不是sql中的数据吧 你那个是单个文件吗? 假设文件头采用标准UCS2格式的两个字节,每个字段的数据是通过\t分隔的,每行文字是一条记录,如果有不同,需要对程序进行调整. FILE *f = _wfo ...
- python无法打开文件filenotfounderror_解决Python在导入文件时的FileNotFoundError问题
例如,在运行这段代码时 from keras.utils import plot_model plot_model(model, to_file='images/model_mnist.png', s ...
最新文章
- 使用Python和OpenCV检测图像中的条形码
- 记一次MongoDB性能问题(从MySQL迁移到MongoDB)
- Xubuntu菜单删改条记
- php /usr/lib/libjpeg.so.62,linux PHP的装配
- leetcode44. 通配符匹配 又是一道没有解释的字符串dp困难题
- 华为harmonyos发布会,海雀科技首款HarmonyOS智能摄像头Pro亮相华为智慧屏新品发布会...
- Google 员工公开 Windows 10 零日漏洞隐藏 Bug!
- 20191007:选择排序,插入排序,冒泡排序详解
- 计算机键盘上的每一个按键应用,电脑键盘按键都代表着什么意思?
- 联想拯救者Legion Y7000P 2020款ubuntu20.04安装ros noetic与bloom-generate打包ros noetic为deb软件包
- 思科交换机接口配置trunk_Cisco交换机Trunk配置命令是什么?
- 大数据教学竞赛科研平台设计思路
- 微软OpenPai平台部署安装(kubernetes 大数据和深度学习平台安装部署)
- linux 内核链表
- 处理器运算能力单位-TOPS
- 旺旺的新故事太多,消费者该记住哪一个?
- 安徽科技学院 信网学院网络文化节 刘洪江
- Listener method 'public void com.config.mq.MsgReceiver.process(java.lang.String) throw
- chrome浏览器下载加速
- C#对SQLite的常用操作
热门文章
- InfoWorld 2020 年公布最佳开源软件
- TensorWatch 机器学习调试和可视化工具
- TDD、BDD、ATDD、DDD 软件开发模式
- 一文读懂卷积神经网络(转载)
- python中if continue else,python基础;if else;for;while 分支处理.continue,break
- mastercam加工报表生成_如何使用 Mastercam 进行角度头编程?丨角度头铣削轮毂内腔案例分享...
- java环境安装 linux,Linux Java环境配置安装
- linux下的文档处理及tar命令
- 第五十六题(最长公共子串)
- Java读取、创建Excel;验签,加密