用python访问hdfs是个很头疼的事情。

这个是pyhdfs的库

import pyhdfs

fs = pyhdfs.connect("192.168.1.1", 9000)

pyhdfs.get(fs, "/rui/111", "/var/111")

f = pyhdfs.open(fs, "/test/xxx", "w")

pyhdfs.write(fs, f, "fuck\0gfw\n")

pyhdfs.close(fs, f)

pyhdfs.disconnect(fs)

pyhdfs的安装过程很吐血

svn checkout http://libpyhdfs.googlecode.com/svn/trunk/ libpyhdfs

cd libpyhdfs

cp /usr/lib/Hadoop-0.20/hadoop-core-0.20.2-cdh3u0.jar lib/hadoop-0.20.1-core.jar

cp /usr/lib/hadoop-0.20/lib/commons-logging-1.0.4.jar lib/

cp /usr/lib/libhdfs.so.0 lib/

ln –s lib/libhdfs.so.0 lib/libhdfs.so

python setup.py install --prefix="/usr/local"

还有是把 selinux也给关了 不然会出现莫名的问题

如果出现

/usr/lib/jvm/java-6-sun/include/jni.h:27:20: error: jni_md.h: No such file or directory

搜下find / -name jni.h

然后修改#include "jni_md.h" 为 #include "linux/jni_md.h"

这个是用pydoop的库

import pydoop.hdfs as hdfs

with hdfs.open('/user/myuser/filename') as f:

for line in f:

print(line)

我现在使用的方法是用subprocess

也挺行~

需要把很多自己常用的指定都封装成库

cat = subprocess.Popen(["hadoop", "fs", "-cat", "/path/to/myfile"], stdout=subprocess.PIPE)

for line in cat.stdout:

print line

python文件hadoop_采用Python来访问Hadoop HSFS存储实现文件的操作相关推荐

  1. 使用python来访问Hadoop HDFS存储实现文件的操作

    在调试环境下,咱们用hadoop提供的shell接口测试增加删除查看,但是不利于复杂的逻辑编程 查看文件内容 www.xiaorui.cc 用python访问hdfs是个很头疼的事情.... 这个是p ...

  2. 如何python安装hadoop_使用Python操作Hadoop,Python-MapReduce

    环境 环境使用:hadoop3.1,Python3.6,ubuntu18.04 Hadoop是使用Java开发的,推荐使用Java操作HDFS. 有时候也需要我们使用Python操作HDFS. 本次我 ...

  3. python还是hadoop_使用Python和Hadoop Streaming编写MapReduce

    最近有个需求,就是对视频日志中的部分URL提取出来,并随机挑选五条.由于线上日志比较大,而且需要每天执行一次,如果单纯的用python即便是多线程性能也会大大折扣.于是考虑到用hadoop的MR去实现 ...

  4. python语言实例-采用python进行编程的实例有哪些?

    来源:Linux论坛 查看:2150 回复:1 Python是一门简单.易学并且很有前途的编程语言,很多人都对Python感兴趣,但是当学完Python基础用法之后,又会产生迷茫,尤其是自学的人员,不 ...

  5. 如何修改xd.properties文件中对象存储文件信息_对块存储、文件存储、对象存储的认识总结...

    因工作原因接触了对象存储,从而了解到相关的块存储和文件存储.搜罗了网上各种信息,结合自己的理解,整理如下.欢迎阅读,批评指正. 开头引用下几篇关于"块存储.文件存储.对象存储"的文 ...

  6. 怎么把文件存进obs服务器,华为云对象存储 obs 文件流上传

    2019-12-25 11:14:08 foolish 995 华为云对象存储 obs 文件流上传 /** * obs 二进制流上传 * * @return \Illuminate\Http\Json ...

  7. 文件系统位于服务器,如何访问hadoop文件系统上的文件,该文件系统位于与本地计算机不同的服务器上?...

    我有一台本地计算机(local_user@local_machine).hadoop文件系统位于不同的服务器(some_user@another_server)上.hadoop服务器中的一个用户名为t ...

  8. java gb13000 ucs2_采用GB 13000的UCS-2进行存储的文件怎么转换

    不是sql中的数据吧 你那个是单个文件吗? 假设文件头采用标准UCS2格式的两个字节,每个字段的数据是通过\t分隔的,每行文字是一条记录,如果有不同,需要对程序进行调整. FILE *f = _wfo ...

  9. python无法打开文件filenotfounderror_解决Python在导入文件时的FileNotFoundError问题

    例如,在运行这段代码时 from keras.utils import plot_model plot_model(model, to_file='images/model_mnist.png', s ...

最新文章

  1. 使用Python和OpenCV检测图像中的条形码
  2. 记一次MongoDB性能问题(从MySQL迁移到MongoDB)
  3. Xubuntu菜单删改条记
  4. php /usr/lib/libjpeg.so.62,linux PHP的装配
  5. leetcode44. 通配符匹配 又是一道没有解释的字符串dp困难题
  6. 华为harmonyos发布会,海雀科技首款HarmonyOS智能摄像头Pro亮相华为智慧屏新品发布会...
  7. Google 员工公开 Windows 10 零日漏洞隐藏 Bug!
  8. 20191007:选择排序,插入排序,冒泡排序详解
  9. 计算机键盘上的每一个按键应用,电脑键盘按键都代表着什么意思?
  10. 联想拯救者Legion Y7000P 2020款ubuntu20.04安装ros noetic与bloom-generate打包ros noetic为deb软件包
  11. 思科交换机接口配置trunk_Cisco交换机Trunk配置命令是什么?
  12. 大数据教学竞赛科研平台设计思路
  13. 微软OpenPai平台部署安装(kubernetes 大数据和深度学习平台安装部署)
  14. linux 内核链表
  15. 处理器运算能力单位-TOPS
  16. 旺旺的新故事太多,消费者该记住哪一个?
  17. 安徽科技学院 信网学院网络文化节 刘洪江
  18. Listener method 'public void com.config.mq.MsgReceiver.process(java.lang.String) throw
  19. chrome浏览器下载加速
  20. C#对SQLite的常用操作

热门文章

  1. InfoWorld 2020 年公布最佳开源软件
  2. TensorWatch 机器学习调试和可视化工具
  3. TDD、BDD、ATDD、DDD 软件开发模式
  4. 一文读懂卷积神经网络(转载)
  5. python中if continue else,python基础;if else;for;while 分支处理.continue,break
  6. mastercam加工报表生成_如何使用 Mastercam 进行角度头编程?丨角度头铣削轮毂内腔案例分享...
  7. java环境安装 linux,Linux Java环境配置安装
  8. linux下的文档处理及tar命令
  9. 第五十六题(最长公共子串)
  10. Java读取、创建Excel;验签,加密