python读hadoop_python读取hdfs并返回dataframe教程

不多说，直接上代码

from hdfs import Client

import pandas as pd

HDFSHOST = "http://xxx:50070"

FILENAME = "/tmp/preprocess/part-00000" #hdfs文件路径

COLUMNNAMES = [xx']

def readHDFS():

'''

读取hdfs文件

Returns：

df:dataframe hdfs数据

'''

client = Client(HDFSHOST)

# 目前读取hdfs文件采用方式：

# 1. 先从hdfs读取二进制数据流文件

# 2. 将二进制文件另存为.csv

# 3. 使用pandas读取csv文件

with client.read(FILENAME) as fs:

content = fs.read()

s = str(content, 'utf-8')

file = open("data/tmp/data.csv", "w")

file.write(s)

df = pd.read_csv("data/tmp/data.csv", names=COLUMNNAMES)

return df

补充知识：Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV

1. 目标

通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上

爬虫和机器学习在Python中容易实现

在Linux环境下编写Python没有pyCharm便利

需要建立Python与HDFS的读写通道

2. 实现

安装Python模块pyhdfs

版本:Python3.6, hadoop 2.9

读文件代码如下

from pyhdfs import HdfsClient

client=HdfsClient(hosts='ghym:50070')#hdfs地址

res=client.open('/sy.txt')#hdfs文件路径,根目录/

for r in res:

line=str(r,encoding='utf8')#open后是二进制,str()转换为字符串并转码

print(line)

写文件代码如下

from pyhdfs import HdfsClient

client=HdfsClient(hosts='ghym:50070',user_name='hadoop')#只有hadoop用户拥有写权限

str='hello world'

client.create('/py.txt',str)#创建新文件并写入字符串

上传本地文件到HDFS

from pyhdfs import HdfsClient

client = HdfsClient(hosts='ghym:50070', user_name='hadoop')

client.copy_from_local('d:/pydemo.txt', '/pydemo')#本地文件绝对路径,HDFS目录必须不存在

3. 读取文本文件写入csv

Python安装pandas模块

确认文本文件的分隔符

# pyhdfs读取文本文件,分隔符为逗号,

from pyhdfs import HdfsClient

client = HdfsClient(hosts='ghym:50070', user_name='hadoop')

inputfile=client.open('/int.txt')

# pandas调用读取方法read_table

import pandas as pd

df=pd.read_table(inputfile,encoding='gbk',sep=',')#参数为源文件,编码,分隔符

# 数据集to_csv方法转换为csv

df.to_csv('demo.csv',encoding='gbk',index=None)#参数为目标文件,编码,是否要索引

以上这篇python读取hdfs并返回dataframe教程就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持我们。

本文标题: python读取hdfs并返回dataframe教程

本文地址: http://www.cppcns.com/jiaoben/python/316787.html

python读hadoop_python读取hdfs并返回dataframe教程相关推荐

python导入txt为dataframe-python批量读取txt文件为DataFrame的方法
我们有时候会批量处理同一个文件夹下的文件,并且希望读取到一个文件里面便于我们计算操作.比方我有下图一系列的txt文件,我该如何把它们写入一个txt文件中并且读取为DataFrame格式呢? 首先我们要 ...
python读取txt为dataframe_python批量读取txt文件为DataFrame格式的方法总结
python怎么批量读取txt文件为DataFrame格式这次给大家带来python怎么批量读取txt文件为DataFrame格式,python批量读取txt文件为DataFrame格式的注意事项有 ...
python 批量读取csv_Python Pandas批量读取csv文件到dataframe的方法
PYTHON Pandas批量读取csv文件到DATAFRAME 首先使用glob.glob获得文件路径.然后定义一个列表,读取文件后再使用concat合并读取到的数据. #读取数据 import p ...
python 批量读取csv 文件到dataframe_python 批量读取csv_Python Pandas批量读取csv文件到dataframe的方法...
PYTHON Pandas批量读取csv文件到DATAFRAME 首先使用glob.glob获得文件路径.然后定义一个列表,读取文件后再使用concat合并读取到的数据. #读取数据 import p ...
python读取txt为dataframe_python批量读取txt文件为DataFrame的方法
我们有时候会批量处理同一个文件夹下的文件,并且希望读取到一个文件里面便于我们计算操作.比方我有下图一系列的txt文件,我该如何把它们写入一个txt文件中并且读取为DataFrame格式呢? 首先我们要 ...
python读取HDFS文件
2019独角兽企业重金招聘Python工程师标准>>> ###方法一:使用hdfs库读取HDFS文件 ###在读取数据时,要加上 encoding='utf-8',否则字符串前面会有 ...
Spark没有读取HDFS文件的方法？那textFile是怎么读的？
直入正题吧,ctrl+鼠标点进textFile方法. package org.apache.spark ......... /*** Read a text file from HDFS, a loc ...
python按行读字符串,python按行读取文件并找出其中指定字符串
python怎么提取出文件里的指定内容 python读取文件内容的方法: 一.最方便的方法是一次性读取文件中的所有内容并放置到一个大字符串中: all_the_text = open('thefile ...
python读取txt文件为dataframe,python批量读取txt文件为DataFrame
我们有时候会批量处理同一个文件夹下的文件,并且希望读取到一个文件里面便于我们计算操作.比方我有下图一系列的txt文件,我该如何把它们写入一个txt文件中并且读取为DataFrame格式呢? 首先我们要 ...

python读hadoop_python读取hdfs并返回dataframe教程

python读hadoop_python读取hdfs并返回dataframe教程相关推荐

最新文章

热门文章