python能处理多大的数据包-利用Python进行数据处理(更新)
一、导入数据包
#首先导入pandas、numpy、matplotlib等等包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
color = sns.color_palette()#调色盘,color=color[1]
#juypter要写
%matplotlib inline
#设置字体类型
import matplotlib
font={"family":"Microsoft YaHei"}
matplotlib.rc("font",family="Microsoft YaHei")
二、读取文件
#读取文件
titanic=pd.read_csv("titanic1.csv")
#查看表头
print(titanic.head())
#数据分别为乘客ID、生存、船舱等级、乘客名字、性别、年龄、兄弟姐妹、父母配偶、票号、票价、船舱、登舱口
#数据描述
print(titanic.describe())
#查看缺失值
print(titanic.isnull().any())
#年龄、船舱、登舱口有缺失
#描述信息
print(titanic.info())
#数据分布
print(titanic.shape)
三、数据处理-填补缺失值,删除无用列,数值转化
#1.删除
# 计算有多少重复值的值
titanic.duplicated().sum()
#去重
tb.drop_duplicates(inplace=True)
#删除Cabin列、Ticket列
#del titanic["Cabin"]
del titanic["Ticket"]
titanic.drop("Cabin",axis=1,inplace=True)
#删除空值的行
titanic= titanic.dropna(how="any",axis=0)
#2.填补
#用均值填补
titanic["Age"]=titanic["Age"].fillna(titanic["Age"].mean())
#登舱口用众数
#如果该列是字符串的,就将该列中出现次数最多的字符串赋予空值,mode()函数就是众数
titanic.Embarked[titanic.Embarked.isnull()] = titanic.Embarked.dropna().mode().values
#median()中位数
#3.转化
#将登舱口转化为数值型
titanic.loc[titanic["Embarked"]=="S","Embarked"]=1
titanic.loc[titanic["Embarked"]=="C","Embarked"]=2
titanic.loc[titanic["Embarked"]=="Q","Embarked"]=3
#将数值转化为字符串
def behavior_type(type):
if type == 1:
return "pv"
elif type == 2:
return "favor"
elif type == 3:
return "cart"
else:
return "buy"
tb["behavior_type"] = tb["behavior_type"].apply(behavior_type)
#时间格式转化
#2014-12-06 02 拆分为2014-12-06/02
tb["date"] = tb["time"].apply(lambda x:x.split(" ")[0])#日期
tb["time"] = tb["time"].apply(lambda x:x.split(" ")[1])#时间
#2014-09-19 转化格式, 并提取出年份、星期几, 月份
trade["day"]= pd.to_datetime(trade.day,format="%Y%m%d")
trade["year"]=trade.day.dt.year
trade["month"] = trade.day.dt.month#月份
trade["year_month"] = trade.day.dt.strftime("%Y-%m")
trade["week"] = trade.day.dt.dayofweek#周几#0为周一,6为周日
#2011-01-01 00:00:00 转化格式, 并提取出小时, 星期几, 月份
bike["datetime"] = pd.to_datetime(bike["datetime"])
bike["date"] = bike.datetime.dt.date
bike["year"]=bike.datetime.dt.year
bike["month"] = bike.datetime.dt.month#月份
bike["year_month"] = bike.datetime.dt.strftime("%Y-%m")
bike["week"] = bike.datetime.dt.dayofweek#周几#0为周一,6为周日
bike["hour"] = bike.datetime.dt.hour#时间
四、处理完成文件保存
四、处理完成文件保存
#1.保存为CSV格式
tb.to_csv("tb_user.csv",index = False)
五、数据统计计算
五、数据统计计算
#表关联[.merge(表1,表2,on=共同列,how=左连接)]
order_products_train= pd.merge(order_products_train,orders,on="order_id", how="left")
#计算
# 查看有多少个用户-去重计算
tb.drop_duplicates("user_id").count()
#查看列中不同值出现几次
a=tb["user_id"].value_counts()
#groupby 分组计算
#reset_index()重置索引
mcount=order_products_train[["department","count"]].groupby(["department"]).count().reset_index()
#定义列名/索引名
mcount.columns=["department","count"]
#.sort_values(by=根据什么排序,ascending=FALSE 逆序)
mcount=mcount.sort_values(by="count",ascending=False)
#数据透视表
w=bike.groupby(["week", "hour"])["count"].sum().reset_index()
when = w.pivot("week", "hour", "count")
python能处理多大的数据包-利用Python进行数据处理(更新)相关推荐
- 利用python爬取58同城简历数据_利用python爬取58同城简历数据-Go语言中文社区
利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...
- Python网络爬虫爬取招聘数据(利用python简单零基础)可做可视化
爬取Boss直聘相关的招聘数据 一.相关需求分析 1.目的 二.直聘网页结构分析 1.网页相关值的查找 2.网页的下一页规律查找 三.Python相关的第三库介绍 1.Urllib的介绍 (1)url ...
- python实现气象数据分析_气象数据可视化——利用Python绘制温度平流
##数据来源:NCEP再分析数据 import matplotlib.pyplot as plt from mpl_toolkits.basemap import Basemap import num ...
- Python中通过索引名称提取数据loc()函数Python中通过行和列下标提取数据iloc()函数
[小白从小学Python.C.Java] [Python全国计算机等级考试] [Python数据分析考试必会题] ● 标题与摘要 Python中通过索引名称提取数据 loc()函数 Python中通过 ...
- 【Python】猎聘网招聘数据爬虫(Python网络爬虫课设简要)
[Python]猎聘网招聘数据爬虫(Python网络爬虫课设简要) 注: 本文仅供学习交流使用! 合肥学院-20信管-20302211009 项目文件可自行前往博客主页下载或联系作者qq(341625 ...
- python处理行情数据_利用Python脚本来获取期货行情数据
因为自己最近在学习做期货交易,想要下载期货的行情数据来做分析.有一些交易软件是可以导出数据的,但是导出的过程还是需要很多的手工操作,自己在想能不能通过Python程序来实现呢. 新浪期货数据接口介绍 ...
- python能处理多大的数据-Python 适合大数据量的处理吗?
python 能处理数据库中百万行级的数据吗? 处理大规模数据时有那些常用的python库,他们有什么优缺点?适用范围如何? 王守崑,推荐系统,数据挖掘 需要澄清两点之后才可以比较全面的看这个问题: ...
- python无法处理特别大的数据文件_Python实现快速大文件比较代码解析
问题 假如,在有两个大文件分别存储了大量的数据,数据其实很简单就是一堆字符串,每行存储一条,如何快速筛选出两个文件的异同之处么,或者如何筛选出两个文件中不同的元素呢? 刚开始我是通过最简单的方法,利用 ...
- python 报文解析_python解析DNS数据包实例代码
例子,python解析DNS数据包. 代码示例: ###file QueryDNS.py## -*- coding: utf-8 -*- #Get DNS answer #详情见RFC 1035 im ...
最新文章
- ZooKeeper学习笔记1-----------安装启动
- Django的学习需要掌握的一些基础和初步搭建自己的框架
- java实现表锁行锁
- Codeforces1045I
- libreoffice error while loading shared libraries: libSM.so.6: cannot open shared object
- abstract class和interface
- 中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.4 结束语
- 支付宝当面付打赏系统源码
- 微信小程序开发者工具出现Framework inner error错误
- 攻防世界----mfw
- 微信小程序持续集成方案
- 上海宝山锦隆考试基地科目二笔记
- Docker安装与镜像的使用
- 联想thinkbook14 2022款和2021款区别哪个好
- js字符转换成分数_js小数转分数-近似递归
- MAC 启动jar失败 显示 Unable to access jarfile xxx.jar
- spring Boot Configuration Annotation Processor not fount in classpath
- 数据库常考选择题合集
- 推荐一款图表功能强大的可视化报表工具
- 使用servlet获得客户端与服务器的信息