一、导入数据包

#首先导入pandas、numpy、matplotlib等等包

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

color = sns.color_palette()#调色盘,color=color[1]

#juypter要写

%matplotlib inline

#设置字体类型

import matplotlib

font={"family":"Microsoft YaHei"}

matplotlib.rc("font",family="Microsoft YaHei")

二、读取文件

#读取文件

titanic=pd.read_csv("titanic1.csv")

#查看表头

print(titanic.head())

#数据分别为乘客ID、生存、船舱等级、乘客名字、性别、年龄、兄弟姐妹、父母配偶、票号、票价、船舱、登舱口

#数据描述

print(titanic.describe())

#查看缺失值

print(titanic.isnull().any())

#年龄、船舱、登舱口有缺失

#描述信息

print(titanic.info())

#数据分布

print(titanic.shape)

三、数据处理-填补缺失值,删除无用列,数值转化

#1.删除

# 计算有多少重复值的值

titanic.duplicated().sum()

#去重

tb.drop_duplicates(inplace=True)

#删除Cabin列、Ticket列

#del titanic["Cabin"]

del titanic["Ticket"]

titanic.drop("Cabin",axis=1,inplace=True)

#删除空值的行

titanic= titanic.dropna(how="any",axis=0)

#2.填补

#用均值填补

titanic["Age"]=titanic["Age"].fillna(titanic["Age"].mean())

#登舱口用众数

#如果该列是字符串的,就将该列中出现次数最多的字符串赋予空值,mode()函数就是众数

titanic.Embarked[titanic.Embarked.isnull()] = titanic.Embarked.dropna().mode().values

#median()中位数

#3.转化

#将登舱口转化为数值型

titanic.loc[titanic["Embarked"]=="S","Embarked"]=1

titanic.loc[titanic["Embarked"]=="C","Embarked"]=2

titanic.loc[titanic["Embarked"]=="Q","Embarked"]=3

#将数值转化为字符串

def behavior_type(type):

if type == 1:

return "pv"

elif type == 2:

return "favor"

elif type == 3:

return "cart"

else:

return "buy"

tb["behavior_type"] = tb["behavior_type"].apply(behavior_type)

#时间格式转化

#2014-12-06 02 拆分为2014-12-06/02

tb["date"] = tb["time"].apply(lambda x:x.split(" ")[0])#日期

tb["time"] = tb["time"].apply(lambda x:x.split(" ")[1])#时间

#2014-09-19 转化格式, 并提取出年份、星期几, 月份

trade["day"]= pd.to_datetime(trade.day,format="%Y%m%d")

trade["year"]=trade.day.dt.year

trade["month"] = trade.day.dt.month#月份

trade["year_month"] = trade.day.dt.strftime("%Y-%m")

trade["week"] = trade.day.dt.dayofweek#周几#0为周一,6为周日

#2011-01-01 00:00:00 转化格式, 并提取出小时, 星期几, 月份

bike["datetime"] = pd.to_datetime(bike["datetime"])

bike["date"] = bike.datetime.dt.date

bike["year"]=bike.datetime.dt.year

bike["month"] = bike.datetime.dt.month#月份

bike["year_month"] = bike.datetime.dt.strftime("%Y-%m")

bike["week"] = bike.datetime.dt.dayofweek#周几#0为周一,6为周日

bike["hour"] = bike.datetime.dt.hour#时间

四、处理完成文件保存

四、处理完成文件保存

#1.保存为CSV格式

tb.to_csv("tb_user.csv",index = False)

五、数据统计计算

五、数据统计计算

#表关联[.merge(表1,表2,on=共同列,how=左连接)]

order_products_train= pd.merge(order_products_train,orders,on="order_id", how="left")

#计算

# 查看有多少个用户-去重计算

tb.drop_duplicates("user_id").count()

#查看列中不同值出现几次

a=tb["user_id"].value_counts()

#groupby 分组计算

#reset_index()重置索引

mcount=order_products_train[["department","count"]].groupby(["department"]).count().reset_index()

#定义列名/索引名

mcount.columns=["department","count"]

#.sort_values(by=根据什么排序,ascending=FALSE 逆序)

mcount=mcount.sort_values(by="count",ascending=False)

#数据透视表

w=bike.groupby(["week", "hour"])["count"].sum().reset_index()

when = w.pivot("week", "hour", "count")

python能处理多大的数据包-利用Python进行数据处理(更新)相关推荐

  1. 利用python爬取58同城简历数据_利用python爬取58同城简历数据-Go语言中文社区

    利用python爬取58同城简历数据 最近接到一个工作,需要获取58同城上面的简历信息(http://gz.58.com/qzyewu/).最开始想到是用python里面的scrapy框架制作爬虫.但 ...

  2. Python网络爬虫爬取招聘数据(利用python简单零基础)可做可视化

    爬取Boss直聘相关的招聘数据 一.相关需求分析 1.目的 二.直聘网页结构分析 1.网页相关值的查找 2.网页的下一页规律查找 三.Python相关的第三库介绍 1.Urllib的介绍 (1)url ...

  3. python实现气象数据分析_气象数据可视化——利用Python绘制温度平流

    ##数据来源:NCEP再分析数据 import matplotlib.pyplot as plt from mpl_toolkits.basemap import Basemap import num ...

  4. Python中通过索引名称提取数据loc()函数Python中通过行和列下标提取数据iloc()函数

    [小白从小学Python.C.Java] [Python全国计算机等级考试] [Python数据分析考试必会题] ● 标题与摘要 Python中通过索引名称提取数据 loc()函数 Python中通过 ...

  5. 【Python】猎聘网招聘数据爬虫(Python网络爬虫课设简要)

    [Python]猎聘网招聘数据爬虫(Python网络爬虫课设简要) 注: 本文仅供学习交流使用! 合肥学院-20信管-20302211009 项目文件可自行前往博客主页下载或联系作者qq(341625 ...

  6. python处理行情数据_利用Python脚本来获取期货行情数据

    因为自己最近在学习做期货交易,想要下载期货的行情数据来做分析.有一些交易软件是可以导出数据的,但是导出的过程还是需要很多的手工操作,自己在想能不能通过Python程序来实现呢. 新浪期货数据接口介绍 ...

  7. python能处理多大的数据-Python 适合大数据量的处理吗?

    python 能处理数据库中百万行级的数据吗? 处理大规模数据时有那些常用的python库,他们有什么优缺点?适用范围如何? 王守崑,推荐系统,数据挖掘 需要澄清两点之后才可以比较全面的看这个问题: ...

  8. python无法处理特别大的数据文件_Python实现快速大文件比较代码解析

    问题 假如,在有两个大文件分别存储了大量的数据,数据其实很简单就是一堆字符串,每行存储一条,如何快速筛选出两个文件的异同之处么,或者如何筛选出两个文件中不同的元素呢? 刚开始我是通过最简单的方法,利用 ...

  9. python 报文解析_python解析DNS数据包实例代码

    例子,python解析DNS数据包. 代码示例: ###file QueryDNS.py## -*- coding: utf-8 -*- #Get DNS answer #详情见RFC 1035 im ...

最新文章

  1. ZooKeeper学习笔记1-----------安装启动
  2. Django的学习需要掌握的一些基础和初步搭建自己的框架
  3. java实现表锁行锁
  4. Codeforces1045I
  5. libreoffice error while loading shared libraries: libSM.so.6: cannot open shared object
  6. abstract class和interface
  7. 中国人工智能学会通讯——KS-Studio:一个知识计算引擎 1.4 结束语
  8. 支付宝当面付打赏系统源码
  9. 微信小程序开发者工具出现Framework inner error错误
  10. 攻防世界----mfw
  11. 微信小程序持续集成方案
  12. 上海宝山锦隆考试基地科目二笔记
  13. Docker安装与镜像的使用
  14. 联想thinkbook14 2022款和2021款区别哪个好
  15. js字符转换成分数_js小数转分数-近似递归
  16. MAC 启动jar失败 显示 Unable to access jarfile xxx.jar
  17. spring Boot Configuration Annotation Processor not fount in classpath
  18. 数据库常考选择题合集
  19. 推荐一款图表功能强大的可视化报表工具
  20. 使用servlet获得客户端与服务器的信息

热门文章

  1. 测试字符串读取类: TStringReader
  2. DynamicPropertyAccessor Expression lambda
  3. PP模块快速入门之功能简介(二)
  4. 每日算法练习之李白喝酒问题
  5. IDEA如何将项目中文件夹设置为Sources(蓝色)
  6. CF183D T-shirt
  7. react+webpack 引入字体图标
  8. python—— 写入错误UnicodeEncodeError的解决办法
  9. sharepoint2013用户切换实现方式
  10. 如何使用Web Service新建和更新Wiki页面的内容