pandas groupby
#!/usr/bin/env python
# coding: utf-8
import numpy as np
import pandas as pd
##导入数据
movie_box_df = pd.read_csv('./result.csv',header = None)
##查看前五列的信息
movie_box_df.head()##重置列名
movie_box_df.columns = ['movie_name','movie_id','time','box_value']
##按电影名分组
movie_whole_box = movie_box_df.groupby('movie_name').sum()##查看分组后的数据
movie_whole_box.head()##去掉movieid
movie_whole_box.drop('movie_id',axis = 1,inplace = True)
movie_box_df.head()
movie2id = {}
movie =pd.DataFrame(movie_box_df.groupby('movie_name'))
movie.columns = ['movie_name','s']
movie_name_set = movie.movie_name.values
len(movie_name_set)
movie_id = movie_box_df[['movie_name','movie_id']]
movie_id.drop_duplicates()
len(set(movie_id.movie_name.values))
##3448
len(set(movie_id.movie_id.values))
##3490
##按movie_name删除重复
movie_id.drop_duplicates(['movie_name'],inplace=True)
##merge两个dataframe
all = pd.merge(movie_id,movie_whole_box,how= 'left',on=['movie_name','movie_name'])
all.to_csv('movie_all_box_office.csv',index=0)##keys = movie_id['movie_name'].tolist() # 列A
##values = movie_id['movie_id'].tolist() # 列B
##movive2dict = dict(zip(keys, values))with open('movie2index.txt','w') as f:f.write(str(movie2dict))
data_dict=movie_id.groupby('movie_name').movie_id.apply(list).to_dict()
x = {}
for i,v in data_dict.items():x[i] = v[0]
pandas groupby相关推荐
- Pandas GroupBy 深度总结
今天,我们将探讨如何在 Python 的 Pandas 库中创建 GroupBy 对象以及该对象的工作原理.我们将详细了解分组过程的每个步骤,可以将哪些方法应用于 GroupBy 对象上,以及我们可以 ...
- 【Python】Pandas GroupBy 深度总结
今天,我们将探讨如何在 Python 的 Pandas 库中创建 GroupBy 对象以及该对象的工作原理.我们将详细了解分组过程的每个步骤,可以将哪些方法应用于 GroupBy 对象上,以及我们可以 ...
- itertools.groupby与pandas.groupby的异同
背景 最近遇到一个bug,是在老代码中,多年用下来都没事,但是新增业务需求就遇到问题了.经过排除,发现是由于itertools.groupby的用法与想象中不一样,至少与我熟知的pandas.grou ...
- pandas—groupby如何得到分组里的数据
pandas-groupby如何得到分组里的数据 有的时候csv文件过大,利用循环时间消耗大,因此可以通过分组. 原数据如下: 想把link和future特征为基准,把current整合起来放在一列. ...
- python画熊猫代码_python – 使用子图和循环绘制Pandas groupby组
我正在尝试基于Pandas groupby对象生成子图的网格.我希望每个绘图都基于groupby对象的一组的两列数据.假数据集: C1,C2,C3,C4 1,12,125,25 2,13,25,25 ...
- python 组内排序_python - pandas groupby在组内排序
python - pandas groupby在组内排序 我想将数据框分组为两列,然后对组内的聚合结果进行排序. In [167]: df Out[167]: count job source 0 2 ...
- 使用pandas GroupBy获取每个组的统计信息(例如计数,均值等)?
本文翻译自:Get statistics for each group (such as count, mean, etc) using pandas GroupBy? I have a data f ...
- 【Python】Pandas groupby加速处理数据
在使用pandas的时候,经常会用到groupby这个函数来对数据进行分组统计,同时可以使用 apply函数很方便的对分组之后的数据进行处理. def data_process(x):# proces ...
- python给内置函数重命名_python – 以Pandas Groupby函数重命名列名
1).我有一个以下示例数据集: >>> df ID Region count 0 100 Asia 2 1 101 Europe 3 2 102 US 1 3 103 Africa ...
最新文章
- 当CPU飙高时,它在做什么
- 【408预推免复习】计算机组成原理之系统总线
- 使用nsenter进入docker namespace
- WPF Calendar 日历控件 样式自定义
- 在SecureCRT中,hbase shell不能回退的问题
- Gentoo 安装日记 17(修改/etc/fstab)
- Angular应用的入口
- qt中的mysql能存入多少行数据_Qt中提高sqlite的读写速度(使用事务一次性写入100万条数据)...
- WPF 中的Width 与 ActualWidth
- 基于linux的进程调度模拟程序,2011180021_Linux操作系统_课程设计报告_基于Linux的进程调度模拟程序...
- 【math】 向量运算:叉乘
- web前端如何才能成为架构师
- 【Unity】制作一个商店场景
- 上海-苏州 100公里徒步旅行心情分享(二)
- crt上传数据_使用SecureCRT上传文件到Linux服务器
- c语言求椭圆的切线方程,如何快速求椭圆的切线方程
- 边城高级中学2021届高考成绩查询,坚定信心 不负韶华——边城高级中学开展2021届高考考前教育会...
- 【通俗易懂的通信】信道编码之——汉明码
- 自动驾驶|马斯克推特宣布特斯拉全自动驾驶选项下月再涨1000美元
- 2019前端最全面试题
热门文章
- 告别2019:属于深度学习的十年,那些我们必须知道的经典
- 只需2040张图片,训练视觉Transformer:南大吴建鑫团队提出IDMM
- 惊了!计算机视觉还可以这么玩?
- 终于有人把计算机视觉讲明白了
- 厉害了!LeetCode 解题笔记终于在GitHub开源了!
- 推荐收藏 | 算法工程师常见面试问题及相关资料汇总
- PyCharm 2019.3发布,增加了哪些新功能呢?
- python3.7源码分析-集合(set)
- 自然语言处理(NLP)之从文本中提取时间
- 目标检测回归损失函数简介:SmoothL1/IoU/GIoU/DIoU/CIoU Loss