#!/usr/bin/env python
# coding: utf-8
import numpy as np
import pandas as pd
##导入数据
movie_box_df = pd.read_csv('./result.csv',header = None)
##查看前五列的信息
movie_box_df.head()##重置列名
movie_box_df.columns = ['movie_name','movie_id','time','box_value']
##按电影名分组
movie_whole_box = movie_box_df.groupby('movie_name').sum()##查看分组后的数据
movie_whole_box.head()##去掉movieid
movie_whole_box.drop('movie_id',axis = 1,inplace = True)
movie_box_df.head()
movie2id = {}
movie =pd.DataFrame(movie_box_df.groupby('movie_name'))
movie.columns = ['movie_name','s']
movie_name_set = movie.movie_name.values
len(movie_name_set)
movie_id = movie_box_df[['movie_name','movie_id']]
movie_id.drop_duplicates()
len(set(movie_id.movie_name.values))
##3448
len(set(movie_id.movie_id.values))
##3490
##按movie_name删除重复
movie_id.drop_duplicates(['movie_name'],inplace=True)
##merge两个dataframe
all = pd.merge(movie_id,movie_whole_box,how= 'left',on=['movie_name','movie_name'])
all.to_csv('movie_all_box_office.csv',index=0)##keys = movie_id['movie_name'].tolist()  # 列A
##values = movie_id['movie_id'].tolist()  # 列B
##movive2dict = dict(zip(keys, values))with open('movie2index.txt','w') as f:f.write(str(movie2dict))
data_dict=movie_id.groupby('movie_name').movie_id.apply(list).to_dict()
x = {}
for i,v in data_dict.items():x[i] = v[0]

pandas groupby相关推荐

  1. Pandas GroupBy 深度总结

    今天,我们将探讨如何在 Python 的 Pandas 库中创建 GroupBy 对象以及该对象的工作原理.我们将详细了解分组过程的每个步骤,可以将哪些方法应用于 GroupBy 对象上,以及我们可以 ...

  2. 【Python】Pandas GroupBy 深度总结

    今天,我们将探讨如何在 Python 的 Pandas 库中创建 GroupBy 对象以及该对象的工作原理.我们将详细了解分组过程的每个步骤,可以将哪些方法应用于 GroupBy 对象上,以及我们可以 ...

  3. itertools.groupby与pandas.groupby的异同

    背景 最近遇到一个bug,是在老代码中,多年用下来都没事,但是新增业务需求就遇到问题了.经过排除,发现是由于itertools.groupby的用法与想象中不一样,至少与我熟知的pandas.grou ...

  4. pandas—groupby如何得到分组里的数据

    pandas-groupby如何得到分组里的数据 有的时候csv文件过大,利用循环时间消耗大,因此可以通过分组. 原数据如下: 想把link和future特征为基准,把current整合起来放在一列. ...

  5. python画熊猫代码_python – 使用子图和循环绘制Pandas groupby组

    我正在尝试基于Pandas groupby对象生成子图的网格.我希望每个绘图都基于groupby对象的一组的两列数据.假数据集: C1,C2,C3,C4 1,12,125,25 2,13,25,25 ...

  6. python 组内排序_python - pandas groupby在组内排序

    python - pandas groupby在组内排序 我想将数据框分组为两列,然后对组内的聚合结果进行排序. In [167]: df Out[167]: count job source 0 2 ...

  7. 使用pandas GroupBy获取每个组的统计信息(例如计数,均值等)?

    本文翻译自:Get statistics for each group (such as count, mean, etc) using pandas GroupBy? I have a data f ...

  8. 【Python】Pandas groupby加速处理数据

    在使用pandas的时候,经常会用到groupby这个函数来对数据进行分组统计,同时可以使用 apply函数很方便的对分组之后的数据进行处理. def data_process(x):# proces ...

  9. python给内置函数重命名_python – 以Pandas Groupby函数重命名列名

    1).我有一个以下示例数据集: >>> df ID Region count 0 100 Asia 2 1 101 Europe 3 2 102 US 1 3 103 Africa ...

最新文章

  1. 当CPU飙高时,它在做什么
  2. 【408预推免复习】计算机组成原理之系统总线
  3. 使用nsenter进入docker namespace
  4. WPF Calendar 日历控件 样式自定义
  5. 在SecureCRT中,hbase shell不能回退的问题
  6. Gentoo 安装日记 17(修改/etc/fstab)
  7. Angular应用的入口
  8. qt中的mysql能存入多少行数据_Qt中提高sqlite的读写速度(使用事务一次性写入100万条数据)...
  9. WPF 中的Width 与 ActualWidth
  10. 基于linux的进程调度模拟程序,2011180021_Linux操作系统_课程设计报告_基于Linux的进程调度模拟程序...
  11. 【math】 向量运算:叉乘
  12. web前端如何才能成为架构师
  13. 【Unity】制作一个商店场景
  14. 上海-苏州 100公里徒步旅行心情分享(二)
  15. crt上传数据_使用SecureCRT上传文件到Linux服务器
  16. c语言求椭圆的切线方程,如何快速求椭圆的切线方程
  17. 边城高级中学2021届高考成绩查询,坚定信心 不负韶华——边城高级中学开展2021届高考考前教育会...
  18. 【通俗易懂的通信】信道编码之——汉明码
  19. 自动驾驶|马斯克推特宣布特斯拉全自动驾驶选项下月再涨1000美元
  20. 2019前端最全面试题

热门文章

  1. 告别2019:属于深度学习的十年,那些我们必须知道的经典
  2. 只需2040张图片,训练视觉Transformer:南大吴建鑫团队提出IDMM
  3. 惊了!计算机视觉还可以这么玩?
  4. 终于有人把计算机视觉讲明白了
  5. 厉害了!LeetCode 解题笔记终于在GitHub开源了!
  6. 推荐收藏 | 算法工程师常见面试问题及相关资料汇总
  7. PyCharm 2019.3发布,增加了哪些新功能呢?
  8. python3.7源码分析-集合(set)
  9. 自然语言处理(NLP)之从文本中提取时间
  10. 目标检测回归损失函数简介:SmoothL1/IoU/GIoU/DIoU/CIoU Loss