• 【数据分析】图书馆数据-01建表
  • 【数据分析】图书馆数据-02重命名、索书号、分组
  • 【数据分析】图书馆数据-03直方图展示借书数量与借书人数之间的关系
  • 【数据分析】图书馆数据-04借阅情况聚类挖掘
  • 【数据分析】图书馆数据-05读者类型聚类挖掘
  • 【数据分析】图书馆数据-06数据处理过程中的算法
  • 【数据分析】图书馆数据-07关联规则
  • 【数据分析】图书馆数据-08决策树

图书馆数据预处理:

1、由于表的字段都是中文,为了后续处理的方便性,首先将表的字段全部重命名为英文。
      2、对于索书号而言,图书的类型主要由索书号的首字母来决定,因此这里将对索书号进行字符串分割,只保留索书号的首字符。
      3、分组获取不同学生借书数量的多少,便于对学生借书行为进行分析。

字段重命名:

df = pd.read_csv('data.csv')
print df.head()
# -----------------
# 字段重命名,重命名为英文名
# -----------------
df.columns = ['', 'read_num', 'read_name', 'read_sex', 'book', 'book_id', 'read_unit', 'read_class']  # 重命名
print df.head()

划分索书号:

import pandas as pd
"""划分索书号,获取索书号前两位,分组,获取每个学生的借书数量
"""
pf = pd.read_csv('data_english.csv', encoding='gbk')
print pf.head()
print '---------------------------------'
"""获取书目索引号的首位
"""
book_id = pf.pop('book_id')  # 使用pop()函数获取这一列,由于这一列需要修改,所以需要进行删除
# book_id = pf['book_id'].copy()
book_id = book_id.str[:1]
print book_id
print type(book_id)
print '----------------------------------'
"""重新插入书目列
"""
pf.insert(5, 'book_id', book_id)
print pf.head()
print '----------------------------------'

分组统计借书数量:

"""插入一列num全为1
"""
pf['num'] = 1
print pf.head()
print '----------------------------------'
# for row in len(book_id):
#     print
"""按学号分组操作
"""
book = pf[['read_num', 'num']].copy()
print book
# book_counts = book.groupby('read_num').aggregate(sum)
book_counts = book.groupby('read_num').agg('sum')
# print book_counts  # 获得每个学生借书数量的多少
book_counts = book_counts.reset_index()  # 索引转换为列表
print book_counts
print '----------------------------------'data = pd.merge(pf, book_counts, on=['read_num'], how='left')  # pandas csv表左连接
# print data

对业务上的数据分析,也是首次开始学习,如果分析的不对,也请提点一下,想法很重要,所以这也是基于自己现有的想法进行分析处理,在这个数据分析的流程上,在业务逻辑上,有任何建议都希望给予提点,谢谢!

【数据分析】图书馆数据-02重命名、索书号、分组相关推荐

  1. python重命名实现大批量数据文件重命名

    这里主要实现因为单片机程序烧制有错误  采集的数据命名统一出现了错误 现在需要对100V进行统一替换成200V 首先说一下思路,先遍历给定的路径文件夹,将文件的名字得到,然后进行切片处理,因为我的切割 ...

  2. 16、【斯纳克图书馆管理系统】列印索书号

    本系统支持打印图书索书号.架号.图书编号.ISBN号等信息,便于对图书进行精细化管理.此处需分别购置标签打印机和专用条码打印机,详情可咨询客服. 1.列印索书号 进入"图书管理"- ...

  3. python读取erp的数据库_【ERP系统设计】【数据库设计】对数据表重命名和读取建表的SQL语句...

    今天做了一个小Model,就是把另一数据库中的表复制到目标数据库中,但是复制到目标数据库中的表中的记录为空 思路: 1 读取建表的SQL语句 2 通过jdbc执行 3 对新建表进行重新命名 精要: 1 ...

  4. 几分钟教你批量重命名文件,批量更改数据的方法

    批量更改数据的方法有很多,今天为您介绍的是使用Renamer这款专门为批量重命名文件而设计的一款工具,使用Renamer可以批量重命名文件,还可以批量更改文件的数据,操作简单,可快速地同时更改多个文件 ...

  5. oracle无法重命名服务器名字,重命名Oracle数据库服务器

    因工作需要准备了一台服务器专门按照oracle数据库,并且服务器上安装了windows 2003操作系统,在安装系统是没有指定计算机名称, 网络改造等情况下,需要修改数据库服务器的名称或者IP地址.这 ...

  6. Python学习笔记——数据分析之数据可视化工具实战案例:世界高峰数据可视化

    世界高峰数据可视化 (World's Highest Mountains) 参考:https://www.kaggle.com/alex64/d/abcsds/highest-mountains/le ...

  7. 数据分析大数据面试题大杂烩02

    Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill ...

  8. MySQL 学习笔记(4)— 组合查询、子查询、插入数据、更新/删除表数据、增加/删除表中的列以及重命名表

    1. 组合查询 1.表的加减法 表的加法,即求 product 和 product2 的并集,UNION 运算会除去重复的记录 SELECT product_id, product_name FROM ...

  9. pandas使用rename函数重命名dataframe中数据列的名称、从而创建一个包含重复列名称的dataframe数据集

    pandas使用rename函数重命名dataframe中数据列的名称.从而创建一个包含重复列名称的dataframe数据集 目录

最新文章

  1. hadoop中MapReduce中压缩的使用及4种压缩格式的特征的比较
  2. 目标文件里面到底有什么(2)?
  3. 重磅!阿里云发布业界首款SaaS化防火墙
  4. HTML5 中的新特性:
  5. JavaScript的中对象创建和继承原理
  6. java----数组
  7. oracle全数据管理,全面解析Oracle数据库中管理实例的方法
  8. R语言学习之R程序包安装
  9. lg g2 android 5.0 rom,LG G2(D802)升级Flyme4.5图文教程
  10. 网站存在后门 收到公安的网络安全限期整改通知书
  11. 云计算的技术发展趋势
  12. OpenGL三维变换与三维投影实例(行星绕日旋转)
  13. 串口调试助手使用说明
  14. UVa 10603 - Fille
  15. 串口通信(unity,VS通用)
  16. 皇帝成长计划html文件打不开,皇帝成长计划源代码修改(共6篇).doc
  17. vuex是干什么的?
  18. 网络拓扑七大类型:总线、环形、星形、网状、树形、点对点、混合,我背的滚瓜烂熟!
  19. ①、学习HTML 简介
  20. mysql 事务数据分批_mysql 如何分批 读取数据

热门文章

  1. 千峰JAVA逆战班Day36
  2. Apollo planning之hybrid A*
  3. 基于BIM技术的施工管理平台研究
  4. tp5 + workerman 实现聊天室
  5. python编写爬虫爬取先知社区文章
  6. TestPatten测试
  7. LAMP+WordPress部署(yum) 配置简单 轻松上手 亲测有效
  8. iOS: 枚举类型 enum,NS_ENUM,NS_OPTIONS
  9. 全球及中国廉金属热电偶行业市场发展前景与十四五投资规划研究报告2022-2028年
  10. 短视频实战全攻略:从0开始打造爆款抖音号