读取json内容:

import json

path='路径\文件名.txt'

records=[json.loads(line) for line in open(path)]

#records为由字典组成的列表。每个字典为一个实例

建立只有‘tz’时区字段的列表。因为不是每个字典实例都有tz字段,所以要加上if 'tz' in rec。否则会报错。

time_zone=[rec['tz'] for rec in records if 'tz' in rec]

统计每种时区的出现次数:

方法一:

先统计次数,生成{时区1:次数,时区2:次数....}形式的字典。

再对字典进行排序。

统计次数方法(1):

from collections import defaultdict #次数统计函数

def get_counts(sequences)

counts=defaultdict(int) #初始化次数统计字典,将其初始值设为0

for x in sequences:

counts[x]+=1

return counts

统计次数方法(2):

from collections import defaultdict

def get_count2(sequence):

counts=defaultdict(int)

for x in sequence:

counts[x]+=1

return counts

排序

def top_count(counts,n=10) #字典排序函数,两个参数里一个是计数字典,一个是排序取前几。默认为前10。

value_key_pairs=[(count,tz) for tz, count in counts.items()]

value_key_pairs.sort()

return value_key_pairs[-10:]

counts=get_counts(time_zone)

top10=top_count(counts)

其中counts.items()是将字典中的键值对以元组的形式放进列表里。

例:counts:

{u'America/Montreal': 9, u'America/Anchorage': 5, u'Asia/Seoul': 5}

counts.items():

[(u'America/Montreal', 9), (u'America/Anchorage', 5), (u'Asia/Seoul', 5)]

而这句:value_key_pairs=[(count,tz) for tz, count in counts.items()]则是对返回的键,值对元组的位置做了调换。

例:[(9, u'America/Montreal'), (5, u'America/Anchorage'), (5, u'Asia/Seoul')]

value_key_pairs.sort()中 list.sort()方法只能用于列表,是对原列表进行排序。默认升序。需要降序则value_key_pairs.sort(reverse=False)

方法二:使用Counter类

from collections import Counter

counts=Counter(time_zone)

top10=counts.most_common(10)

Counter类的目的是用来跟踪值出现的次数。它是一个无序的容器类型,以字典的键值对形式存储,其中元素作为key,其计数作为value。计数值可以是任意的Interger(包括0和负数)。Counter类和其他语言的bags或multisets很相似。

详细参考:http://www.jb51.net/article/85542.htm

方法三:用pandas计数

import pandas as pd

import numpy as np

frame=pd.DataFrame(records)

tz_counts=frame['tz'].value_counts() #计数并且排序,默认降序。tz_counts如下:

image.png

注意里面有空值

clear_tz=frame['tz'].fillna('Missing') #替换掉frame里缺失tz字段的NA

clear_tz[clear_tz=='']='Unknown #通过布尔型数组索引替换空字符串

tz_counts=clear_tz.value_counts()

此时的tz_counts如下。注意空字符串变成了unknow。以及增加了missing计数。

image.png

使用前十的数据,利用plot方法生成一张水平条形图。

tz_counts[:10].plot(kind='barh',rot=0)

image.png

总结:

1.往字典里存数据需要先初始化字典。可使用defaultdict函数:

from collections import defaultdict

counts=defaultdict(int) #初始化次数统计字典,将其初始值设为0

2.清洗数据,有的数据没有某个字段,一是要替换掉这些缺失值,可用fillna方法替换。二是要注意有没有空字符串,这种数据可通过布尔型数组索引来替换掉。

3.对某个字段的值的出现次数进行统计,可使用三种方法

(1)新建一个字典,用以统计每个值的出现次数。再将该字典转换为列表,对列表进行排序。

(2)使用counter类进行次数统计并排序。

(3)先将json转换为DataFrame对象,再对其tz字段使用pandas的value_counts()方法进行次数统计并排序。

python进行数据分析 简书_《利用python进行数据分析》读书笔记1相关推荐

  1. 小甲鱼python课后题简书_【Python爬虫】-笨办法学 Python 习题01-10

    一.作业内容: 01.将下面的内容写到一个文件中,取名为ex1.py.这个命名方式很重要,Python文件最好以.py结尾. 1 print "Hello World!" 2 pr ...

  2. python中format函数用法简书_从Python安装到语法基础,这才是初学者都能懂的爬虫教程...

    Python和PyCharm的安装:学会Python和PyCharm的安装方法 变量和字符串:学会使用变量和字符串的基本用法 函数与控制语句:学会Python循环.判断语句.循环语句和函数的使用 Py ...

  3. python处理水站的数据_利用Python进行数据分析(一):数据清洗与准备

    b站的小伙伴们大家吼~~ 在b站摸了快四年鱼的菜鸡也想开始做知识分享了,虽然说是分享其实根本目的也是为了督促自己好好学习把QAQ. 从今天开始,我将会在专栏分享我在学习<利用Python进行数据 ...

  4. python工厂模式 简书_工厂

    思考题 public void printMenu() { PancakeHouseMenu pancakeHouseMenu = new PancakeHouseMenu(); ArrayList ...

  5. python输入数组并计算_利用Python进行数据分析——Numpy基础:数组和矢量计算

    利用Python进行数据分析--Numpy基础:数组和矢量计算 ndarry,一个具有矢量运算和复杂广播能力快速节省空间的多维数组 对整组数据进行快速运算的标准数学函数,无需for-loop 用于读写 ...

  6. 利用python从网页查找数据_利用Python模拟淘宝的搜索过程并对数据进行可视化分析...

    数据挖掘入门与实战 公众号: datadw 本文讲述如何利用Python模拟淘宝的搜索过程并对搜索结果进行初步的数据可视化分析. 搜索过程的模拟:淘宝的搜索页面有两种形式, 一种形式是, 2019/2 ...

  7. python 打卡记录代码_利用Python实现对考勤打卡数据处理的总结

    利用Python实现对考勤打卡数据处理的总结 一.背景交代 二.说明 三. 8种方法 1. 查看文件是否存在 2. 导入excel文件,并把数据保存为dataframe格式 3. 计算程序运行时间 4 ...

  8. python自动生成word报告_利用Python实现报告自动生成

    前几天,在网上看到一篇介绍利用Python组件实现MS word内容生成的文章.可能是很久没接触编码,感觉在技术领域变得有点孤陋寡闻了,看见一些实用的功能都觉的屌屌的.以前经常通过代码写Excel文件 ...

  9. python画圣诞老人简笔画_利用Python绘制有趣的万圣节南瓜怪效果

    关于万圣节 万圣节又叫诸圣节,在每年的11月1日,是西方的传统节日;而万圣节前夜的10月31日是这个节日最热闹的时刻.在中文里,常常把万圣节前夜(Halloween)讹译为万圣节(All Saints ...

  10. python制作的网站例子_利用Python绘制Jazz网络图的例子

    最近在进行社交网络的学习,想利用Python来进行分析,但是网上关于这方面的资料好像很少,所以自己进行了一点研究,算是有一点点进步,现在将自己的成果发出来,希望这方面感兴趣的同学也可以快速入门.话不多 ...

最新文章

  1. 网页学名为html文件,什么是HTML
  2. C++ 继承过程中使用访问说明符和虚函数
  3. 20220312 矩阵许瓦茨不等式
  4. 三相滤波器怎么接线_单相电机和三相电机怎么接线?为什么三相电机有3或6个接线柱?...
  5. Java可能使用UTF-8作为其默认字符集
  6. leetcode 1207. 独一无二的出现次数(map+set)
  7. 如何估算代码量_千万级用户的大型网站,应该如何设计其高并发架构?(彩蛋)...
  8. CI框架源码学习笔记7——Utf8.php
  9. tarfile读文件python_Python中使用tarfile压缩、解压tar归档文件示例
  10. libxml主要函数说明 (一)
  11. Java Web第三弹---Tomcat
  12. 手机通话断了怎么显示链接服务器,手机每次通话三分钟就自动挂断了,怎么回事啊...
  13. idea解決tomcat乱码问题
  14. VMware虚拟机XP系统安装教程
  15. HTML测试报告模板
  16. 解决笔记本屏幕颜色偏变白问题
  17. 自定义dns服务器faq,常见手机品牌的DNS修改方法
  18. win10计算机无法复制文件,Win10系统禁止U盘拷贝文件的方法【图文】
  19. GLES2.0中文API-glShaderBinary
  20. 【盘点】2022上半年十大网络安全事件

热门文章

  1. Oracle or Question Solve(二)
  2. 【转】pthread_cond_signal 虚假唤醒问题
  3. IOS中扩展机制Category和associative
  4. 71. Merge k Sorted Lists
  5. 读书笔记——Accelerated C++ Chapter 12 使类对象获得数值功能
  6. Oracle Assets Additions API--Sample Script(Invoices)
  7. PHP收费事件导致用户流失,PHP秒杀系统方案(解决大流量,高并发)
  8. AMP、HMP、SMP
  9. system类的 静态方法可以启动垃圾回收器。_跟小伟一起学习类加载机制
  10. 迁移实战:一次AntDB(基于pgxl分布式架构的数据库)数据库迁移经验分享