jupyter（python课）

http://10.80.98.127:8080/tree/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%85%A5%E9%97%A8%EF%BC%88Python%EF%BC%89/%E7%AC%AC15%E5%91%A8%EF%BC%9A%E8%AF%BE%E7%A8%8B%E7%9F%A5%E8%AF%86%E7%82%B9%E6%80%BB%E7%BB%93

实例-bitly_usagov（第15周）

.readline()

json.loads()

.get(x,0)

defaultdict的用法：

.items()

.sort() 和 .sorted()

计数器类Counter

most_common(n)函数

.value_counts()

.fillna() 函数

.plot()

Series类型

.dropna()函数

.split(str,num)函数

np.where()

.str.contains()

.groupby()函数

.size()

.unstack()

.sum()

x.argsort() [n]

.take()

stacked

.div(other,axis)

知识点总结

数据类型

元组

列表

字典

set

enumerate() 函数

Numpy

np.arange(a,b,c)

np.random.randn（a,b）

np.empty()

np.zeros()

np.ones()

数组拼接

np.concatenate((a,b),axis=0)

Pandas 基础

Pandas 数据处理

Pandas 数据合并

.merge()

.concat()

Pandas 处理

.stack()

plt.rcParams[""]=

plt.legend()

plt.title()

实例-bitly_usagov（第15周）

# 获取数据集，读取第一行数据
path= "bitly_usagov/example.txt"
open(path).readline()

.readline()

readline() 只读取文件中的一行

read() 读取整个文件，将文件放入一个字符串变量中

readlines() 读取整个文件，将文件内容自动分析成列表

# 利用JSON第三方库读取该数据集，并将JSON格式数据存入数组
import json
path= "bitly_usagov/example.txt"
# 列表推导式
records= [json.loads(line) for line in open(path)]
records[1]

json.loads()

json.dumps()和json.loads()是json格式处理函数

json.dumps()是将python数据类型列表进行接送格式的转换（相当于把列表转化成字符串）

json.loads()是将json格式转化为python数据类型列表（相当于把字符串转化为列表）

这两个函数用于json文件的读或者写

# 用列表推导式取出一组时区，注意并非所有记录都有时区字段
time_zones = [rec["tz"] for rec in records if "tz" in rec]
time_zones[:10]

从records中一行一行读取数据，判断数据是否有“tz”参数。若有就读取“tz”内容，没有就为空

# 对时区进行计数，利用基本PYTHON方法
def get_counts(sequence):counts={} for x in sequence:if x in counts: counts[x] += 1 else: counts[x] = 1 return counts

一个计数函数，counts为字典，建议改成

counts[x]=counts.get(x,0)+1

.get(x,0)

0 为初始化是新增字符的对应数

# 利用自带基础库进行计算
from collections import defaultdict
def get_counts2(sequence):# 所有的值均会被初始化为0counts = defaultdict(int) for x in sequence: counts[x] += 1 return counts

defaultdict的用法：

https://www.jianshu.com/p/bbd258f99fd3

defaultdict 是用于当key在字典里找不到时，会赋给这个key一个均值

counts = get_counts(time_zones)
print(counts["America/New_York"])
counts = get_counts2(time_zones)
print(counts["America/New_York"])
print(len(time_zones))

使用函数获得时区计数的字典

总共有3440条数据，时区在美国、纽约的有1251条

# 得到前10位的时区和计数值
def top_counts(count_dict, n=10):value_key_pairs = [(count, tz) for tz, count in count_dict.items()] value_key_pairs.sort() return value_key_pairs[-n:]
top_counts(counts)

.items()

以列表方式获得字典的（键，值）

.sort() 和 .sorted()

.sort 直接对列表内容进行排序

.sorted 返回一个新的排序后的列表（之前的列表内容不变）

详细内容 https://mp.csdn.net/mp_blog/creation/editor/118118533

# Python标准库的使用
from collections import Counter
counts = Counter(time_zones)
counts.most_common(10)

计数器类Counter

根据列表内容进行计数，获得一个类似于字典的计数器

most_common(n)函数

n为可选参数，表示数量最多的前n个元素；若n为空，则返回全部元素

返回一个列表（元素是元组）

若元素数量相同，则元素计数值，则按字母序列排序

# 利用Pandas对时区进行计数
from pandas import DataFrame, Series
import pandas as pd
import numpy as np
frame = DataFrame(records)
frame.head(5)

将records列表转化为DataFrame表格

DataFrame表格可以使用Series的value_counts来计数

# 利用Series的value_counts方法计数
tz_counts = frame["tz"].value_counts()
tz_counts[:10]

.value_counts()

.value_counts()函数通常在数据表的计数和排序中使用，它可以用来查看数据表中，指定列里有多少个不同的数据值，并计算每个不同值有在该列中的个数，同时还能根据需要进行排序。

value_counts(values,sort=True, ascending=False, normalize=False,bins=None,dropna=True)

以下均为默认

sort=True 表示进行排序

ascending=False 表示降序

normalize=False 表示不进行标准化（以比例呈现）

bins 表示分组区间

dropna=True 表示删除缺失值Nan

# 缺失数据的处理
clean_tz = frame["tz"].fillna("Missing")
clean_tz[clean_tz == ""] = "Unknown"
tz_counts = clean_tz.value_counts()
tz_counts[:10]

.fillna() 函数

.fillna()是填充函数，可以填充数据表中缺失的内容。

详细内容：https://blog.csdn.net/weixin_39549734/article/details/81221276

将数据表中为空的数据填上“Missing”，再将为空的数据填上“Unknow”，再计数

%matplotlib inline
tz_counts[:10].plot(kind='barh', rot=0)

.plot()

将数据表可视化

kind = 'line','bar','barh','kde'

分别为折线图，垂直直方图

python答辩准备相关推荐

python答辩结束语_Beta答辩总结
前言队名:拖鞋旅游队项目的链接与宣传项目总结原计划实现功能预期完成程度上传照片完美实现照片信息标注在地图上对于有地理信息的照片能够较为精确的定位足迹地图可视化能够用颜色区分出到 ...
python答辩报告_Beta答辩总结
组员名单短学号姓名备注 409 后敬甲组长 301 蔡文斌 315 黄靖茹 423 刘浩 317 黄泽 328 卢泽明 617 葛亮 344 张杰 348 朱跃安贡献比分配评估成员分工 ...
python答辩结束语_2018-08-17 结束答辩
今天是实训的最后一天,我们进行了一场答辩会,对这四周以来的学习历程做了一个总结,展示了大作业以及一些实践拓展的成果. 第一周.首先参观了安天,了解了安天的企业文化,以及之后四周的实习安排,接下来主要进 ...
开源一份2021年数学建模国赛B题全国二等奖的完整论文代码以及答辩PPT
写在前面本人曾参加2020年数学建模国赛(优胜奖)以及2021年数学建模国赛(全国二等奖),并两次担任了队长,主要负责建模和代码,也承担部分写作任务.在建模之前也看了网上的很多优秀论文,但这些论文是 ...
爬取实习吧与python相关的招聘信息及分析与数据可视化
大数据时代,计算机行业蓬勃发展,越来越多的人投身计算机事业养家糊口.所以该如何选择工作,现在社会需要怎么样的计算机人才,我们该如何对应的提升自己的本领都是尤为重要的.这篇文章就是对实习吧招聘网站有关p ...
IoT 设备离线时，云端下行消息触达方案
在物联网场景中,由于网络不稳定,导致设备间歇性离线状态:电池容量限制,很多 IoT 设备无法做到24小时在线,设备沉睡处于离线状态:这些现状带来一个新的挑战:在设备离线时,云端如何发送控制指令给设备? ...
Python实训day12pm【答辩要求、定时器】
Python实训-15天-博客汇总表目录 1.答辩安排 2.定时器 1.答辩安排下午安排: 今天尽量地完成整个项目: 明天完成实训报告,制作小答辩PPT: 后天答辩. PPT要求: 时长5分钟左右 ...
python课设答辩ppt_如何制作优秀的毕业论文答辩PPT
首答于知乎,链接:https://www.zhihu.com/question/23221029/answer/717686184 特此作为up主我的第一篇专栏文稿 ╭(●｀∀´●)╯. 顺便纪念自己 ...
python毕业设计项目源码选题（10）电影院售票系统毕业设计毕设作品开题报告开题答辩PPT
python毕业设计项目源码选题(10)电影院售票系统毕业设计毕设作品开题报告开题答辩PPT 用户注册:填写手机账号和密码,注册新用户登录功能:注册普通账号登录:登录后可以修改用户的基本信息,也可以 ...

python答辩准备

实例-bitly_usagov（第15周）

.readline()

json.loads()

.get(x,0)

defaultdict的用法：

.items()

.sort() 和 .sorted()

计数器类Counter

most_common(n)函数

.value_counts()

.fillna() 函数

.plot()

python答辩准备相关推荐

最新文章

热门文章