jupyter(python课)

http://10.80.98.127:8080/tree/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%85%A5%E9%97%A8%EF%BC%88Python%EF%BC%89/%E7%AC%AC15%E5%91%A8%EF%BC%9A%E8%AF%BE%E7%A8%8B%E7%9F%A5%E8%AF%86%E7%82%B9%E6%80%BB%E7%BB%93

目录

实例-bitly_usagov(第15周)

.readline()

json.loads()

.get(x,0)

defaultdict的用法:

.items()

.sort()  和 .sorted()

计数器类Counter

most_common(n)函数

.value_counts()

.fillna() 函数

.plot()

Series类型

.dropna()函数

.split(str,num)函数

np.where()

.str.contains()

.groupby()函数

.size()

.unstack()

.sum()

x.argsort() [n]

.take()

stacked

.div(other,axis)

知识点总结

数据类型

元组

列表

字典

set

enumerate() 函数

Numpy

np.arange(a,b,c)

np.random.randn(a,b)

np.empty()

np.zeros()

np.ones()

数组拼接

np.concatenate((a,b),axis=0)

Pandas 基础

Pandas 数据处理

Pandas 数据合并

.merge()

.concat()

Pandas 处理

.stack()

plt.rcParams[""]=

plt.legend()

plt.title()


实例-bitly_usagov(第15周)

# 获取数据集,读取第一行数据
path= "bitly_usagov/example.txt"
open(path).readline()

.readline()

readline()        只读取文件中的一行

read()             读取整个文件,将文件放入一个字符串变量中

readlines()      读取整个文件,将文件内容自动分析成列表

# 利用JSON第三方库读取该数据集,并将JSON格式数据存入数组
import json
path= "bitly_usagov/example.txt"
# 列表推导式
records= [json.loads(line) for line in open(path)]
records[1]

json.loads()

json.dumps()和json.loads()是json格式处理函数

json.dumps()是将python数据类型列表进行接送格式的转换(相当于把列表转化成字符串)

json.loads()是将json格式转化为python数据类型列表(相当于把字符串转化为列表)

这两个函数用于json文件的读或者写

# 用列表推导式取出一组时区,注意并非所有记录都有时区字段
time_zones = [rec["tz"] for rec in records if "tz" in rec]
time_zones[:10]

从records中一行一行读取数据,判断数据是否有“tz”参数。若有就读取“tz”内容,没有就为空

# 对时区进行计数,利用基本PYTHON方法
def get_counts(sequence):counts={} for x in sequence:if x in counts: counts[x] += 1 else: counts[x] = 1 return counts 

一个计数函数,counts为字典,建议改成

counts[x]=counts.get(x,0)+1

.get(x,0)

0 为初始化是新增字符的对应数

# 利用自带基础库进行计算
from collections import defaultdict
def get_counts2(sequence):# 所有的值均会被初始化为0counts = defaultdict(int) for x in sequence: counts[x] += 1 return counts 

defaultdict的用法:

https://www.jianshu.com/p/bbd258f99fd3

defaultdict 是用于当key在字典里找不到时,会赋给这个key一个均值

counts = get_counts(time_zones)
print(counts["America/New_York"])
counts = get_counts2(time_zones)
print(counts["America/New_York"])
print(len(time_zones))

使用函数获得时区计数的字典

总共有3440条数据,时区在美国、纽约的有1251条

# 得到前10位的时区和计数值
def top_counts(count_dict, n=10):value_key_pairs = [(count, tz) for tz, count in count_dict.items()] value_key_pairs.sort() return value_key_pairs[-n:]
top_counts(counts)

.items()

以列表方式获得字典的(键,值)

.sort()  和 .sorted()

.sort    直接对列表内容进行排序

.sorted    返回一个新的排序后的列表(之前的列表内容不变)

详细内容    https://mp.csdn.net/mp_blog/creation/editor/118118533

# Python标准库的使用
from collections import Counter
counts = Counter(time_zones)
counts.most_common(10)

计数器类Counter

根据列表内容进行计数,获得一个类似于字典的计数器

most_common(n)函数

n为可选参数,表示数量最多的前n个元素;若n为空,则返回全部元素

返回一个列表(元素是元组)

若元素数量相同,则元素计数值,则按字母序列排序

# 利用Pandas对时区进行计数
from pandas import DataFrame, Series
import pandas as pd
import numpy as np
frame = DataFrame(records)
frame.head(5)

将records列表转化为DataFrame表格

DataFrame表格可以使用Series的value_counts来计数

# 利用Series的value_counts方法计数
tz_counts = frame["tz"].value_counts()
tz_counts[:10]

.value_counts()

.value_counts()函数通常在数据表的计数和排序中使用,它可以用来查看数据表中,指定列里有多少个不同的数据值,并计算每个不同值有在该列中的个数,同时还能根据需要进行排序。

value_counts(values,sort=True, ascending=False, normalize=False,bins=None,dropna=True)

以下均为默认

sort=True  表示进行排序

ascending=False  表示降序

normalize=False  表示不进行标准化(以比例呈现)

bins  表示分组区间

dropna=True  表示删除缺失值Nan

# 缺失数据的处理
clean_tz = frame["tz"].fillna("Missing")
clean_tz[clean_tz == ""] = "Unknown"
tz_counts = clean_tz.value_counts()
tz_counts[:10]

.fillna() 函数

.fillna()是填充函数,可以填充数据表中缺失的内容。

详细内容:https://blog.csdn.net/weixin_39549734/article/details/81221276

将数据表中为空的数据填上“Missing”,再将为空的数据填上“Unknow”,再计数

%matplotlib inline
tz_counts[:10].plot(kind='barh', rot=0)

.plot()

将数据表可视化

kind = 'line','bar','barh','kde'

分别为折线图,垂直直方图

python答辩准备相关推荐

  1. python答辩结束语_Beta答辩总结

    前言 队名:拖鞋旅游队 项目的链接与宣传 项目总结 原计划 实现功能 预期完成程度 上传照片 完美实现 照片信息标注在地图上 对于有地理信息的照片能够较为精确的定位 足迹地图可视化 能够用颜色区分出到 ...

  2. python答辩报告_Beta答辩总结

    组员名单 短学号 姓名 备注 409 后敬甲 组长 301 蔡文斌 315 黄靖茹 423 刘浩 317 黄泽 328 卢泽明 617 葛亮 344 张杰 348 朱跃安 贡献比分配评估 成员 分工 ...

  3. python答辩结束语_2018-08-17 结束答辩

    今天是实训的最后一天,我们进行了一场答辩会,对这四周以来的学习历程做了一个总结,展示了大作业以及一些实践拓展的成果. 第一周.首先参观了安天,了解了安天的企业文化,以及之后四周的实习安排,接下来主要进 ...

  4. 开源一份2021年数学建模国赛B题全国二等奖的完整论文 代码 以及答辩PPT

    写在前面 本人曾参加2020年数学建模国赛(优胜奖)以及2021年数学建模国赛(全国二等奖),并两次担任了队长,主要负责建模和代码,也承担部分写作任务.在建模之前也看了网上的很多优秀论文,但这些论文是 ...

  5. 爬取实习吧与python相关的招聘信息及分析与数据可视化

    大数据时代,计算机行业蓬勃发展,越来越多的人投身计算机事业养家糊口.所以该如何选择工作,现在社会需要怎么样的计算机人才,我们该如何对应的提升自己的本领都是尤为重要的.这篇文章就是对实习吧招聘网站有关p ...

  6. IoT 设备离线时,云端下行消息触达方案

    在物联网场景中,由于网络不稳定,导致设备间歇性离线状态:电池容量限制,很多 IoT 设备无法做到24小时在线,设备沉睡处于离线状态:这些现状带来一个新的挑战:在设备离线时,云端如何发送控制指令给设备? ...

  7. Python实训day12pm【答辩要求、定时器】

    Python实训-15天-博客汇总表 目录 1.答辩安排 2.定时器 1.答辩安排 下午安排: 今天尽量地完成整个项目: 明天完成实训报告,制作小答辩PPT: 后天答辩. PPT要求: 时长5分钟左右 ...

  8. python课设答辩ppt_如何制作优秀的毕业论文答辩PPT

    首答于知乎,链接:https://www.zhihu.com/question/23221029/answer/717686184 特此作为up主我的第一篇专栏文稿 ╭(●`∀´●)╯. 顺便纪念自己 ...

  9. python毕业设计项目源码选题(10)电影院售票系统毕业设计毕设作品开题报告开题答辩PPT

    python毕业设计项目源码选题(10)电影院售票系统毕业设计毕设作品开题报告开题答辩PPT 用户注册:填写手机账号和密码,注册新用户 登录功能:注册普通账号登录:登录后可以修改用户的基本信息,也可以 ...

最新文章

  1. Back-propagation, an introduction
  2. mfc工程中添加com接口支持
  3. Java面试题 String类能不能被继承?为什么?
  4. 2018.11.16 长难句4
  5. django 用户管理(1)
  6. 【转】SQL中where, group by, having的用法和区别
  7. Linux笔记-nohup和
  8. visual foxpro 程序员指南_好程序员云计算培训分享云计算中SOA是什么?
  9. 读取图像矩阵维度必须一致_深度学习在放射治疗中的应用——工具篇(二)矩阵基本操作...
  10. python 死循环插曲变量_FishC03 讲:python小插曲之变量和字符串
  11. hbase 核心知识
  12. iOS音频播放 (一):概述 转
  13. 运筹学-运输问题-最小元素法
  14. 模组使用之常见认证,CCC认证,SRRC认证,ROHS认证,NAL认证
  15. 论软件设计模式及其应用
  16. 使用虚拟机备份软件恢复Microsoft Hyper-V虚拟机
  17. 微信小程序-贪吃蛇开发4 wxml和wxss学习
  18. centos7重启网卡提示错误的解决方法
  19. CCNA学习笔记10-OSPF
  20. 在不同的浏览器下FORM及它的小伙伴们默认样式的CSS属性值是不完全一致

热门文章

  1. 开源顺顺表格excel电子表格控件免费下载
  2. java后台Controller下载文件方法
  3. create remote oracle odbc data source on win10
  4. 【Laravel笔记】16. Cookie和Session
  5. 戴尔R730服务器增加内存,多功能存储密集型 戴尔R730xd拆解评测
  6. 树莓派Ubuntu 16.04 MATA系统 修改用户文件夹名后,提示configure it with blueman-service...
  7. Redis 之 subscribe 订阅模式封装
  8. 线段树专题 A(单点更新)
  9. css3对页面打印设置的一些特殊属性,如@page,target-counter等
  10. 什么是哈希?哈希的模拟实现