python答辩准备
jupyter(python课)
http://10.80.98.127:8080/tree/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E5%85%A5%E9%97%A8%EF%BC%88Python%EF%BC%89/%E7%AC%AC15%E5%91%A8%EF%BC%9A%E8%AF%BE%E7%A8%8B%E7%9F%A5%E8%AF%86%E7%82%B9%E6%80%BB%E7%BB%93
目录
实例-bitly_usagov(第15周)
.readline()
json.loads()
.get(x,0)
defaultdict的用法:
.items()
.sort() 和 .sorted()
计数器类Counter
most_common(n)函数
.value_counts()
.fillna() 函数
.plot()
Series类型
.dropna()函数
.split(str,num)函数
np.where()
.str.contains()
.groupby()函数
.size()
.unstack()
.sum()
x.argsort() [n]
.take()
stacked
.div(other,axis)
知识点总结
数据类型
元组
列表
字典
set
enumerate() 函数
Numpy
np.arange(a,b,c)
np.random.randn(a,b)
np.empty()
np.zeros()
np.ones()
数组拼接
np.concatenate((a,b),axis=0)
Pandas 基础
Pandas 数据处理
Pandas 数据合并
.merge()
.concat()
Pandas 处理
.stack()
plt.rcParams[""]=
plt.legend()
plt.title()
实例-bitly_usagov(第15周)
# 获取数据集,读取第一行数据
path= "bitly_usagov/example.txt"
open(path).readline()
.readline()
readline() 只读取文件中的一行
read() 读取整个文件,将文件放入一个字符串变量中
readlines() 读取整个文件,将文件内容自动分析成列表
# 利用JSON第三方库读取该数据集,并将JSON格式数据存入数组
import json
path= "bitly_usagov/example.txt"
# 列表推导式
records= [json.loads(line) for line in open(path)]
records[1]
json.loads()
json.dumps()和json.loads()是json格式处理函数
json.dumps()是将python数据类型列表进行接送格式的转换(相当于把列表转化成字符串)
json.loads()是将json格式转化为python数据类型列表(相当于把字符串转化为列表)
这两个函数用于json文件的读或者写
# 用列表推导式取出一组时区,注意并非所有记录都有时区字段
time_zones = [rec["tz"] for rec in records if "tz" in rec]
time_zones[:10]
从records中一行一行读取数据,判断数据是否有“tz”参数。若有就读取“tz”内容,没有就为空
# 对时区进行计数,利用基本PYTHON方法
def get_counts(sequence):counts={} for x in sequence:if x in counts: counts[x] += 1 else: counts[x] = 1 return counts
一个计数函数,counts为字典,建议改成
counts[x]=counts.get(x,0)+1
.get(x,0)
0 为初始化是新增字符的对应数
# 利用自带基础库进行计算
from collections import defaultdict
def get_counts2(sequence):# 所有的值均会被初始化为0counts = defaultdict(int) for x in sequence: counts[x] += 1 return counts
defaultdict的用法:
https://www.jianshu.com/p/bbd258f99fd3
defaultdict 是用于当key在字典里找不到时,会赋给这个key一个均值
counts = get_counts(time_zones)
print(counts["America/New_York"])
counts = get_counts2(time_zones)
print(counts["America/New_York"])
print(len(time_zones))
使用函数获得时区计数的字典
总共有3440条数据,时区在美国、纽约的有1251条
# 得到前10位的时区和计数值
def top_counts(count_dict, n=10):value_key_pairs = [(count, tz) for tz, count in count_dict.items()] value_key_pairs.sort() return value_key_pairs[-n:]
top_counts(counts)
.items()
以列表方式获得字典的(键,值)
.sort() 和 .sorted()
.sort 直接对列表内容进行排序
.sorted 返回一个新的排序后的列表(之前的列表内容不变)
详细内容 https://mp.csdn.net/mp_blog/creation/editor/118118533
# Python标准库的使用
from collections import Counter
counts = Counter(time_zones)
counts.most_common(10)
计数器类Counter
根据列表内容进行计数,获得一个类似于字典的计数器
most_common(n)函数
n为可选参数,表示数量最多的前n个元素;若n为空,则返回全部元素
返回一个列表(元素是元组)
若元素数量相同,则元素计数值,则按字母序列排序
# 利用Pandas对时区进行计数
from pandas import DataFrame, Series
import pandas as pd
import numpy as np
frame = DataFrame(records)
frame.head(5)
将records列表转化为DataFrame表格
DataFrame表格可以使用Series的value_counts来计数
# 利用Series的value_counts方法计数
tz_counts = frame["tz"].value_counts()
tz_counts[:10]
.value_counts()
.value_counts()函数通常在数据表的计数和排序中使用,它可以用来查看数据表中,指定列里有多少个不同的数据值,并计算每个不同值有在该列中的个数,同时还能根据需要进行排序。
value_counts(values,sort=True, ascending=False, normalize=False,bins=None,dropna=True)
以下均为默认
sort=True 表示进行排序
ascending=False 表示降序
normalize=False 表示不进行标准化(以比例呈现)
bins 表示分组区间
dropna=True 表示删除缺失值Nan
# 缺失数据的处理
clean_tz = frame["tz"].fillna("Missing")
clean_tz[clean_tz == ""] = "Unknown"
tz_counts = clean_tz.value_counts()
tz_counts[:10]
.fillna() 函数
.fillna()是填充函数,可以填充数据表中缺失的内容。
详细内容:https://blog.csdn.net/weixin_39549734/article/details/81221276
将数据表中为空的数据填上“Missing”,再将为空的数据填上“Unknow”,再计数
%matplotlib inline
tz_counts[:10].plot(kind='barh', rot=0)
.plot()
将数据表可视化
kind = 'line','bar','barh','kde'
分别为折线图,垂直直方图
python答辩准备相关推荐
- python答辩结束语_Beta答辩总结
前言 队名:拖鞋旅游队 项目的链接与宣传 项目总结 原计划 实现功能 预期完成程度 上传照片 完美实现 照片信息标注在地图上 对于有地理信息的照片能够较为精确的定位 足迹地图可视化 能够用颜色区分出到 ...
- python答辩报告_Beta答辩总结
组员名单 短学号 姓名 备注 409 后敬甲 组长 301 蔡文斌 315 黄靖茹 423 刘浩 317 黄泽 328 卢泽明 617 葛亮 344 张杰 348 朱跃安 贡献比分配评估 成员 分工 ...
- python答辩结束语_2018-08-17 结束答辩
今天是实训的最后一天,我们进行了一场答辩会,对这四周以来的学习历程做了一个总结,展示了大作业以及一些实践拓展的成果. 第一周.首先参观了安天,了解了安天的企业文化,以及之后四周的实习安排,接下来主要进 ...
- 开源一份2021年数学建模国赛B题全国二等奖的完整论文 代码 以及答辩PPT
写在前面 本人曾参加2020年数学建模国赛(优胜奖)以及2021年数学建模国赛(全国二等奖),并两次担任了队长,主要负责建模和代码,也承担部分写作任务.在建模之前也看了网上的很多优秀论文,但这些论文是 ...
- 爬取实习吧与python相关的招聘信息及分析与数据可视化
大数据时代,计算机行业蓬勃发展,越来越多的人投身计算机事业养家糊口.所以该如何选择工作,现在社会需要怎么样的计算机人才,我们该如何对应的提升自己的本领都是尤为重要的.这篇文章就是对实习吧招聘网站有关p ...
- IoT 设备离线时,云端下行消息触达方案
在物联网场景中,由于网络不稳定,导致设备间歇性离线状态:电池容量限制,很多 IoT 设备无法做到24小时在线,设备沉睡处于离线状态:这些现状带来一个新的挑战:在设备离线时,云端如何发送控制指令给设备? ...
- Python实训day12pm【答辩要求、定时器】
Python实训-15天-博客汇总表 目录 1.答辩安排 2.定时器 1.答辩安排 下午安排: 今天尽量地完成整个项目: 明天完成实训报告,制作小答辩PPT: 后天答辩. PPT要求: 时长5分钟左右 ...
- python课设答辩ppt_如何制作优秀的毕业论文答辩PPT
首答于知乎,链接:https://www.zhihu.com/question/23221029/answer/717686184 特此作为up主我的第一篇专栏文稿 ╭(●`∀´●)╯. 顺便纪念自己 ...
- python毕业设计项目源码选题(10)电影院售票系统毕业设计毕设作品开题报告开题答辩PPT
python毕业设计项目源码选题(10)电影院售票系统毕业设计毕设作品开题报告开题答辩PPT 用户注册:填写手机账号和密码,注册新用户 登录功能:注册普通账号登录:登录后可以修改用户的基本信息,也可以 ...
最新文章
- Back-propagation, an introduction
- mfc工程中添加com接口支持
- Java面试题 String类能不能被继承?为什么?
- 2018.11.16 长难句4
- django 用户管理(1)
- 【转】SQL中where, group by, having的用法和区别
- Linux笔记-nohup和
- visual foxpro 程序员指南_好程序员云计算培训分享云计算中SOA是什么?
- 读取图像矩阵维度必须一致_深度学习在放射治疗中的应用——工具篇(二)矩阵基本操作...
- python 死循环插曲变量_FishC03 讲:python小插曲之变量和字符串
- hbase 核心知识
- iOS音频播放 (一):概述 转
- 运筹学-运输问题-最小元素法
- 模组使用之常见认证,CCC认证,SRRC认证,ROHS认证,NAL认证
- 论软件设计模式及其应用
- 使用虚拟机备份软件恢复Microsoft Hyper-V虚拟机
- 微信小程序-贪吃蛇开发4 wxml和wxss学习
- centos7重启网卡提示错误的解决方法
- CCNA学习笔记10-OSPF
- 在不同的浏览器下FORM及它的小伙伴们默认样式的CSS属性值是不完全一致
热门文章
- 开源顺顺表格excel电子表格控件免费下载
- java后台Controller下载文件方法
- create remote oracle odbc data source on win10
- 【Laravel笔记】16. Cookie和Session
- 戴尔R730服务器增加内存,多功能存储密集型 戴尔R730xd拆解评测
- 树莓派Ubuntu 16.04 MATA系统 修改用户文件夹名后,提示configure it with blueman-service...
- Redis 之 subscribe 订阅模式封装
- 线段树专题 A(单点更新)
- css3对页面打印设置的一些特殊属性,如@page,target-counter等
- 什么是哈希?哈希的模拟实现