需要学习的包:
数据处理:pandas
数据计算:Numpy
数据可视化:matplotlib

下载anaconda个人主要使用spyder
1.简单的函数


```python
# -*- coding: utf-8 -*-
"""
Created on Tue Feb 25 21:20:28 2020
@author: 13056
"""
#切片
s="abcderfwadfeg"
print(s[1:9])
#得到bcderfwa从下标一到下标9
print(s[-10:-1])
#得到derfwadfe从倒数第11个到倒数第1个
#等于倒着数的下标也从0开始#检测开头和结尾
filename='asdf.txt'
print(filename.startswith('.txt'))
#看开头
print(filename.endswith('.txt'))
#看结尾
#得到True或者False#查找是否有值
a="1234"
print(a.find("23"))
#返回1就是True#正则函数
import re
b='fwafefgegger'
b=str(b)
print(re.findall('fefge',b,flags=re.IGNORECASE))
#找到['fefge']#搜索和替换
text="ok hello my nw"
text.replace('hello','hi')
#输出'ok hi my nw'#忽略大小写的替换
text="HI oook"
print(re.sub('hi','my',text,flags=re.IGNORECASE))
#输出my oook#合并拼接字符串
b=['i','have','a','apple']
print(' '.join(b))
#输出i have a apple是一个字符串‘ ’里面是用什么连起来

大家对元组,字典,列表的一些函数如果不熟悉我可以给大家补上。2.Pandas中的数据结构
Series(系列):是用于存储一行或者一列的数据,以及与之相关的索引的集合。```python```python#首先咱们导入包
from pandas import Series#定义,可以混合定义
x=Series(['a',True,1],index=['first','second','third'])
#索引       值
#first        a
#second    True
#third        1
#dtype:   object
y=Series(['a',True,1])
#如果没写索引默认从0开始,12345。。。
#0       a
#1    True
#2       1
#dtype: object
x['first']
#通过索引访问
x[0]
#通过下标访问#添加
x=x.append(y)
#必须用原序列接收才行#定位获取
x=x[[0,3,2]]
#first    a
#0        a
#third    1
#dtype: object
#得到相应下标的数据,常用于随机抽样。#删除
#定位删除
#根据索引删除,索引为third删除
x=x.dorp('third')
#根据下标删除,下标位3的删除
x=x.drop(x.index[3])
#根据值删除,不等于2的删除
x=x['2'!=x.values]

(2)DataFrame数据框:实用于储存多行和多列的数据集合


#首先咱们导入包
from pandas import DataFrame#建立一个带索引的数据框
data=DataFrame(data={'id':[1,2,3],'name':['join','mike','hero']},index=['first','second','third'])
#可以得到数据框
#        id  name
#first    1  join
#second   2  mike
#third    3  hero#按列查找
print(data['id'])
#first     1
#second    2
#third     3
#Name: id, dtype: int64#按行访问
print(data[1:3])
#        id  name
#second   2  mike
#third    3  hero#按行列号进行访问
print(data.iloc[0:2,0:1])
#        id
#first    1
#second   2#按行号 列名访问
print(data.at['first','name'])
#join at后面是索引+列名#修改列名
data.columns=['idd','name2']
print(data)
#        idd name2
#first     1  join
#second    2  mike
#third     3  hero
#改名成功#修改行索引
data.index=range(1,4)
print(data)
#   idd name2
#1    1  join
#2    2  mike
#3    3  hero
#修改索引成功#根据索引删除
data=data.drop(1,axis=1)
#根据列名删除
data=data.drop('name2',axis=1)
print(data)
#   idd
#1    1
#2    2
#3    3
#删除成功
#第二种删除的方法
del data['name2']#增加一行的方法
data.loc[len(data)+1]={24,"Amy"}
print(data)
df=pandas.DataFrame(data={'id':['001','002','003'],'name':['mike','join','amy']        })
df.reindex(['0','1','2','3'])
#重新构建一个4行的表格
#    id name
#0  NaN  NaN
#1  NaN  NaN
#2  NaN  NaN
#3  NaN  NaN
df.reindex(['0','1','2','3'],fill_value=0)
#  id name
#0  0    0
#1  0    0
#2  0    0
#3  0    0
#重新构建一个4行的表格#ffill向后填充,bfill向前填充
df.reindex(['0','1','2','3'],method='bfill')

3.numpy函数

import numpy
#导入包data=numpy.arange(0.1,0.3,0.01)
#得到一个矩阵,是一个等差数列
#[0.1  0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.2  0.21 0.22 0.23
#0.24 0.25 0.26 0.27 0.28 0.29]#函数式向量化运算,看data的2次方
print(numpy.power(data,2))
#[0.01   0.0121 0.0144 0.0169 0.0196 0.0225 0.0256 0.0289 0.0324 0.0361
# 0.04   0.0441 0.0484 0.0529 0.0576 0.0625 0.0676 0.0729 0.0784 0.0841]print(data[data>0.2])
#可以当作过滤用
#[0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29]#矩阵运算
print(numpy.dot(data,data.T))
#得数0.8269999999999995#apply用在循环里
from pandas import DataFrame
data1=DataFrame(data={'data1':numpy.random.randn(5),'data2':numpy.random.randn(5)})
print(data1.apply(lambda x:min(x)))
#data1   -1.244329
#data2   -1.227594
#得到最小值print(data1.apply(lambda x:min(x),axis=1))
#0   -1.244329
#1    1.112316
#2    0.209478
#3   -0.332220
#4   -1.227594
#dtype: float64
#得到行的最小值#对每一行进行判断
print(data1.apply(lambda x:numpy.all(x>0),axis=1))
#0    False
#1     True
#2     True
#3    False
#4    False
#dtype: bool#过滤
data1=data1[data1.apply(lambda x:numpy.all(x>0),axis=1)]
print(data1)
#      data1     data2
#1  1.112316  3.455548
#2  0.292658  0.209478

追加知识:匿名函数:
lambad [arg1,arg2,…argn]:expression
arg参数
expression:命令

数据分析数据可视化(一)相关推荐

  1. Tableau数据分析数据可视化分析平台

    Tableau数据分析&数据可视化分析平台 ​ 本文章内涉及的资源包以及素材均来自于互联网,仅供大家用来交流学习与研究使用,努力提升自己的一篇文章.各类安装包以及素材版权归属原版权方所有,版权 ...

  2. Python爬虫+数据分析+数据可视化(分析《雪中悍刀行》弹幕)

    Python爬虫+数据分析+数据可视化(分析<雪中悍刀行>弹幕) 哔哔一下 爬虫部分 代码部分 效果展示 数据可视化 代码展示 效果展示 视频讲解 福利环节 哔哔一下 雪中悍刀行兄弟们都看 ...

  3. MATLAB-基于长短期记忆网络(LSTM)的SP500的股票价格预测 股价预测 matlab实战 数据分析 数据可视化 时序数据预测 变种RNN 股票预测

    MATLAB-基于长短期记忆网络(LSTM)的SP500的股票价格预测 股价预测 matlab实战 数据分析 数据可视化 时序数据预测 变种RNN 股票预测 摘要 近些年,随着计算机技术的不断发展,神 ...

  4. 动手学数据分析-数据可视化

    动手学数据分析-数据可视化 全部参考 datawhale-动手学数据分析 开始前导入numpy和pandas import numpy as np import pandas as pd import ...

  5. Python数据分析-数据可视化(二)

    欢迎大家访问个人博客:https://jmxgodlz.xyz 文章目录 前言 Matplotlib 折线图格式调整 标签 线条颜色 线条形状 折点样式 线条透明度 前言 看到有些论文插图十分简洁美观 ...

  6. Python爬虫实战+数据分析+数据可视化(豆瓣八佰电影影评)

    一.爬虫部分 爬虫说明: 1.本爬虫是以面向对象的方式进行代码架构的 2.本爬虫爬取的数据存入到MongoDB数据库中 3.爬虫代码中有详细注释 代码展示 import re import time ...

  7. python 可视化分析平台_python 数据分析数据可视化工具matplotlib

    说明: 数据可视化中的数据集下载地址:(数据来源:从零开始学python数据分析和挖掘) 链接:https://pan.baidu.com/s/1zrNpzSNVHd8v1rGFRzKipQ 提取码: ...

  8. python如何读取mat文件可视化_python 数据分析--数据可视化工具matplotlib

    说明: 数据可视化中的数据集下载地址:(数据来源:从零开始学python数据分析和挖掘) 链接:https://pan.baidu.com/s/1zrNpzSNVHd8v1rGFRzKipQ 提取码: ...

  9. 项目:招聘网站信息(获取数据+数据分析+数据可视化)

    在本次项目中,使用到的第三方库如下: import requestsimport timeimport randomimport jsonimport pandasimport matplotlib. ...

  10. 数据分析 | 数据可视化图表,BI工具构建逻辑

    一.数据可视化 1.基础概念 数据可视化,是关于数据视觉表现形式的科学技术研究.其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽取出来的信息,包括相应信息单位的各种属性和变量. 如果说的实际 ...

最新文章

  1. 打开python的步骤_python RE 常见的打开方法
  2. mysql sqlstate 28000_mysql ERROR 1045 (28000): 错误解决办法
  3. git学习(持续踩坑中
  4. 在创业之路上不断创新
  5. 添加别名_ssh别名免密登陆服务器
  6. ref out param 区别
  7. gsoap搭建WebService服务
  8. 运动基元_发现大量Java基元集合处理
  9. 苹果手机的计算机删除了怎么恢复,苹果手机电话删除了怎么恢复
  10. Unable to find required classes (javax.activation.DataHandler and javax.mail.internet.MimeMultipart)
  11. web开发方法_确保进入Web开发的最快方法
  12. oracle8ir2,Oracle8iR2(oracle8.1.6)在redhat linux 7.1上的简易安装方法
  13. 朱海舟吐槽iPad办公体验:大量竖屏应用缺乏适配
  14. 【idea】 Unsupported class file major version 57
  15. 什么时候会用到拷贝构造函数?
  16. attachEvent 与 addEventListener的使用
  17. django 业务代码写哪儿_测试人员快速上手Django指南
  18. js获取浏览器的高度
  19. 蓝色的网站商城后台通用管理模板——后台
  20. CAN协议要点及车辆CAN协议破解

热门文章

  1. 正则表达式之非捕获组
  2. opencv2.4.9中HoughlinesP源码中的疑问解析!
  3. idea 配置J2EE
  4. 古老的txt下传和txt上载
  5. 【Beta】Phylab 测试报告
  6. python全栈开发_day42_数据库6
  7. mysql 配置 explicit_defaults_for_timestamp
  8. JDK 和 tomcat 安装 配置
  9. 向虚拟机发短信(android SMS 调试)
  10. 移植busybox构建最小根文件系统