【数据准备和特征工程】1-1感知文件中的数据
1.1.1 CSV文件
path = "../data/cities.csv" # 随便找的一个csv文件
import csv
f = open(path)
data = csv.reader(f) # ①
for line in data:print(line)
['name', ' area', ' population', ' longd', ' latd']
['Nanjing', ' 6582.31', ' 8004680', ' 118.78', ' 32.04']
['Wuxi', ' 4787.61', ' 6372624', ' 120.29', ' 31.59']
['Xuzhou', ' 11764.88', ' 8580500', ' 117.2', ' 34.26']
['Changzhou', ' 4384.57', ' 4591972', ' 119.95', ' 31.79']
['Soochow', ' 8488.42', ' 10465994', ' 120.62', ' 31.32']
['Nantong', ' 8001', ' 7282835', ' 120.86', ' 32.01']
['Lianyungang', ' 7615.29', ' 4393914', ' 119.16', ' 34.59']
['Huaian', ' 9949.97', ' 4799889', ' 119.15', ' 33.5']
['Yancheng', ' 16972.42', ' 7260240', ' 120.13', ' 33.38']
['Yangzhou', ' 6591.21', ' 4459760', ' 119.42', ' 32.39']
['Zhenjiang', ' 3840.32', ' 3113384', ' 119.44', ' 32.2']
['Taizhou', ' 5787.26', ' 4618558', ' 119.9', ' 32.49']
['Suqian', ' 8555', ' 4715553', ' 118.3', ' 33.96']
import pandas as pd
# 使用pandas库读取csv文件
df = pd.read_csv(path)
df
name | area | population | longd | latd | |
---|---|---|---|---|---|
0 | Nanjing | 6582.31 | 8004680 | 118.78 | 32.04 |
1 | Wuxi | 4787.61 | 6372624 | 120.29 | 31.59 |
2 | Xuzhou | 11764.88 | 8580500 | 117.20 | 34.26 |
3 | Changzhou | 4384.57 | 4591972 | 119.95 | 31.79 |
4 | Soochow | 8488.42 | 10465994 | 120.62 | 31.32 |
5 | Nantong | 8001.00 | 7282835 | 120.86 | 32.01 |
6 | Lianyungang | 7615.29 | 4393914 | 119.16 | 34.59 |
7 | Huaian | 9949.97 | 4799889 | 119.15 | 33.50 |
8 | Yancheng | 16972.42 | 7260240 | 120.13 | 33.38 |
9 | Yangzhou | 6591.21 | 4459760 | 119.42 | 32.39 |
10 | Zhenjiang | 3840.32 | 3113384 | 119.44 | 32.20 |
11 | Taizhou | 5787.26 | 4618558 | 119.90 | 32.49 |
12 | Suqian | 8555.00 | 4715553 | 118.30 | 33.96 |
1.1.2 Excel文件
path = "../data/多分类鸢尾花.xlsx"
flower_df = pd.read_excel(path)
flower_df.head()
萼片长 | 萼片宽 | 花瓣长 | 花瓣宽 | 种类 | |
---|---|---|---|---|---|
0 | 5.0 | 3.3 | 1.4 | 0.2 | 山鸢尾 |
1 | 6.7 | 3.1 | 4.4 | 1.4 | 变色鸢尾 |
2 | 6.3 | 2.7 | 4.9 | 1.8 | 维吉尼亚鸢尾 |
3 | 4.4 | 2.9 | 1.4 | 0.2 | 山鸢尾 |
4 | 7.7 | 2.6 | 6.9 | 2.3 | 维吉尼亚鸢尾 |
1.1.3 图形文件
# 使用pillow库
from PIL import Image # ○16color_image = Image.open("../data/starryNight.jpg") # ○17
color_image
从url中读取
Image.open
的参数可以是文件路径fp
,也可以的字节数组bytes
,下面演示从图床中读取文件并展示
import requests
from io import BytesIO
req = requests.get("https://pic-1257412153.cos.ap-nanjing.myqcloud.com/beautiful/大炎,赦封神明!_87744911.jpg")
if req.status_code != 200:print("图片请求错误,请尝试加入header")
byte_img = BytesIO(req.content)
img = Image.open(byte_img)
img
使用opencv读取图片
读取方式:imread(filename, flag)
cv::ImreadModes {
cv::IMREAD_UNCHANGED = -1,
cv::IMREAD_GRAYSCALE = 0,
cv::IMREAD_COLOR = 1,
cv::IMREAD_ANYDEPTH = 2,
cv::IMREAD_ANYCOLOR = 4,
cv::IMREAD_LOAD_GDAL = 8,
cv::IMREAD_REDUCED_GRAYSCALE_2 = 16,
cv::IMREAD_REDUCED_COLOR_2 = 17,
cv::IMREAD_REDUCED_GRAYSCALE_4 = 32,
cv::IMREAD_REDUCED_COLOR_4 = 33,
cv::IMREAD_REDUCED_GRAYSCALE_8 = 64,
cv::IMREAD_REDUCED_COLOR_8 = 65,
cv::IMREAD_IGNORE_ORIENTATION = 128
}
# 使用opencv库查看图片
import cv2
# 得到的是numpy数组
img = cv2.imread("../data/starryNight.jpg", -1) # 不改变
img
array([[[ 53, 90, 104],[ 31, 34, 39],[ 54, 39, 36],...,[124, 161, 183],[138, 170, 189],[122, 150, 167]],[[ 65, 89, 101],[ 32, 20, 26],[ 54, 25, 21],...,[138, 172, 195],[134, 166, 185],[132, 159, 179]],[[ 79, 85, 96],[ 53, 26, 30],[ 84, 37, 33],...,[121, 156, 176],[131, 162, 183],[134, 164, 183]],...,[[ 90, 149, 164],[121, 128, 148],[110, 129, 144],...,[134, 171, 193],[116, 154, 178],[140, 177, 203]],[[ 99, 174, 183],[ 86, 105, 120],[121, 146, 156],...,[114, 148, 171],[103, 139, 163],[144, 179, 205]],[[ 69, 149, 160],[102, 125, 140],[136, 159, 167],...,[ 99, 133, 156],[102, 136, 159],[142, 176, 200]]], dtype=uint8)
import matplotlib.pyplot as plt
%matplotlib inline
# %config InlineBackend.figure_format = 'svg'
plt.imshow(img)
plt.xticks([]), plt.yticks([])
(([], []), ([], []))
注意到图片并不是我们想要的效果
这是因为:opencv的接口使用BGR,而matplotlib.pyplot 则是RGB模式
b,g,r = cv2.split(img)
img2 = cv2.merge([r,g,b])plt.imshow(img2)
plt.xticks([]), plt.yticks([])
plt.show()
【数据准备和特征工程】1-1感知文件中的数据相关推荐
- 【数据准备和特征工程】1-2感知数据库中的数据
pymysql读取数据 import pymysql mydb = pymysql.connect(host="localhost", # ①user='root',passwor ...
- .net 从txt中读取行数据_【VBA项目】从指定文件中读取数据并绘制图表
VBA 是一种很久远的编程语言,但并不过时.在满足以下两个条件时,借助 VBA 可以极大的提升生产率,降低出错率: 你的电脑上不允许自主安装软件: 你需要执行的工作中大部分的步骤都是固定且重复的. 项 ...
- python从html拿到数据,python - 使用BeautifulSoup和Python从HTML文件中提取数据 - 堆栈内存溢出...
我需要提取的数据可以在不同的标题下找到. 这是我到目前为止: from BeautifulSoup import BeautifulSoup ecj_data = open("data\ec ...
- 李炎恢 ComboGrid(数据表格下拉框):读取Json文件中的数据
1.新建JsData文件夹中添加content.json文件.内容如下: [ { "id" : 1, "user" : "蜡笔小新" ...
- 使用Sklearn库学习数据预处理和特征工程
目录 1,概述 1.1,数据预处理和特征工程 1.2,sklearn中的数据预处理和特征工程 2,数据预处理 Preprocessing & Impute 2.1,数据无量纲化 2.2,缺失值 ...
- vc++从txt文件中读取数据
数值分析课上老师说要将数据写在txt文件上,然后让程序从txt文件中读取数据.让本来C++已经遗忘了很久的我们无从下手,在网上也查看了很多,发现大多都是扯淡,放在VC++编辑器上发现并不能运行,不知道 ...
- gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
- 使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
- python怎么读取csv的一部分数据_python批量读取csv文件 如何用python将csv文件中的数据读取成数组...
如何用python把多个csv文件数据处理后汇总到新csv文件你看这月光多温柔,小编转头还能看见你,一切从未坍塌. 可以用pandas读取数据,首先把文件方同一个文件价里,然后对当前文件价的所有内容循 ...
最新文章
- mysql io模型_5种网络IO模型
- CentOS6.3环境下openresty安装drizzle模块
- 49、Power Query-合并查询温故知新
- chrome设置微信ua_Chrome谷歌浏览器模拟微信内置浏览器的方法(电脑上)
- Win7 无法进行Windows自动更新
- 扩展中国剩余定理 exCRT 学习笔记
- /bin/sh: cc: 未找到命令
- HTTP异步链接池发送HTTP外部请求,获取本地ip导致HTTP外部请求很慢怎么解决?
- 我在Linux开发板上跑的第一个Qt程序
- macosx安装之旅(8)-常见问题(转载)
- APS究竟是什么系统呢?看完文章你就知道了
- 婚姻中受伤的为什么总是女人
- 2021-2027全球与中国超声波焊接头市场现状及未来发展趋势
- 传感器与检测技术基础 复习提纲 考试不挂科专用版
- Day02—homework
- Python os.listdir方法(获取文件夹目录下的内容)
- 用fread()和fwrite()读写文件
- c++重载函数的条件
- 将电影字幕整理后,便于打印学习
- 一世英雄一世尘 - 读《金庸传》
热门文章
- sw运行很卡怎么办_solidworks运行速度慢的原因分析和解决办法
- 拳皇13《The King Of Fighters XIII》汉化 Mac版
- Linux系统如何切换到指定运行级别,及忘记 root 密码,怎么找回
- Python爬虫笔记——post请求、cookies及session
- ES6之Iterator和for...of循环
- 浅谈互联网时代下融媒技术现状
- uploadifive 下载_Win 平台最好的下载工具
- 骁龙888旗舰蓄势待发,高端手机影像实力再升级
- 登录态,票据和token是个什么玩意儿?
- MEMS运动传感器:三轴数字输出陀螺仪——L3GD20