python标准化_如何在Python中规范化和标准化时间序列数据

最低日温度

该数据集显示了一个强大的季节要素，并有一个很好的，细致的细节工作。

本教程假定数据集位于当前工作目录中，文件名为 “ daily-minimum-temperatures-in-me.csv ”。

注意：下载的文件包含一些问号(“？”)字符，在使用数据集之前必须将其删除。在文本编辑器中打开文件并删除“？”字符。也删除该文件中的任何页脚信息。

规范时间序列数据

规范化是对原始范围的数据进行重新调整，以使所有值都在0和1的范围内。

标准化可能是tve 有用的，甚至在一些机器学习算法中，当你的时间序列数据具有不同尺度的输入值时，也是必需的。对于某些算法来说它是必需的，比如使用距离计算和线性回归以及人工神经网络来衡量输入值的k-最近邻居算法。

标准化要求您知道或能够准确估计最小和最大可观测值。您可以从您的可用数据中估计这些值。如果您的时间序列呈现上升趋势或下降趋势，那么估计这些预期值可能会很困难，并且标准化法可能不是用于解决问题的最佳方法。

一个标准化的值如下：

y = (x - min) / (max - min)

最小值和最大值与规范化的值x有关。

例如，对于温度数据，我们可以猜测最小和最大的可观测值为30和-10，这会极大高估或低估观测值。然后，我们可以像18.8那样规范化任何值，如下所示：

y = (x - min) / (max - min)

y = (18.8 - -10) / (30 - -10)

y = 28.8 / 40

y = 0.72

您可以看到，如果提供的x值超出了最小值和最大值的范围，则结果值将不在0和1的范围内。您可以在进行预测之前检查这些观察值，并从数据集删除他们或限制他们到预先定义设的最大值或最小值。

您可以使用scikit-learn对象MinMaxScaler来标准化数据集。

使用MinMaxScaler和其他缩放技术的良好范例如下：利用可用的训练数据适配缩放器。对于标准化，这意味着训练数据将被用于估计最小和最大可观测值。这是通过调用fit()函数完成的，

将这个范围用于训练数据。这意味着你可以使用规范化的数据来训练你的模型。这是通过调用transform()函数完成的

将这个范围用于未来的数据。这意味着您可以在未来准备新的数据，在其中进行预测。

如果需要，转换可以被颠倒。这对于将预测转换回其原始比例以进行报告或绘图非常有用。这可以通过调用inverse_transform()函数来完成。

以下是标准化每日最低温度数据集的示例。

缩放器需要将数据作为行和列的矩阵来提供。加载的时间序列数据以Pandas 序列的形式加载。然后它必须被重新塑造成一个有单列3650行的矩阵。

然后，调整后的数据集被用于拟合缩放器，数据集被归一化，然后归一化变换被反转以再次显示原始值。

# 从 pandas 规范化数据

from pandas import Series

from sklearn.preprocessing import MinMaxScaler

# 载入数据集并打印前5行

series = Series.from_csv('daily-minimum-temperatures-in-me.csv', header=0)

print(series.head())

# 准备要规范化的数据

values = series.values

values = values.reshape((len(values), 1))

# 训练规范化规则

scaler = MinMaxScaler(feature_range=(0, 1))

scaler = scaler.fit(values)

print('Min: %f, Max: %f' % (scaler.data_min_, scaler.data_max_))

# 规范化数据集并打印前 5 行

normalized = scaler.transform(values)

for i in range(5):

print(normalized[i])

# 逆变换并打印前 5 行

inversed = scaler.inverse_transform(normalized)

for i in range(5):

print(inversed[i])

运行示例将打印加载的数据集中的前5行，以规范化的形式显示相同的5个值，然后使用逆变换将值返回原始比例。

我们也可以看到数据集的最小值和最大值分别是0和26.3。

Date

1981-01-01 20.7

1981-01-02 17.9

1981-01-03 18.8

1981-01-04 14.6

1981-01-05 15.8

Name: Temp, dtype: float64

Min: 0.000000, Max: 26.300000

[ 0.78707224]

[ 0.68060837]

[ 0.7148289]

[ 0.55513308]

[ 0.60076046]

[ 20.7]

[ 17.9]

[ 18.8]

[ 14.6]

[ 15.8]

另外一种类型的范围调整对于超出期望值范围的新值更为稳健; 这就是所谓的标准化。接下来我们将一探究竟。

标准化时间序列数据

标准化数据集涉及重新标定值的分布，以使观测值的平均值为0，标准偏差为1。

这可以被认为是减去平均值或居中数据。

与标准化一样，标准化是很有用的，甚至在某些机器学习算法中是必需的，特别是当您的时间序列数据具有不同比例的输入值时。

标准化假设你的观测符合高斯分布(钟形曲线)，表现出良好的均值和标准差。如果不符合期望，您仍然可以将时间序列数据标准化，但是可能无法获得可靠的结果。

这包括支持向量机，线性和逻辑回归等算法，以及假定或改善高斯数据性能的其他算法。

标准化要求您知道或能够准确估计可观察值的均值和标准差。您可能能够从您的训练数据中估计这些值。

价值标准化如下：

y = (x - mean) / standard_deviation

凡平均值的计算公式为：

mean = sum(x) / count(x)

而standard_deviation的计算方式如下：

standard_deviation = sqrt( sum( (x - mean)^2 ) / count(x))

例如，我们可以绘制最小日温度数据集的直方图，如下所示：

from pandas import Series

from matplotlib import pyplot

series = Series.from_csv('daily-minimum-temperatures-in-me.csv', header=0)

series.hist()

pyplot.show()

运行代码给出下图，显示了数据集的高斯分布，正如标准化所假定的那样。

最低每日温度直方图

我们可以猜测平均温度为10，标准偏差约为5.使用这些值，我们可以将数据集20.7中的第一个值标准化如下：

y = (x - mean) / standard_deviation

y = (20.7 - 10) / 5

y = (10.7) / 5

y = 2.14

数据集的平均值和标准偏差估计值对于新数据可能比最小值和最大值更稳健。

您可以使用scikit-learn对象StandardScaler来标准化数据集。

以下是标准化每日最低温度数据集的示例。

# 标准化时间序列数据

from pandas import Series

from sklearn.preprocessing import StandardScaler

from math import sqrt

# 载入数据集并打印前5行

series = Series.from_csv('daily-minimum-temperatures-in-me.csv', header=0)

print(series.head())

# 准备要标准化的数据

values = series.values

values = values.reshape((len(values), 1))

# 训练标准化规则

scaler = StandardScaler()

scaler = scaler.fit(values)

print('Mean: %f, StandardDeviation: %f' % (scaler.mean_, sqrt(scaler.var_)))

# 标准化数据集并打印前5行

normalized = scaler.transform(values)

for i in range(5):

print(normalized[i])

# 逆变换并打印前 5 行

inversed = scaler.inverse_transform(normalized)

for i in range(5):

print(inversed[i])

运行示例打印数据集的前5行，打印相同的标准化值，然后以原始比例打印这些值。

我们可以看到估计的平均值和标准差分别是11.1和4.0。

Date

1981-01-01 20.7

1981-01-02 17.9

1981-01-03 18.8

1981-01-04 14.6

1981-01-05 15.8

Name: Temp, dtype: float64

Mean: 11.177753, StandardDeviation: 4.071279

[ 2.33888328]

[ 1.65113873]

[ 1.87219948]

[ 0.84058266]

[ 1.13533032]

[ 20.7]

[ 17.9]

[ 18.8]

[ 14.6]

[ 15.8]

概要

在本教程中，您了解了如何使用Python规范化和标准化时间序列数据。

具体来说，你了解到：一些机器学习算法在建模时要想更好的执行效率则需要重新调整数据。

如何手动计算标准化和标准化所需的参数。

如何使用Python中的scikit-learn来规范化和标准化时间序列数据。

你有任何关于时间序列数据缩放或关于这个职位的问题吗？

在评论中提出您的问题，我会尽力来回答。

长按二维码向我转账

受苹果公司新规定影响，微信 iOS 版的赞赏功能被关闭，可通过二维码转账支持公众号。

python标准化_如何在Python中规范化和标准化时间序列数据相关推荐

webbrowser控件有数据但页面空白_如何在Excel中实现可以切换不同数据系列的滚珠图?...
▲更多精彩内容,请点击上方Excel小铲子▲ 操作系统版本 Windows 10 64位 Excel版本 Microsoft Excel 2016 64位案例文档下载链接:https://pan. ...
react网格生成_如何在React中构建实时可编辑数据网格
react网格生成 by Peter Mbanugo 彼得·姆巴努戈(Peter Mbanugo) 如何在React中构建实时可编辑数据网格 (How to Build a Real-time Edi ...
python多项式回归_如何在Python中实现多项式回归模型
python多项式回归 Let's start with an example. We want to predict the Price of a home based on the Area an ...
python大括号_如何在python字符串中打印文字大括号字符并在其上使用.format？
如何在python字符串中打印文字大括号字符并在其上使用.format? x = " \{ Hello \} {0} " print x.format(42) 给我:{Hello} ...
spyder python 使用_如何在spyder中使用vpython？
我试着用vpython,无论如何,但我失败了...在首先,我在win8.1上安装了anacondapython2.7.10. 然后,我通过在命令行中输入以下命令来安装Vpython: conda安装 ...
vscode怎么安装python库_如何在vscode中安装python库的方法步骤
免费资源网 - https://freexyz.cn/ vscode安装python库 1.已经在vscode中装了python并配置好python运行环境. 检查是否正确配置好运行环境,按Windo ...
python缓冲区_如何在Python中使用Google的协议缓冲区
python缓冲区 When people who speak different languages get together and talk, they try to use a languag ...
python迭代计算_如何在Python中迭代坐标列表并计算它们之间的距离
我的列表有20个坐标(x和y坐标).我可以计算任意两个坐标之间的距离,但是我很难编写一个算法来迭代列表并计算第一个节点和每个其他节点之间的距离.例如, ListOfCoordinates = [(1, ...
python物理模拟_如何在Python 游戏中模拟引力
学习如何使用 Python 的 Pygame 模块编程电脑游戏,并开始操作引力. 真实的世界充满了运动和生活.物理学使得真实的生活如此忙碌和动态.物理学是物质在空间中运动的方式.既然一个电脑游戏世界没 ...

python标准化_如何在Python中规范化和标准化时间序列数据

python标准化_如何在Python中规范化和标准化时间序列数据相关推荐

最新文章

热门文章