【机器学习代码模板】把你的线性回归模型拉出来遛一遛

前言

这是【机器学习代码模板】系列的第三篇文章，之后会持续更新，敬请关注！

与第上一篇文章相比增加的地方

将数据集划分为training_set和test_set
在training_set上训练模型，在test_set上测试误差

话不多说，上号

1. 导入程序需要的包以及对数据集进行处理

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt# m表示样本的数目，n表示特征的数目# 假设我们已经有了数据集
dataset = <np.array>    # dataset.shape = (m, n + 1)# >>> dataset
# np.array([[x, x, x, x, y, ],
#           [x, x, x, x, y, ],
#                 ...
#           [x, x, x, x, y, ]])# 打乱dataset
np.random.shuffle(dataset)# 以7：3的比例划分dataset
m = dataset.shape[0]
flag = m * 7 // 10
training_set = dataset[:flag, :]
test_set = dataset[flag:, :]# 取出X_train, y_train, m_train, n
X_train = training_set[:, :-1]    # X_train.shape = (m_train, n)
m_train, n = X_train.shape
y_train = training_set[:, -1].reshape(m_train, 1)    # y_train.shape = (m_train, 1)# 重构X_train
arr_ones = np.ones((m_train, 1))
X_train = np.concatenate((arr_ones, X_train), axis=1)    # X_train.shape = (m_train, n + 1)

2. 定义函数

2.1 定义假设函数Hypothesis Function

Hw(x)=w0+w1x1+w2x2+w3x3+...H_w\left(x\right) = w_0 + w_1x_1 + w_2x_2 + w_3x_3 + ...Hw(x)=w0+w1x1+w2x2+w3x3+...

# Hypothesis Funcyion
def hypothesis(X_data, w):y_hat = np.matmul(X_data, w) # np.matmul()计算矩阵乘法return y_hat

2.2 定义损失函数Loss Function

L(w)=12m∑i=1m(Hw(x(i))−y(i))2L\left(w\right) = \frac{1}{2m}\sum_{i=1}^{m}\left(H_w\left(x^{\left(i\right)}\right) - y^{\left(i\right)}\right)^2L(w)=2m1∑i=1m(Hw(x(i))−y(i))2

# Loss Function
def loss(X_data, y_hat, y_data, m):# 均方误差error = (1 / (2 * m)) * np.sum(np.square(y_hat - y_data))return error

2.3 计算偏导数∂L∂w\frac{\partial L}{\partial w}∂w∂L

∂L∂wj=1m∑i=1m(Hw(x(i))−y(i))xj\frac{\partial L}{\partial w_j} = \frac{1}{m}\sum_{i=1}^{m}\left(H_w\left(x^{\left(i\right)}\right) - y^{\left(i\right)}\right)x_j∂wj∂L=m1∑i=1m(Hw(x(i))−y(i))xj

# grad of Loss Function
def grad(X_data, y_hat, y_data, m):w_grad = (1 / m) * np.matmul(X_data.T, y_hat - y_data)    # <np.array>.T计算矩阵的转置return w_grad

3. 进行gradient descent

# 初始化学习率
learning_rate = <float>    # 笔者建议0.0001、0.001、0.01、0.1、...# 初始化迭代次数
iter_time = <int>    # 笔者建议1000、2000、5000、10000、...# 初始化参数w
w = np.random.randn((n + 1, 1))    # w.shape = (n + 1, 1)# 将每次的训练误差保存到列表里
list_training_error = []for i in range(iter_time):# 输入数据和参数，预测输出y_hat = hypothesis(X_train, w)    # y_hat.shape = (m_train, 1)# 计算均方误差并保存training_error = loss(X_train, y_hat, y_train, m_train)list_training_error.append(training_error)# 计算参数的梯度w_grad = grad(X_train, y_hat, y_data, m_train)    # w_grad.shape = (n + 1, 1)# 更新参数w = w - learning_rate * w_grad# 调用plot画出曲线图
plt.plot(list_training_error)
plt.xlabel('iterations')
plt.ylabel('error')
plt.title('Training Error')
plt.show()

4. 在test_set上测试误差

4.1 处理数据

# 取出X_test, y_test, m_test, n
X_test = test_set[:, :-1]    # X_test.shape = (m_test, n)
m_test, n = X_test.shape
y_test = test_set[:, -1].reshape(m_test, 1)    # y_test.shape = (m_test, 1)# 重构X_test
arr_ones = np.ones((m_test, 1))
X_test = np.concatenate((arr_ones, X_test), axis=1)    # X_test.shape = (m_test, n + 1)

4.2 测试误差

# 输入数据和参数，预测输出
y_hat = hypothesis(X_test, w)    # y_hat.shape = (m_test, 1)# 计算均方误差
testing_error = loss(X_test, y_hat, y_test, m_test)# 打印测试误差
print(testing_error)

5. 使用模型预测真实数据

# 准备X_realdata
X_realdata = <np.array>    # X_realdata.shape = (m_realdata, n)# 取出m_realdata, n
m_realdata, n = X_realdata.shape# 重构X_realdata
arr_ones = np.ones((m_realdata, 1))
X_realdata = np.concatenate((arr_ones, X_realdata), axis=1)    # X_realdata.shape = (m_realdata, n + 1)# 预测输出
y_pred = hypothesis(X_realdata, w)    # y_pred.shape = (m_realdata, 1)

写文不易，你的点赞就是对我最大的支持。

后记

文章中的代码已经放到了我的个人仓库里，欢迎Star

GitHub: https://github.com/Lovely-Pig/ML-Code-Model/

Gitee: https://gitee.com/lovely-pig/ml-code-model/

机器学习相关学习视频推荐

【中英字幕】吴恩达机器学习系列课程

【中英字幕】吴恩达深度学习课程第一课—神经网络与深度学习

机器学习项目写代码推荐平台：百度AI Studio

链接：https://aistudio.baidu.com/aistudio/index

推荐理由：

百度AI Studio对jupyter notebook有很好的支持，省去了自己配置各种环境的麻烦。
有免费的GPU算力支持，构建复杂的机器学习应用不是梦。
对开源框架PaddlePaddle有很好的支持。
社区有很多大佬的开源项目可以学习。

所有文章在这里

【机器学习代码模板】把你的线性回归模型拉出来遛一遛

【机器学习代码模板】用你的线性回归模型搞点儿事情

【机器学习代码模板】三步带你实现最简单的线性回归模型