机器学习入门例子--预测浏览量
下面介绍预测浏览量的例子,构建第一个机器学习的例子,其中需要的数据我放在这里了: http://pan.baidu.com/share/link?shareid=1399332518&uk=3510054274。我们的数据的格式是这样的:
![](http://upload-images.jianshu.io/upload_images/623192-9d160379a12278a1.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
总共有743条,用word的写字板打开我网盘里的文件:web_traffic.tsv。这里数据的第一列表示时间(小时),第二列表示在这个小时内网站点击量(比如说第一行1 2272,表示第1个小时的点击量为2272次)。而我们所要做的工作便是通过这些数据去预测未来的点击量,从而未我们的网站建设提供一些指导,比如说我们需要多少服务器来支撑这样的点击量,如果我们能够提前知道就可以节省很多钱,总比事先买很多服务器好哈。
首先,我们要做的是把这些数据读到我们的程序里去。方法是使用SciPy的genfromtxt(),首先打开开始菜单中的所有应用程序找到Python 2.7,选择第一个IDLE(Python GUI)或者打开cmd,然后再敲入python,也是可以的:
![](http://upload-images.jianshu.io/upload_images/623192-f8acfbb1a1b5da68.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
然后输入:
import scipy as sp
data=sp.genfromtxt(“web_traffic.tsv”,delimiter=”\t”)
![](http://upload-images.jianshu.io/upload_images/623192-a54cacfac9ddb781.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
![](http://upload-images.jianshu.io/upload_images/623192-7df0b6bb3a6ad187.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
前者表示路径名,要注意在自己电脑上设置成相应的路径名,然后第二个参数是分隔符,由于原文件中使用的制表符隔开数据的,所以这里是\t。为了查看以下是否已经成功将数据读取到相应变量中,我们可以用如下的方法检验:
![](http://upload-images.jianshu.io/upload_images/623192-3aab69761bf13bc4.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
其中观察到第二行数据的第二列nan,它表示无效数据。然后,我们再敲入:
>>>print(data.shape),显式如下:
![](http://upload-images.jianshu.io/upload_images/623192-3f43908b4603b6e6.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
它的意思表示一共有743行数据,每行数据有2个属性。到这里,我们已经成功把数据读到程序里去了。接下来需要对数据进行一些预处理,比如说上面显示的无效数据。
我们需要把数据分成两个向量也许更好。它们分别是向量x和向量y。使得它们可以对应监督学习中的输入和输出。第一个向量x表示第一列时间,向量y表示第二列点击量。操作如下:
![](http://upload-images.jianshu.io/upload_images/623192-5a2778220a93a05f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
刚才提到了无效数据,首先看看有多少个无效数据,也就是有多少行含有“nan”。敲入:
![](http://upload-images.jianshu.io/upload_images/623192-8b87b87494e746bc.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
看来不多,只有8行。我们能够手动删除它们?那如果很多无效数据了呢,所以我们还是借助SciPy的强大功能吧。敲入:
![](http://upload-images.jianshu.io/upload_images/623192-88d8b7b65449a2d1.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
学过程序的人应该都能看得明白,~表示取反,这里就表示取有效的数据,当然具体细节我们暂时不需要明白,只要知道它的功能即可。好的,现在来检测一下是不是已经剔除了无效数据呢?
![](http://upload-images.jianshu.io/upload_images/623192-4da5dd4232c224b7.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
发现原来的2被我们剔除了,再来看下y吧:
![](http://upload-images.jianshu.io/upload_images/623192-26cc8cc7470d5b61.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
原来那个nan没了。好的,数据处理好了,接下来想可视化以下,我们把它展示在一张图中,这就要借助工具Matplotlib.把下图中的>>>后面的命令敲入:
下面两幅图是一样的
![](http://upload-images.jianshu.io/upload_images/623192-46333a74b5274652.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
plt.autoscale(tight=True)
plt.gird()
plt.show()
可以看到图:
![](http://upload-images.jianshu.io/upload_images/623192-f1fc822f4145c698.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
这个就是之前的数据绘成的图,x,y轴分别表示时间和点击量。数据到这里基本就处理好了。下面应该是机器学习算法部分了。我们要选择一个算法去预测将来的点击量,这是明显的监督学习。上图给出的数据便是训练样本。在建立我们第一个模型之前我们需要先设计一个评估函数,用来判断什么样的模型才是好的。也就是误差函数,可以这样来计算,用模型的预测值-真实值(训练样本已经提供)的差的平方来评估(为什么它能评估,也是很好理解的)。即:
def error(f,x,y):
return sp.sum((f(x)-y)**2)
容易知道,这其实是一个拟合问题,把这些数据拟合到最佳模型(即一个函数,再用这个函数去预测新数据)。从最简单的情况开始,我们首先去一条直线去拟合这些数据。SciPy提供了函数polyfit(),只要给定数据x和y以及多项式的阶数(直线是1次函数),它就能找到模型的函数,使得之前定义的误差函数达到最小(只有误差最小才表面模型最好额)。敲入:fp1,residuals,rank,sv,rcond=sp.polyfit(x,y,1,full=True)
![](http://upload-images.jianshu.io/upload_images/623192-244c5983a7d9e922.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
fp1,residuals,rank,sv,rcond=sp.polyfit(x,y,1,full=True)
函数polyfit()返回拟合模型函数的参数fp1,并且通过把full设置成True,我们还能获得其他的相关信息,在这里只有residuals是我们感兴趣的,它是真的误差。打印参数:
![](http://upload-images.jianshu.io/upload_images/623192-378b5e35ab5ce554.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
print("Model parameters:%s"% fp1)
打印误差:print(residuals)
![](http://upload-images.jianshu.io/upload_images/623192-c0f66ba936929790.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
这意味着:f(x)=2.59619213 * x +989.02487106
然后我们用函数poly1d()来创建模型函数:
![](http://upload-images.jianshu.io/upload_images/623192-d69dbf1ba6fc87fb.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
f1=sp.poly1d(fp1)
注意这里是数字1不是字母l,不然就看到它报错了。现在我们用f1()去拟合数据,让我们看看拟合的效果:(由于画图需要之前的代码,所以写成一个脚本):
import sys
import scipy as sp
data=sp.genfromtxt("E:\python\data\ch01\data\web_traffic.tsv",delimiter="\t")
print(data[:10])
x=data[:,0]
y=data[:,1]
sp.sum(sp.isnan(y))
x=x[~sp.isnan(y)]
y=y[~sp.isnan(y)]
import matplotlib.pyplot as plt
plt.scatter(x,y)
plt.title("Web traffic over the last month")
plt.xlabel("Time")
plt.ylabel("Hits/hour")
plt.xticks([w*7*24 for w in range(10)],
['week %i'%w for w in range(10)])
plt.autoscale(tight=True)
plt.grid()
fp1,residuals,rank,sv,rcond=sp.polyfit(x,y,1,full=True)
f1=sp.poly1d(fp1)
fx=sp.linspace(0,x[-1],1000)
plt.plot(fx,f1(fx),linewidth=4)
plt.legend(["d=%i" %f1.order],loc="upper left")
plt.show()
input()
![](http://upload-images.jianshu.io/upload_images/623192-289d730d3090534b.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
拟合效果显然不好,因为是一阶的直线。这个方法是可以用来学习机器学习各种算法的,而scikit-learn是提供了各种机器学习算法包,可供你直接调用。暂时就不介绍了,今天只写这么多。
机器学习入门例子--预测浏览量相关推荐
- 机器学习入门-肝病预测分析
机器学习入门-肝病预测分析 导入函数和支持包 1.数据描述 2.载入数据 3.查看Type类型的数量 4.检查是否存在空值 5.查看描述性统计量 6.画出热力图并分析特征相关性 7.对数据进行标准化 ...
- A.机器学习入门算法[七]:基于英雄联盟数据集的LightGBM的分类预测
[机器学习入门与实践]入门必看系列,含数据挖掘项目实战:数据融合.特征优化.特征降维.探索性分析等,实战带你掌握机器学习数据挖掘 专栏详细介绍:[机器学习入门与实践]合集入门必看系列,含数据挖掘项目实 ...
- TensorFlow学习笔记(二):快速理解Tutorial第一个例子-MNIST机器学习入门 标签: 机器学习SoftmaxTensorFlow教程 2016-08-02 22:12 3729人阅
TensorFlow学习笔记(二):快速理解Tutorial第一个例子-MNIST机器学习入门 标签: 机器学习SoftmaxTensorFlow教程 2016-08-02 22:12 3729人阅读 ...
- 机器学习入门实践——线性回归模型(波士顿房价预测)
机器学习入门实践--线性回归模型(波士顿房价预测) 一.背景介绍 给定一个大小为 n n n的数据集 { y i , x i 1 , . . . , x i d } i = 1 n {\{y_{i}, ...
- 【机器学习入门】(13) 实战:心脏病预测,补充: ROC曲线、精确率--召回率曲线,附python完整代码和数据集
各位同学好,经过前几章python机器学习的探索,想必大家对各种预测方法也有了一定的认识.今天我们来进行一次实战,心脏病病例预测,本文对一些基础方法就不进行详细解释,有疑问的同学可以看我前几篇机器学习 ...
- python泰坦尼克号数据预测_机器学习入门之Python机器学习:泰坦尼克号获救预测一...
本文主要向大家介绍了机器学习入门之Python机器学习:泰坦尼克号获救预测一,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助. 一.项目概要 1.应用 模式识别.数据挖掘(核心).统计学 ...
- 纪伯伦先知_先知能否准确预测网页浏览量?
纪伯伦先知 Forecasting web page views can be quite tricky. The reason for this is that page views tend to ...
- python svr回归_机器学习入门之机器学习之路:python支持向量机回归SVR 预测波士顿地区房价...
本文主要向大家介绍了机器学习入门之机器学习之路:python支持向量机回归SVR 预测波士顿地区房价,通过具体的内容向大家展现,希望对大家学习机器学习入门有所帮助. 支持向量机的两种核函数模型进行预 ...
- A.机器学习入门算法(五):基于企鹅数据集的决策树分类预测
[机器学习入门与实践]入门必看系列,含数据挖掘项目实战:数据融合.特征优化.特征降维.探索性分析等,实战带你掌握机器学习数据挖掘 专栏详细介绍:[机器学习入门与实践]合集入门必看系列,含数据挖掘项目实 ...
最新文章
- Android之PullToRefresh控件源码解析
- 通过python里面的pyautogui自动化控制鼠标和键盘操作
- oracle adg的特点是什么,Oracle12c ADG新特性
- 三维重建15:最近遇到的-标定-EKF-优化方法等
- java sql server 存储过程_修改SQL SERVER内置存储过程
- Linux文本查看命令之uniq
- python命令行运行模式_[Python] 命令行模式阅读博客园的博文
- android图片浏览功能,怎么在Android应用中实现一个网页图片浏览功能
- php写else老是报错,调试PHP错误经常用到的一些
- Python3 openpyxl库
- 2015 多校联赛 ——HDU5344(水)
- TFTPClient
- Unity3d随机数生成
- md5加解密工具 java_MD5解密加密工具类
- 马斯克入驻推特造成大恐慌!这俩戏精还冒充被裁员工,外媒全被耍了
- 借助Grub4DOS的grldr启动Windows PE(软启动)
- 适用于您教会的21个最佳教堂WordPress主题(2020)
- 如何实现通过Leaflet加载dwg格式的CAD图
- 2.6.机载测深激光扫描系统—(Topographic Laser Ranging and Scanning-Principle 读书笔记)
- call和calling的用法_英语词汇call的短语及用法