作者 | 李秋键

责编 | 晋兆雨

大数据预测是大数据最核心的应用,是它将传统意义的预测拓展到“现测”。大数据预测的优势体现在,它把一个非常困难的预测问题,转化为一个相对简单的描述问题,而这是传统小数据集根本无法企及的。从预测的角度看,大数据预测所得出的结果不仅仅是用于处理现实业务的简单、客观的结论,更是能用于帮助企业经营的决策。

在过去,人们的决策主要是依赖 20% 的结构化数据,而大数据预测则可以利用另外 80% 的非结构化数据来做决策。大数据预测具有更多的数据维度,更快的数据频度和更广的数据宽度。与小数据时代相比,大数据预测的思维具有 3 大改变:实样而非抽样;预测效率而非精确;相关关系而非因果关系。

而今天我们就将利用python制作可视化的大数据预测部分集成工具,其中数据在这里使用一个实验中的数据。普遍性的应用则直接从文件读取即可。其中的效果图如下:

实验前的准备

首先我们使用的python版本是3.6.5所用到的模块如下:

sklearn模块用来创建整个模型训练和保存调用以及算法的搭建框架等等。

numpy模块用来处理数据矩阵运算。

matplotlib模块用来可视化拟合模型效果。

Pillow库用来加载图片至GUI界面。

Pandas模块用来读取csv数据文件。

Tkinter用来创建GUI窗口程序。


数据的训练和训练的GUI窗口

经过算法比较,发现这里我们选择使用sklearn简单的多元回归进行拟合数据可以达到比较好的效果。

(1)首先是是数据的读取,通过设定选定文件夹函数来读取文件,加载数据的效果:

'''选择文件功能'''
def selectPath():# 选择文件path_接收文件地址path_ =tkinter.filedialog.askopenfilename()# 通过replace函数替换绝对文件地址中的/来使文件可被程序读取# 注意:\\转义后为\,所以\\\\转义后为\\path_ =path_.replace("/", "\\\\")# path设置path_的值path.set(path_)return path# 得到的DataFrame读入所有数据
data = pd.read_excel(FILENAME, header=0, usecols="A,B,C,D,E,F,G,H,I")
# DataFrame转化为array
DataArray = data.values
# 读取已使用年限作为标签
Y = DataArray[:, 8]
# 读取其他参数作为自变量,影响因素
X = DataArray[:, 0:8]
# 字符串转变为整数
for i in range(len(Y)):Y[i] = int(Y[i].replace("年", ""))
X = np.array(X)  # 转化为array
Y = np.array(Y)  # 转化为arrayroot = Tk()
root.geometry("+500+260")
# 背景图设置
canvas = tk.Canvas(root, width=600, height=200, bd=0, highlightthickness=0)
imgpath = '1.jpg'
img = Image.open(imgpath)
photo = ImageTk.PhotoImage(img)
#背景图大小设置
canvas.create_image(700, 400, image=photo)
canvas.pack()
path = StringVar()
#标签名称位置
label1=tk.Label(text = "目标路径:")
label1.pack()
e1=tk.Entry( textvariable = path)
e1.pack()
bn1=tk.Button(text = "路径选择", command = selectPath)
bn1.pack()
bn2=tk.Button(text = "模型训练", command = train)
bn2.pack()
bn3=tk.Button(text = "模型预测", command = test)
bn3.pack()
#标签按钮等放在背景图上
canvas.create_window(50, 50, width=150, height=30,window=label1)
canvas.create_window(280, 50, width=300, height=30,window=e1)
canvas.create_window(510, 50, width=150, height=30,window=bn1)
canvas.create_window(50, 100, width=150, height=30,window=bn2)
canvas.create_window(510, 100, width=150, height=30,window=bn3)root.mainloop()

效果如下可见:

(2)然后是数据的拟合和可视化模型效果:

# 模型拟合
reg = LinearRegression()
reg.fit(X, Y)
# 预测效果
predict = reg.predict(np.array([X[0]]))
Y_predict = reg.predict(X)
print(Y_predict)
# 横坐标
x_label = []
for i in range(len(Y)):x_label.append(i)
# 绘图
fig, ax = plt.subplots()
# 真实值分布散点图
plt.scatter(x_label, Y)
# 预测值分布散点图
plt.scatter(x_label, Y_predict)
# 预测值拟合直线图
plt.plot(x_label, Y_predict)
# 横纵坐标
ax.set_xlabel('预测值与真实值模型拟合效果图')
ax.set_ylabel('蓝色为真实值,黄色为预测值')
# 将绘制的图形显示到tkinter:创建属于root的canvas画布,并将图f置于画布上
canvas = FigureCanvasTkAgg(fig, master=root)
canvas.draw()  # 注意show方法已经过时了,这里改用draw
canvas.get_tk_widget().pack()
# matplotlib的导航工具栏显示上来(默认是不会显示它的)
toolbar = NavigationToolbar2Tk(canvas, root)
toolbar.update()
canvas._tkcanvas.pack()
#弹窗显示
messagebox.showinfo(title='模型情况', message="模型训练完成!")
其中的效果如下可见:

其中的效果如下可见:


模型的预测和使用

其中模型的预测主要通过两种方式进行预测,分别是:手动输入单个数据进行预测和读取文件进行预测。

其中手动输入数据进行预测需要设置更多的GUI按钮,其中代码如下:

#子窗口
LOVE = Toplevel(root)
LOVE.geometry("+100+260")
LOVE.title = "模型测试"
#子窗口各标签名
label = ["上升沿斜率(v/us)", "下降沿斜率(v/us)", "脉宽(ns)", "低状态电平(mv)", "低电平方差(mv2)x10-3", "高状态电平(v)", "高电平方差(v2)", "信号质量因子"]
Label(LOVE, text="1、输入参数预测", font=("微软雅黑", 20)).grid(row=0, column=0)
#标签名称,字体位置
Label(LOVE, text=label[0], font=("微软雅黑",10)).grid(row=1, column=0)
Label(LOVE, text=label[1], font=("微软雅黑", 10)).grid(row=1, column=1)
Label(LOVE, text=label[2], font=("微软雅黑", 10)).grid(row=1, column=2)
Label(LOVE, text=label[3], font=("微软雅黑", 10)).grid(row=1, column=3)
Label(LOVE, text=label[4], font=("微软雅黑", 10)).grid(row=1, column=4)
Label(LOVE, text=label[5], font=("微软雅黑", 10)).grid(row=1, column=5)
Label(LOVE, text=label[6], font=("微软雅黑", 10)).grid(row=1, column=6)
Label(LOVE, text=label[7], font=("微软雅黑", 10)).grid(row=1, column=7)
#编辑框位置和字体
en1=tk.Entry(LOVE, font=("微软雅黑", 8))
en1.grid(row=2, column=0)
en2=tk.Entry(LOVE, font=("微软雅黑", 8))
en2.grid(row=2, column=1)
en3=tk.Entry(LOVE, font=("微软雅黑", 8))
en3.grid(row=2, column=2)
en4=tk.Entry(LOVE, font=("微软雅黑", 8))
en4.grid(row=2, column=3)
en5=tk.Entry(LOVE, font=("微软雅黑", 8))
en5.grid(row=2, column=4)
en6=tk.Entry(LOVE, font=("微软雅黑", 8))
en6.grid(row=2, column=5)
en7=tk.Entry(LOVE, font=("微软雅黑", 8))
en7.grid(row=2, column=6)
en8=tk.Entry(LOVE, font=("微软雅黑", 8))
en8.grid(row=2, column=7)
Label(LOVE, text="", font=("微软雅黑", 10)).grid(row=3, column=0)
#测试输入框预测
def pp():x=np.array([int(en1.get()),int(en2.get()),int(en3.get()),int(en4.get()),int(en5.get()),int(en6.get()),int(en7.get()),int(en8.get())])# 预测效果predict = reg.predict(np.array([x]))Label(LOVE, text="预测结果已使用年数为:"+str(predict[0])+"年", font=("微软雅黑", 10)).grid(row=4, column=3)print(predict)
Button(LOVE, text="预测:", font=("微软雅黑", 15),command=pp).grid(row=4, column=0)
Label(LOVE, text="2、选择文件预测", font=("微软雅黑", 20)).grid(row=5, column=0)
path1 = StringVar()
label1 = tk.Label(LOVE,text="目标路径:", font=("微软雅黑", 10))
label1.grid(row=6, column=0)
e1 = tk.Entry(LOVE,textvariable=path1, font=("微软雅黑", 10))
e1.grid(row=6, column=2)
label = ["上升沿斜率(v/us)", "下降沿斜率(v/us)", "脉宽(ns)", "低状态电平(mv)", "低电平方差(mv2)x10-3", "高状态电平(v)", "高电平方差(v2)","信号质量因子"]n = 0for i in predict_value:print(str(label) + "分别为" + str(X[n]) + "预测出来的结果为:" + str(i) + "年" + "\n")f = open("预测结果.txt", "a")f.write(str(label) + "分别为" + str(X[n]) + "预测出来的结果为:" + str(i) + "年" + "\n")f.close()f = open("result.txt", "a")f.write(str(i) + "\n")f.close()n += 1messagebox.showinfo(title='模型情况', message="预测结果保存在当前文件夹下的TXT文件中!")os.system("result.txt")os.system("预测结果.txt")
Button(LOVE, text="预测:", font=("微软雅黑", 15), command=ppt).grid(row=7, column=0)效果如下可见:选择文件进行读取预测和模型训练数据的读取类似,代码如下:
#选择文件预测
def selectPath1():# 选择文件path_接收文件地址path_ =tkinter.filedialog.askopenfilename()# 通过replace函数替换绝对文件地址中的/来使文件可被程序读取# 注意:\\转义后为\,所以\\\\转义后为\\path_ =path_.replace("/", "\\\\")# path设置path_的值path1.set(path_)return path
bn1 = tk.Button(LOVE,text="路径选择", font=("微软雅黑", 10), command=selectPath1)
bn1.grid(row=6, column=6)
def ppt():try:os.remove("预测结果.txt")os.remove("result.txt")except:pass# 文件的名字FILENAME =path1.get()# 禁用科学计数法pd.set_option('float_format', lambda x: '%.3f' % x)np.set_printoptions(threshold=np.inf)# 得到的DataFrame读入所有数据data =pd.read_excel(FILENAME, header=0, usecols="A,B,C,D,E,F,G,H")# DataFrame转化为arrayDataArray =data.values# 读取其他参数作为自变量,影响因素X = DataArray[:,0:8]predict_value = reg.predict(X)print(predict_value)

效果如下:

由于读取文件进行预测的话,数据较多故直接存储在TXT中方便查看:

完整代码链接:

https://pan.baidu.com/s/1yIjK9fc0g8r4Q57_33E-tg

提取码:44mg

作者简介:

李秋键,CSDN博客专家,CSDN达人课作者。硕士在读于中国矿业大学,开发有taptap竞赛获奖等等

更多精彩推荐
  • YouTube 网红程序员一夜走红,修复美、日、俄多国街景视频

  • 赠书 | 人工智能识万物:卷积神经网络的前世今生

  • 万字长文总结机器学习的模型评估与调参 | 附代码下载

  • “Talk is cheap, show me the code”你一行代码有多少漏洞?

  • 科普 | 定义 Eth2.0 中的验证者质量

Get了!用Python制作数据预测集成工具 | 附代码相关推荐

  1. Python大数据预测NBA比赛结果

    大数据带给我们的是一种生活.工作和思维上的大变革, 当下,NBA季后赛打的正如火如荼,各位球迷肯定希望能提前预测自己喜欢的球队能不能杀入总决赛,拿到总冠军. 今晚,黑马程序员李老师,将为大家带来免费公 ...

  2. 使用python制作ArcGIS插件(2)代码编写

    使用python制作ArcGIS插件(2)代码编写 by 李远祥 上一章节已经介绍了如何去搭建AddIn的界面,接下来要实现具体的功能,则到了具体的编程环节.由于使用的是python语言进行编程,则开 ...

  3. python英语翻译-python制作英语翻译小工具代码实例

    这篇文章主要介绍了python制作英语翻译小工具代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 用python爬虫可以制作英语翻译小工具.来 ...

  4. 手把手教你如何用Python制作一个电子相册?末附python教程

    这里简单介绍一下python制作电子相册的过程,主要用到tkinter和pillow这2个库,tkinter用于窗口显示照片,pillow用来处理照片,照片切换分为2种方式,一种是自动切换(每隔5秒) ...

  5. python图片转pdf文件_用python 制作图片转pdf工具

    这篇文章主要介绍了用python 制作图片转pdf工具的思路及代码,非常详细,有需要的小伙伴参考下 最近因为想要看漫画,无奈下载的漫画是jpg的格式,网上的转换器还没一个好用的,于是乎就打算用pyth ...

  6. python编程例子 输入 输出-推荐 :手把手教你用Python创建简单的神经网络(附代码)...

    原标题:推荐 :手把手教你用Python创建简单的神经网络(附代码) 作者:Michael J.Garbade:翻译:陈之炎:校对:丁楠雅 本文共2000字,9分钟. 本文将为你演示如何创建一个神经网 ...

  7. 基于头脑风暴优化的BP神经网络(预测应用) - 附代码

    基于头脑风暴优化的BP神经网络(预测应用) - 附代码 文章目录 基于头脑风暴优化的BP神经网络(预测应用) - 附代码 1.数据介绍 3.BSO优化BP神经网络 3.1 BP神经网络参数设置 3.2 ...

  8. 基于布谷鸟优化的BP神经网络(预测应用) - 附代码

    基于布谷鸟优化的BP神经网络(预测应用) - 附代码 文章目录 基于布谷鸟优化的BP神经网络(预测应用) - 附代码 1.数据介绍 3.CS优化BP神经网络 3.1 BP神经网络参数设置 3.2 布谷 ...

  9. 基于鸟群优化的BP神经网络(预测应用) - 附代码

    基于鸟群优化的BP神经网络(预测应用) - 附代码 文章目录 基于鸟群优化的BP神经网络(预测应用) - 附代码 1.数据介绍 3.BSA优化BP神经网络 3.1 BP神经网络参数设置 3.2 鸟群算 ...

最新文章

  1. C# 中的委托和事件
  2. Socket网络协议之二
  3. Lucene源代码学习之 PackedInts
  4. 数据采集与分析的那些事——从数据埋点到AB测试
  5. 一朵云、一张网、一体化 ——GRTN 打造最佳流媒体场景实践
  6. SharePoint上传循环添加label并获取上传文件名字的扩展名和文件大小(Session[demo] = new ListLabel();方法实现)...
  7. Django从理论到实战(part37)--关于迁移
  8. 存储过程不可以封装_【小知识】功率半导体器件之10功率器件的封装可靠性
  9. 生活在别处——“Samsung Cloud Print”云打印体验
  10. C++学习之路: 前向申明
  11. 不少同学想要放弃秋招了........
  12. [Tizen开发]SDB调试工具使用简介
  13. HashSet、TreeSet、LinkedHashSet的区别
  14. 7-15 计算圆周率 (C语言)
  15. 超级实用的软著申请源代码材料格式文档生成辅助工具——软著源代码工具
  16. 通过Java访问数据库---JDBC
  17. 影视账号涨粉10w,反套路营销获赞百万,小红内容趋势是什么?
  18. Visual Odometry Revisited: What Should Be Learnt?(2020.2)
  19. Androidnbsp;学习论坛博客及网站推荐(…
  20. 场景,或许才是未来空间设计的关键词,可能是最接近元宇宙的空间体验? | 浅空间专栏...

热门文章

  1. reportNG定制化之失败截图及日志
  2. flume源码学习8-hdfs sink的具体写入流程
  3. C# 格式串(收藏)
  4. Ubuntu“无法获得锁\加锁”解决方案
  5. Android开源框架ImageLoader的完美例子
  6. Android TextView的一些小知识
  7. Android获取内部和SDCard的存储空间
  8. SQL Server 2005/2008 用户数据库文件默认路径和默认备份路径修改方法
  9. 17,Scatter函数
  10. 机器学习-----有监督,无监督,半监督学习的简单阐释