大一 大数据Python实验报告汇总
学生实验报告
学生姓名 |
学号 |
组员: |
||||
实验项目 |
鸢尾花数据集分类 |
|||||
■必修 □选修 |
■设计性实验 □验证性实验 □操作性实验 □综合性实验 |
|||||
实验地点 |
实验仪器台号 |
|||||
指导教师 |
实验日期及节次 |
|||||
一、实验目的及要求
1、目的
利用鸢尾花数据集分类案例,使学生在实验过程中了解大数据技术中的机器学习任务,熟悉python程序的编写以及机器学习任务的一般流程,掌握数据处理的基本程序和基本方法。
2、内容及要求
掌握数据处理基本概念,熟悉python的基本程序和基本方法
(1) 熟悉python的编程环境,会安装python以及各种python库
(2)分析及查看数据集,掌握数据集的划分的方法,将数据集分为训练数据和测试数据
(3) 了解KNN算法,掌握机器学习库中的KNN对象以其常用方法的使用
(4) 了解机器学习任务的一般流程
(5) 撰写实验报告
二、实验工具
仪器名称 |
规格/型号 |
数量 |
备注 |
计算机 |
1 |
有网络环境 |
|
Python软件 |
1 |
||
三、实验方法与步骤
(一) 安装python编程环境,安装numpy、sklearn数据包
- 针对鸢尾花数据集,根据鸢尾花的特征实现未知花的分类预测
#导入包和数据
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
#读取鸢尾花数据集
iris_data = load_iris()
print(type(iris_data))
print(iris_data['data'])
print("花的样本数量:{}".format(iris_data['data'].shape))
print("花的前5个样本数据:{}".format(iris_data['data'][:5]))
print(iris_data['target'])
print(iris_data['target_names'])
#构造训练数据和测试数据
X_train,X_test,y_train,y_test=train_test_split(iris_data['data'],\
iris_data['target'],test_size=0.3,random_state=0)
print(X_train)
print(X_train.shape)
print(X_test)
print(X_test.shape)
print(y_train)
print(y_train.shape)
#KNN模型和评估模型
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train,y_train)
y_pred = knn.predict(X_test)
print("模型精度:{:.2f}".format(np.mean(y_pred==y_test)))
print("模型精度:{:.2f}".format(knn.score(X_test,y_test)))
#未知鸢尾花种类预测
X_new=np.array([[5.8,3.6,1.3,0.5]])
prediction=knn.predict(X_new)
print("预测的目标类别是:{}".format(prediction))
print("预测的目标花名是:{}".format(iris_data['target_names'][prediction]))
四、实验结果与数据处理
五、讨论与结论
- 难点:对数据集的理解和处理,构造训练数据和测试数据、利用函数进行数据处理分类,对专业术语的理解与记忆。
- 体会:通过进行数的处理分类,使我们可以根据鸢尾花的特征进行鸢尾花种类辨别,让大量数据轻松分析,让我深深感受到python编程软件的便捷。
- 通过本次实验,让我初步接触和应用python,了解到数据处理分类的基本方法,了解到大数据以及大数据的广泛应用性。
六、指导教师评语及成绩:
评语:
成绩: 指导教师签名:
批阅日期:
学生实验报告
学生姓名 |
学号 |
组员: |
||||
实验项目 |
泰坦尼克生存预测之缺失值处理 |
|||||
■必修 □选修 |
□设计性实验 ■验证性实验 □操作性实验 □综合性实验 |
|||||
实验地点 |
实验仪器台号 |
|||||
指导教师 |
实验日期及节次 |
一、实验目的及要求
1、目的
利用泰坦尼克生存预测之缺失值处理案例,使学生在实验过程中全面了解和熟悉大数据技术中的机器学习任务,掌握pandas概念,熟悉python程序的编写以及机器学习任务的一般流程,掌握数据处理的基本程序和基本方法。
2、内容及要求
掌握数据处理基本概念,熟悉python的基本程序和基本方法
(1) 熟悉python的编程环境,会安装python以及各种python库
(2) 分析及查看数据集,明白数据集中各个特征代表的意思,通过不同的方法进行填充
(3) 了解数据处理,掌握缺失值处理以其填充的几种方法的使用
(4) 了解缺失值处理的一般流程
(5) 撰写实验报告
二、实验工具
仪器名称 |
规格/型号 |
数量 |
备注 |
计算机 |
1 |
有网络环境 |
|
python软件 |
1 |
||
三、实验方法与步骤
(一) 安装python编程环境,安装pandas,numpy、sklearn数据包
针对泰坦尼克数据集,根据数据集的特征完成缺失值的填充和数据处理
#导入包和数据
import pandas as pd
data=pd.read_csv('train.csv')
#print(data.head(5))
#print(data)
#print(data.Age)
#泰坦尼克生存预测之缺失值处理(缺失值的识别和判断)
print(data.isnull().any(axis=0))
print(data.isnull().sum(axis=0))
#缺失值的处理方法
#方法1.删除法
#删除无效列,drop默认删除行,列需要加axis=1
#删除缺失多的Cabin特征
data.drop(labels='Cabin',axis=1,inplace=True)
print(data.info())
#删除无关紧要的变量
data.drop(['PassengerId','Name','Ticket'],axis=1,inplace=True)
print(data.info())
#删除缺失行,根据Embarked变量,删除对应的缺失行
data.dropna(subset=['Embarked'],inplace=True)
print(data.info())
print(data.isnull().any(axis=0))
print(data.isnull().sum(axis=0))
#print(data,isnull(),sum())
#中位数填充缺失年龄
print(data.Age)
print(data.Age.describe())
print("年龄中的中位数是:",data.Age.median)
age_median=data.Age.median()
print(data.Age.median())
print(data.Age.mean())
print(data.Age.max())
print(data.Age.min())
data.Age.fillna(data.Age.median(),inplace=True)
print(data.Age)
print(data.Age.describe())
#knn算法来预测缺失年龄值
data.Sex=data.Sex.map({'male':1,'female':0})
data.drop(labels='Embarked',axis=1,inplace=True)
print(data)
#把数据集拆成两组
missing=data.loc[data.Age.isnull(),]
nomissing=data.loc[~data.Age.isnull(),]
print(nomissing)
print(missing)
四、实验结果与数据处理
五、讨论与结论
- 难点:对数据集的理解和处理,构造训练数据和测试数据、利用函数进行数据处理分类,对专业术语的理解与记忆。
- 体会:通过进行数的处理分类,使我们可以根据泰坦尼克生存预测之缺失值处理案例,让大量数据轻松分析,让我深深感受到python编程软件的便捷。
- 通过本次实验,让我初步接触和应用python,了解到数据处理分类的基本方法,掌握了对缺失值填充和处理方法,了解到大数据以及大数据的广泛应用性。
六、指导教师评语及成绩:
评语:
成绩: 指导教师签名:
批阅日期:
学生实验报告
学生姓名 |
学号 |
组员: |
||||
实验项目 |
乳腺癌良恶性预测 |
|||||
□必修 □选修 |
□设计性实验 □验证性实验 □操作性实验 □综合性实验 |
|||||
实验地点 |
实验仪器台号 |
|||||
指导教师 |
实验日期及节次 |
一、实验目的及要求
1、目的
利用乳腺癌良恶性预测案例,使学生在实验过程中了解大数据技术中的机器学习任务,熟悉python程序的编写以及机器学习任务的一般流程,掌握数据处理的基本程序和基本方法。利用机器学习算法实现乳腺癌数据集的二分类问题,良恶性乳腺癌肿瘤预测。
2、内容及要求
掌握数据处理基本概念,熟悉python的基本程序和基本方法
- 熟悉python的编程环境,会安装python以及各种python库
(2) 分析及查看数据集,掌握数据集的划分的方法,将数据集分为训练数据和测试数据
(3) 了解线性分类模型逻辑回归的一般流程
(4)学会如何用代码实现评估算法和图表显示
(5) 撰写实验报告
二、实验工具
仪器名称 |
规格/型号 |
数量 |
备注 |
计算机 |
1 |
有网络环境 |
|
python软件 |
1 |
||
三、实验方法与步骤
(一) 安装python编程环境,安装numpy、pandas、matplotlib.pyplot、数据包
(二)针对数据集,利用机器学习算法实现乳腺癌数据集的二分类问题,良恶性乳腺癌肿瘤预测。
#导入包和数据
import numpy as np
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression,SGDClassifier
from sklearn.metrics import classification_report,accuracy_score
column_names = ['Sample code number','clump thickness','uniformity of cell size',\
'uniformity of cell shape','marginal adhesion',\
'single epithelial cell size','bare nuclei','bland chromatin',\
'normal nucleoli','mitnoses','class']
#读取数据集
print(data.head(4))
print(data.shape)
print(data.info())
print(data.describe())
print(data.groupby('class').size())
#缺失值处理
data=data.replace(to_replace='?',value=np.nan)
data=data.dropna(how='any')
print(data.shape)
#划分数据集并预测
x_train,x_test,y_train,y_test=train_test_split(data[column_names[1:10]],\
data[column_names[10]],\
test_size=0.25,\
random_state=5)
print(x_train.shape)
print(y_train.shape)
print(x_test.shape)
print(y_test.shape)
LR=LogisticRegression()
LR.fit(x_train,y_train)
LR_y_predict=LR.predict(x_test)
print('预测结果为:{}'.format(LR.score(x_test,y_test)))
print('预测结果为:{}'.format(accuracy_score(y_test,LR_y_predict)))
四、实验结果与数据处理
五、讨论与结论
1. 难点:对数据集的理解和处理,构造训练数据和测试数据、利用函数进行数据处理分类,对专业术语的理解与记忆。
2. 体会:通过进行数的处理分类,使我们可以根据乳腺癌实验学会对缺失值的处理和预测方法,让大量数据轻松分析,让我深深感受到python编程软件的便捷。
3. 通过本次实验,让我初步接触和应用python,了解到数据处理分类的基本方法,了解到大数据以及大数据的广泛应用性。
六、指导教师评
点评:
成绩: 指导教师签名:
批阅日期:
学生实验报告
学生姓名 |
学号 |
组员: |
||||
实验项目 |
散点图和折线图绘制 |
|||||
□必修 □选修 |
□设计性实验 □验证性实验 □操作性实验 □综合性实验 |
|||||
实验地点 |
实验仪器台号 |
|||||
指导教师 |
实验日期及节次 |
一、实验目的及要求
1、目的
利用散点图和折线图绘制案例,使学生在实验过程中了解大数据技术中的图形绘制过程与原理,熟悉python程序的编写以及画图的一般流程,掌握数据处理的基本程序和基本方法。
2、内容及要求
(1) 熟悉python的编程环境,会安装python以及各种python库
(2) 分析并学会编写代码
(3) 了解散点图和折线图绘制的原理和方法
(4) 学会设置图的标题和轴的范围
(5) 撰写实验报告
二、实验工具
仪器名称 |
规格/型号 |
数量 |
备注 |
计算机 |
1 |
有网络环境 |
|
python软件 |
1 |
||
三、实验方法与步骤
(一) 安装python编程环境,安装numpy、matplotlib.pyplot数据包
(二) 针对实验要求,进行python程序的编写以及散点图和折线图的绘制
#导入包和数据
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.sans-serif']="SimHei"
plt.rcParams['axes.unicode_minus']=False
#绘制scatter案例图
plt.figure()
x=[1,2,3,4,5]
y=[1,4,9,16,25]
plt.plot(x,y,c="green",linewidth=4,label="折线图",marker='v')
#plt.scatter(x,y,s=200,c='red',marker='v')
plt.title("scatter案例",fontsize=20)
plt.xlim(0,20)
plt.ylim(0,40)
plt.xlabel("x轴",fontsize=12)
plt.ylabel("y轴",fontsize=12)
#plt.show()
#绘制正态分布图
plt.figure()
n=1024
x1=np.random.normal(0,1,n)
y1=np.random.normal(0,1,n)
plt.scatter(x1,y1,s=100,c='yellow',marker='*')
plt.title("正态分布",fontsize=20)
plt.xlim(-4,4)
plt.ylim(-4,4)
plt.xlabel("横坐标x轴",fontsize=12)
plt.ylabel("纵坐标y轴",fontsize=12)
#绘制双折线图
plt.figure()
n=24
y2=np.random.randint(27,37,n)
y3=np.random.randint(40,60,n)
plt.plot(y2,label="温度")
plt.plot(y3,label="湿度")
plt.xlim(0,23)
plt.ylim(20,70)
plt.legend()
plt.show()
四、实验结果与数据处理
五、讨论与结论
1. 难点:对图形绘制的python命令的编写,对专业术语的理解与记忆。
2. 体会:通过进行图形的处理分类,使我们可以根据图像类型的特征进行图像辨别,让大量数据轻松分析,让我深深感受到python编程软件的便捷。
3. 通过本次实验,让我初步接触和应用python,了解到绘制图像的基本方法,了解到大数据以及大数据的广泛应用性。
六、指导教师评语及成绩:
评语:
成绩: 指导教师签名:
批阅日期:
大一 大数据Python实验报告汇总相关推荐
- 物联网、消费物联网、工业物联网与云计算、大数据服务综合分析报告
物联网.消费物联网.工业物联网与云计算.大数据服务综合分析报告 一.物联网基本概念 1.1定义 物联网(Internet of Things)指的是将无处不在(Ubiquitous)的末端设备(Dev ...
- 大数据Python爬取B站电影排行榜——爬取信息
大数据Python爬取B站电影排行榜-信息爬取 前言 一.配置环境 二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息 三.建立Excel表并导出 总 ...
- 西工大计算机操作系统实验报告,西工大操作系统实验报告os4.doc
西工大操作系统实验报告os4 篇一:西北工业大学-操作系统实验报告-实验四 实验四 进程与线程 一. 实验目的 (1)理解进程的独立空间: (2)理解线程的相关概念. 二. 实验内容与要求 1.查阅资 ...
- 电商评论数据聚类实验报告
电商评论数据聚类实验报告--冯煜博 目录 实验目的 整体思路 数据介绍 代码与实验步骤 4.1 爬虫代码 4.2 数据清洗 4.3 分词 4.4 去停用词 4.5 计算TF-IDF词频与聚类算法应用 ...
- 06 数据备份与恢复 实验报告
06 数据备份与恢复 实验报告 广州大学学生实 ...
- 全球大数据发展分析报告
来源:人工智能产业链联盟 国智清创雄安机器人研究院 <2018全球大数据发展分析报告>由天府大数据国际战略与技术研究院联合中国科学院虚拟经济与数据科学研究中心.中国科学院大数据挖掘与知 ...
- 《2018中国大数据发展指数报告》发布:广东、上海、贵州、北京、重庆领先
来源:网络传播杂志 摘要:2018年8月24日, 中国电子信息产业发展研究院在首届"中国国际智能产业博览会"上发布了<中国大数据发展指数报告(2018年)>.此报告为我 ...
- 机器学习及大数据经典算法笔记汇总
机器学习及大数据经典算法笔记汇总 一.总结 二.机器学习及大数据算法 机器学习及大数据经典算法笔记汇总 一.总结 前面的博文,介绍了很多TensorFlow 以及 DeepLeaning 的算法.这里 ...
- 大一上期c语言实验报告2,大一上期C语言实验报告1熟悉实验环境
<大一上期C语言实验报告1熟悉实验环境>由会员分享,可在线阅读,更多相关<大一上期C语言实验报告1熟悉实验环境(3页珍藏版)>请在人人文库网上搜索. 1.成都工业学院计算机工程 ...
最新文章
- workgroup无法访问?
- hibernate与mybatis的区别和应用场景
- 关于数据取舍问题的一个实例
- java: \uxxxx unicode编码
- Reg文件和Bat文件
- 一图读懂《北京市数据中心统筹发展实施方案(2021-2023年)》
- php获取表单后如何保存到数据库中,php – 如何将数据从HTML表单保存到WordPress中的数据库表?...
- 用lsof恢复已删除的文件
- C#.Net工作笔记009---c#中Yield Return语法的作用和好处
- LDA︱基于LDA的Topic Model变形+一些NLP开源项目
- Kaggle Future Sales“”竞赛 XGB_model_final
- 2021文科跨考计算机经验贴(个人分享用,科目408)
- 大数据实习生的年终总结,2022继续与CSDN同行
- android腾讯离线推送,腾讯云IM离线推送设置
- 【转载】vue项目部署到阿里云上详解
- 335x系列-解决爆破音导致的调用延迟问题
- STM32F7--->SDRAM
- python数据整理--绘图工具matplotlib
- HDLbits练习答案(完) 只有你一个success啊
- ap计算机科学原则,无线AP选型设计原则详解
热门文章
- 面试题之微信朋友圈如何测试?
- mysql后台密码_mysql怎么改网站后台密码
- 基于Matlab的MIMO通信系统仿真
- uniapp 封装导航栏
- QImage与Qpixmap的区别
- 怎么用matlab编写quad8算法,MATLAB程序设计教程(8)---MATLAB数值积分与微分
- html5魔塔存档模块,魔塔世界完整版源码
- OFweek 2019 智能网联汽车发展高峰论坛在深圆满落幕!
- “耽改”热中的“腐文化”!为我开启创意者和教育者的,Adobe国际认证旅程
- 计算机控制点火系统如何控制点火提前角,电子点火系统如何控制点火提前角?...