哥斯拉HTML5网页制作,哥斯拉mining过程
数据导入
setwd("D:/R")
或者直接getwd()放入学校路径
A=read.csv('',header=TRUE) 有表头true 无 false
数据清理
#1.空值
data=data[complete.cases(data),]#去空值
data=data[!complete.cases(wine),]#显示空值
#2.去重复值
data=unique(data)
#3.查看缺失值
c=is.na(data)
#4.标记缺失值
data() 列出已载入的包中的所有数据集。
data(package = .packages(all.available = TRUE)) 列出已安装的包中的所有数据集。
y = rep(c(1, 2, 3), c(20, 20, 20))
生成20个1 20个2 20个3
y=c(rep(-1,10),rep(1,10))
rep 重复函数 -1 重复出现十次
rnorm()函数产生一系列的随机数,随机数个数,均值和标准差都可以设定
cor() 函数计算两两变量之间的相关系数的矩阵
数据中心化: scale(data,center=T,scale=F)
数据标准化: scale(data,center=T,scale=T) 或默认参数scale(data)
进行pca之前一般先变量标准化
决策树 分类树 剪枝条
决策树(https://blog.csdn.net/u010089444/article/details/53241218)
ID3算法 选择信息增益最大的方向进行分支标准
https://blog.csdn.net/xiaohukun/article/details/78055132
信息增益: 信息熵-条件熵
在决策树算法的学习过程中,信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。
https://www.zhihu.com/question/22104055
信息熵越大说明事件的无序程度越高
信息熵越小说明事件的有序程度越高
https://blog.csdn.net/wxn704414736/article/details/80512705
CART
gini越小 越纯
最小的切分点最为最优切分点 使用该切分点将数据切分为两个子集https://blog.csdn.net/wsp_1138886114/article/details/80955528
生成树枝+剪枝
https://www.cnblogs.com/karlpearson/p/6224148.html
监督学习【分类 回归 支持向量机】
非监督学习【聚类 主成分】
https://blog.csdn.net/chenKFKevin/article/details/70547549
无监督学习:仅有x值 来
两种主要类型无监督学习:聚类分析,主成分分析
定性的响应变量,定性变量也称为分类变量。
线性回归的因变量(Y)是连续变量,自变量(X)可以是连续变量,也可以是分类变量
logistic 回归与线性回归恰好相反,因变量一定要是分类变量,不可能是连续变量。分类变量既可以是二分类,也可以是多分类,多分类中既可以是有序,也可以是无序。
最小二乘法(https://www.zhihu.com/question/37031188)
竖直投影下来 计算(y-ybar)^2最小
pca 降维工具
协方差矩阵——PCA实现的关键
cov() 计算协方差in R
https://www.zhihu.com/question/41120789
pinkyjie.com/2011/02/24/covariance-pca/
prcomp(data,scale=TRUE) scale对数据进行标准化处理
prcomp pca主成分分析函数
混淆矩阵
https://www.zhihu.com/question/36883196
马氏距离。ROC曲线
蒙特卡洛仿真
支持向量机 (文本分类问题)
https://www.zhihu.com/question/21094489
knn
kmeans
https://zhuanlan.zhihu.com/p/31580379
Version:1.0StartHTML:0000000107EndHTML:0000000974StartFragment:0000000127EndFragment:0000000956
X=rbind(matrix(rnorm(20*50,mean = 0),nrow = 20),matrix(rnorm(20*50,mean = 0.7),nrow = 20),matrix(rnorm(20*50,mean = 1.4),nrow = 20))
X.pca=prcomp(X)
plot(X.pca[,1:2],col=c(rep(1,20),rep(2,20),rep(3,20)))
res=kmeans(X,centers=3)
true_class=c(rep(1,20),rep(2,20),rep(3,30))
table(res$cluster,true_class)
wine.case
https://www.kaggle.com/xvivancos/tutorial-clustering-wines-with-k-means
https://www.kaggle.com/maitree/wine-quality-selection
cov_sdc=cov(wine)
eigen(cov_sdc)
res.pca
eig.val
eig.val
#数据导入
wine=read.csv()
wine= read.csv('winequality-white.csv',header=TRUE)
wine=winequality_white
#data cleaning
wine = wine[complete.cases(wine),]
#PCA
library(stringr)
library(FactoMineR)
#绘图
res.pca
sdc=scale(wine)
pca.d=prcomp(sdc)
summary(pca.d)
#PCA降维
wine=wine[,-9:-11]
#查看定性变量分布,确定定性变量
hist(wine$quality)
#分类
wine0 = wine[wine$quality==3,]
wine1 = wine[wine$quality==4,]
wine2 = wine[wine$quality==5,]
wine3 = wine[wine$quality==6,]
wine4 = wine[wine$quality==7,]
wine5 = wine[wine$quality==8,]
#抽样
label0= sample(c(1:10),dim(wine0[1]),replace= TRUE)
label1= sample(c(1:10),dim(wine1[1]),replace= TRUE)
label2= sample(c(1:10),dim(wine2[1]),replace= TRUE)
label3= sample(c(1:10),dim(wine3[1]),replace= TRUE)
label4= sample(c(1:10),dim(wine4[1]),replace= TRUE)
label5= sample(c(1:10),dim(wine5[1]),replace= TRUE)
wine0_train = wine0[label0<=5,]
wine0_test = wine0[label0>5,]
wine1_train = wine1[label1<=5,]
wine1_test = wine1[label1>5,]
wine2_train = wine2[label2<=5,]
wine2_test = wine2[label2>5,]
wine3_train = wine3[label3<=5,]
wine3_test = wine3[label3>5,]
wine4_train = wine4[label4<=5,]
wine4_test = wine4[label4>5,]
wine5_train = wine5[label5<=5,]
wine5_test = wine4[label5>5,]
wine_train = rbind(wine0_train,wine1_train,wine2_train,wine3_train,wine4_train,wine5_train)
wine_test = rbind(wine0_test,wine1_test,wine2_test,wine3_test,wine4_test,wine5_test)
跑
library(nnet)
re_log = multinomial(quality~.,data= wine_train)
将数据变为定性变量
wine_train$quality = as.factor(wine_train$quality)
######################################
library(rpart)
library(rattle)
library(rpart.plot)
#########################################
ID3 方法生成树枝(信息增益)
re_id3
plot(re_id3)
########################################
CART 方法生成树枝(基尼系数)
re_CART = rpart(quality~.,data= wine_train,method = "class",parms = list(split="gini"),control=rpart.control(cp=0.000001))
plot(re_CART,main = "CART")
找到复杂度最小的值
min = which.min(re_CART$cptable[,4])
剪枝
re_CART_f = prune(re_CART,cp=re_CART$cptable[min,1])
pred_id3 = predict(re_id3,newdata = wine_test)
pred_CART = predict(re_CART,newdata = wine_test,type="class")
table(wine_test$quality,pred_CART)
wine_train$quality= as.factor(wine_train$quality)
随机森林
•library("randomForest")
•data.index = sample(c(1,2), nrow(heart), replace = T, prob = c(0.7, 0.3))
•train_data =heart[which(data.index == 1),]
•test_data =heart[which(data.index == 2),]
•n
•rate=c()
网格法
for (i in 1:(n-1))
{
mtry=i
for(j in (1:100))
{
set.seed(1234)
rf_train=randomForest(as.factor(train_data$target)~.,data=train_data,mtry=i,ntree=j)
rate[(i-1)*100+j]=mean(rf_train$err.rate)
}
}
z=which.min(rate)
print(z)
展示重要性
importance
barplot(heart_rf$importance[,1],main="Input variable importance measure indicator bar chart")
box()
importance(heart_rf,type=2)
varImpPlot(x=heart_rf,sort=TRUE,n.var=nrow(heart_rf$importance),main="scatterplot") #可视化
hist(treesize(heart_rf))
check model
pred
pred_out_1
table
sum(diag(table))/sum(table)
plot(margin(iris_rf,data.test$target))
----------------------------------------------------------------别管
wine$quality
linear regression
library(ggplot2) # Data visualization
library(readr) # CSV file I/O, e.g. the read_csv function
library(corrgram)
library(lattice) #required for nearest neighbors
library(FNN) # nearest neighbors techniques
library(pROC) # to make ROC curve
install.packages('corrgram')
library(corrgram)
---------------------------------------------------------------------------------
linear_quality = lm(quality ~ fixed acidity+volatile acidity+citric acid+residual sugar+chlorides+free sulfur dioxide+total sulfur dioxide+density, data=wine)
corrgram(wine, lower.panel=panel.shade, upper.panel=panel.ellipse)
wine$poor
wine$okay
wine$good = 7
head(wine)
summary(wine)
KNN
class_knn10 = knn(train=wine[,1:8], test=wine[,1:8], cl=wine$good, k =10)
class_knn20 = knn(train=wine[,1:8],test=wine[,1:8], cl = wine$good, k=20)
table(wine$good,class_knn10)
table(wine$good,class_knn20)
wine123=winequality_white
wine123$poor
wine123$okay
wine123$good = 7
library(rpart) #for trees
tree1 = rpart(good~ alcohol + sulphates+ pH , data = wine123, method="class")
rpart.plot(tree1)
summary(tree1)
pred1 = predict(tree1,newdata=wine123,type="class")
summary(pred1)
summary(wine123$good)
比较模型的准确度
tree2 = rpart(good~ alcohol + volatile acidity +citric acid+ pH , data = wine123, method="class")
tree2 = rpart(good ~ alcohol + volatile acidity + citric acid + sulphates, data = wine123, method="class")
rpart.plot(tree2)
tree2= rpart(good ~ alcohol + volatile acidity + citric acid + sulphates, data = wine123 ,method='class')
pred2 = predict(tree2,newdata=wine123,type="class")
summary(pred2)
summary(wine123$good)
信息熵计算
LDA
决策树
p187 chp4 power function
p212 chp5 boostrap
p215 chp5 loocv
p431 chp10 kmeans
一、变量的基本定义和基础操作
1. 数值型变量的赋值
a = 5
2. 向量赋值
x = c(1:6) , c()为生成向量对应的函数
3. 向量中元素的访问
x = c(1:6)
x[3] ,中括号中的数字代表所访问的数值在向量x中的位置。
x[-3],负数的标度表示取补集,即返回向量x中除第3位以外的其他元素。
4. 矩阵的定义
B =matrix(c(1:10),nrow=2,ncol=5,byrow=TRUE)
matrix()未定义矩阵的函数,括号中第一个位置为写入矩阵中的元素,nrow参数位行数,ncol参数位列数,byrow=TRUE,表示数据按行的顺序书写。byrow=FALSE 按照列的顺序书写
不打byrow 按照列来输入
5. 矩阵元素的访问
B[1,] 访问矩阵中的第一行
B[,2] 访问矩阵中的第二列
B[2,1]访问矩阵第二行第一列的元素
B[,2:5]访问矩阵2到5列的元素
B[,-4] 访问矩阵中除第4列的元素
6. 常用统计函数
sum()求括号中对象的各个元素和
mean()求括号中对象元素的均值
max() 求括号中对象元素中的最大值
min() 求括号中对象元素中的最小值
7. 其他矩阵信息的提取
dim(B) 返回矩阵的维度,第一个值为行数,第二个值为列数
dim(B)[1]可访问矩阵的行
dim(B)[2] 可访问矩阵的列数 1 代表行 2代表列
length(B)返回对象的长度,(请自行测试返回值是行还是列)
哥斯拉HTML5网页制作,哥斯拉mining过程相关推荐
- 哥斯拉HTML5网页制作,哥斯拉Godzilla运行原理探寻
前段时间在这里看到这个工具:哥斯拉Godzilla.团队小伙伴对称感兴趣,特意下载下来分析一下. 探寻原理 密码(pass)和密钥(key) 将jsp shell格式调整一下,分析.发现key取前16 ...
- html网页页面制作用到了什么技术,技术干货|常用的HTML5网页制作软件,这些你有在用吗?...
原标题:技术干货|常用的HTML5网页制作软件,这些你有在用吗? 1.Sublime Text Sublime Text是一个跨平台的代码编辑器,同时支持Windows.Linux.Mac OS X等 ...
- html5网页制作代码_HTML5的网页设计教程
关注小编,教你如何制作网页 HTML5是超文本标记语言(HyperText Markup Language)的第五代版本,它是书写网页代码的一种规范.一种标准.它通过标记符号来标记要显示的网页中的各个 ...
- html5网页制作的目的,浅谈HTML与网页制作
摘要:HTML是构成网页的最主要的基本的脚本代码,其具有制作简单,功能强大,支持不同数据格式的文件嵌入的特点.近年来俨然人们与网站的交互变得越来越多.因此,网页在制作的过程中就不仅只是需要考虑到实现功 ...
- html5网页制作图文混排,03第3章制作图文混排网页.docx
第3章制作图文混排网页 图像也是网页中的主要元素之一,图像不但能美化网页, 而且能够更直观地表达信息. 在页面中恰到好处地使用图像,能使网页更加生动.形象和美观. [教学导航] 教学目标 (1)学会通 ...
- html5网页制作心得体会,网页设计课程学习心得总结
网页设计师需要不断地调整视觉元素,改进界面设计来满足不同用户的需求和偏好,图片是网页设计的重要设计元素,如何更好地在网页设计中应用图片元素显得尤为重要.下面是小编为大家整理的,供你参考! 篇1 转瞬之 ...
- html5网页制作技巧,HTML5 网页制作技巧
本文总结自由人民邮电出版社出版的<HTML.CSS.Javascript网页制作>. 总结进行学习,并分享给同样编写HTML5的朋友. 1:背景音乐的添加 2:每隔一定时间的自动刷新网页 ...
- 常用的HTML5网页制作软件
HTML5被看做是Web开发者创建流行web应用的利器,增加了对视频和Canvas 2D的支持.用HTML5的优点主要在于,这个技术可以进行跨平台的使用.比如你开发了一款HTML5的游戏,你可以很轻易 ...
- html5网页制作电脑版,页未央HTML5制作神器PC版
腾牛网在此提供页未央电脑版,它是一款由新浪倾情打造的创意html5页面制作工具.设定一个场景,挑选一套模板,键入两行文字,替换几张图片,搭配一曲音乐,一分钟即可实现你的情感表达诉求. 安装说明: 1. ...
最新文章
- 京东商城Android版客户端 安装到手机上就能轻松购物
- 怎么拿img标签的data_PASCAL VOC数据集-分割标签索引颜色对照及程序
- 一发工资就全部取出,会对银行流水有影响吗?
- screentogif 屏幕录制生成gif图片的软件安装过程
- tars 部署 oracle,Tars 部署介绍(必看)
- rbac模型的特点和优势_权限体系设计:融合了组织和岗位的权限模型长啥样?...
- sql 查询目标数据库中所有的表以其关键信息
- alter 弹出添加图片_解决PS保存JPG图片内存很大的方法(二)
- paip.多线程调用静态方法错乱的解决
- http抓包实践--(二)--web网页抓包和fiddler修改包
- oracle 导出身份证号_Oracle如何实现按身份证号得到省市、性别、年龄
- 打印机如何手动正反面Mac设置黑白打印
- akshare复权算法-港股复权后数据代码分享
- PTA L1-088 静静的推荐
- golang和经济学相关资料学习,还不错,果然B站是个学习的好地方。
- 博通wifi驱动详解
- java web 编辑器_22个所见即所得在线 Web 编辑器
- dpdk-20.11 编译和安装
- 抖音评论如何放置连接_抖音如何导流到微信?学会这些,每个账号都可以用!...
- Redis-事件机制详解