朴素贝叶斯

原理介绍

基于贝叶斯方法的分类器是利用训练数据并根据特征的取值来计算每个类别被观察到的概率。当分类器之后被用于无标签数据时，分类器就会根据观测的概率来预测新的特征值最有可能属于哪个类别。

主要应用领域

文本分类，例如垃圾邮件过滤、作者识别和主题分类等。
在计算机网络中进行入侵检测或者异常检测。
根据一组观察到的症状，诊断身体情况。

文本分析	应用场景
情绪分析	最简单是一个二分类任务，可以考虑在评论中提取正面和负面的短语进行分类。
垃圾邮件检测	重要的商业应用程序，将电子邮件分为垃圾邮件或非垃圾邮件两类的二进制分类任务，可以使用许多词汇和其他特性来执行这种分类。

基于贝叶斯定理的条件概率

贝叶斯定理提供了一种从P©,P(x)和P(x|c)计算后验概率的方法。

公式	含义
x	属性
c	类别
P(c\x)	后验概率（给定预测变量的类的后验概率）
P(x\c)	似然概率（预测器给定类的概率的可能性）
P( c )	先验概率（类的先验概率）
P( x )	边际似然概率（预测器的先验概率）

贝叶斯算法的优点和缺点

优点：

预测测试数据集的类别是容易、快速的，它在多分类预测中也表现良好。
当独立性假设成立时，朴素贝叶斯分类器与逻辑回归等其他模型相比表现更好，且需要更少的训练数据。
与数值变量相比，它在分类输入变量的情况下变现良好。

缺点：

如果分类变量在测试数据集里面有类别，但在训练数据集中未观察到该类别，则模型将分配0概率。为解决这个问题，我们可以使用平滑技术。
朴素贝叶斯局限于是独立预测因子的假设。在现实生活中，我们得到一组完全独立的预测变量是几乎不可能的。

代码

方法一（设计函数的形式）

#构造训练集
data <- matrix(c("sunny","hot","high","weak","no","sunny","hot","high","strong","no","overcast","hot","high","weak","yes","rain","mild","high","weak","yes","rain","cool","normal","weak","yes","rain","cool","normal","strong","no","overcast","cool","normal","strong","yes","sunny","mild","high","weak","no","sunny","cool","normal","weak","yes","rain","mild","normal","weak","yes","sunny","mild","normal","strong","yes","overcast","mild","high","strong","yes","overcast","hot","normal","weak","yes","rain","mild","high","strong","no"), byrow = TRUE,dimnames = list(day = c(),condition = c("outlook","temperature","humidity","wind","playtennis")), nrow=14, ncol=5);#计算先验概率
prior.yes = sum(data[,5] == "yes") / length(data[,5]);
prior.no  = sum(data[,5] == "no")  / length(data[,5]);#模型
naive.bayes.prediction <- function(condition.vec) {# Calculate unnormlized posterior probability for playtennis = yes.playtennis.yes <-sum((data[,1] == condition.vec[1]) & (data[,5] == "yes")) / sum(data[,5] == "yes") * # P(outlook = f_1 | playtennis = yes)sum((data[,2] == condition.vec[2]) & (data[,5] == "yes")) / sum(data[,5] == "yes") * # P(temperature = f_2 | playtennis = yes)sum((data[,3] == condition.vec[3]) & (data[,5] == "yes")) / sum(data[,5] == "yes") * # P(humidity = f_3 | playtennis = yes)sum((data[,4] == condition.vec[4]) & (data[,5] == "yes")) / sum(data[,5] == "yes") * # P(wind = f_4 | playtennis = yes)prior.yes; # P(playtennis = yes)# Calculate unnormlized posterior probability for playtennis = no.playtennis.no <-sum((data[,1] == condition.vec[1]) & (data[,5] == "no"))  / sum(data[,5] == "no")  * # P(outlook = f_1 | playtennis = no)sum((data[,2] == condition.vec[2]) & (data[,5] == "no"))  / sum(data[,5] == "no")  * # P(temperature = f_2 | playtennis = no)sum((data[,3] == condition.vec[3]) & (data[,5] == "no"))  / sum(data[,5] == "no")  * # P(humidity = f_3 | playtennis = no)sum((data[,4] == condition.vec[4]) & (data[,5] == "no"))  / sum(data[,5] == "no")  * # P(wind = f_4 | playtennis = no)prior.no; # P(playtennis = no)return(list(post.pr.yes = playtennis.yes,post.pr.no  = playtennis.no,prediction  = ifelse(playtennis.yes >= playtennis.no, "yes", "no")));
}#预测
naive.bayes.prediction(c("rain",     "hot",  "high",   "strong"));
naive.bayes.prediction(c("sunny",    "mild", "normal", "weak"));
naive.bayes.prediction(c("overcast", "mild", "normal", "weak"));

> naive.bayes.prediction(c("rain",     "hot",  "high",   "strong"));
$post.pr.yes
[1] 0.005291005$post.pr.no
[1] 0.02742857$prediction
[1] "no"> naive.bayes.prediction(c("sunny",    "mild", "normal", "weak"));
$post.pr.yes
[1] 0.02821869$post.pr.no
[1] 0.006857143$prediction
[1] "yes"> naive.bayes.prediction(c("overcast", "mild", "normal", "weak"));
$post.pr.yes
[1] 0.05643739$post.pr.no
[1] 0$prediction
[1] "yes"

上述的数据需要处理一下

library(tidyverse)
Train <- as.data.frame(data[,1:5])
Test <- as.data.frame(data2[,1:4])
glimpse(Train)
#将所有字符型变量变为因子型
Train$temperature<-as.factor(Train$temperature)
Train$outlook<-as.factor(Train$outlook)
Train$humidity<-as.factor(Train$humidity)
Train$wind<-as.factor(Train$wind)
Train$playtennis<-as.factor(Train$playtennis)
Train
Test$outlook<-as.factor(Test$outlook)
Test$temperature<-as.factor(Test$temperature)
Test$humidity<-as.factor(Test$humidity)
Test$wind<-as.factor(Test$wind)

方法2（e1071包中的naiveBayes函数）

library(mlr3verse)
library(tidyverse)
library(e1071)  #包中有naiveBayes函数
require(e1071)
#确保目标变量是两分类
levels(Train$playtennis)
model <- naiveBayes(playtennis~., data = Train)
class(model)
pred <- predict(model,Test)
table(pred)  #只能判断出yes和no的个数

> levels(Train$playtennis)
[1] "no"  "yes"
> model <- naiveBayes(playtennis~., data = Train)
> class(model)
[1] "naiveBayes"
> pred <- predict(model,Test)
> table(pred)  #只能判断出yes和no的个数
predno yes 1   2

方法3（klaR包中NaiveBayes函数）

NaiveBayes（）
默认情况：
Naivebayes(x,grouping,prior,usekernd=FALSE,fL=0,…)
对象为公式时：
Naivebayes(formula,data,…,subset,na.nation=na.pass)

参数	解释
x	要处理的数据库data.frame或者数据矩阵matrix
formula	放置生成判别规则的公式
data/subset	以formula为对象的函数格式中，分别用于指明该formula中变量所来自的数据集名称和纳入规则建立规程的样本
grouping	指明每个观测样本属于的类别
prior	设置各类别的先验概率
na.action	默认na.pass不会将缺失值纳入计算，不会以你选哪个函数运行，取值为ma.omit时便是删除相应的含有缺失值的观测变量样本。

library(klaR)
library(MASS)
glimpse(Train)
res<-NaiveBayes(playtennis~., Train)
res

> library(MASS)
> library(klaR)
> res<-NaiveBayes(playtennis~., Train)
> res
$apriori
groupingno       yes
0.3571429 0.6428571 $tables
$tables$outlookvar
grouping  overcast      rain     sunnyno  0.0000000 0.4000000 0.6000000yes 0.4444444 0.3333333 0.2222222$tables$temperaturevar
grouping      cool       hot      mildno  0.2000000 0.4000000 0.4000000yes 0.3333333 0.2222222 0.4444444$tables$humidityvar
grouping      high    normalno  0.8000000 0.2000000yes 0.3333333 0.6666667$tables$windvar
grouping    strong      weakno  0.6000000 0.4000000yes 0.3333333 0.6666667$levels
[1] "no"  "yes"$call
NaiveBayes.default(x = X, grouping = Y)$xoutlook temperature humidity   wind
1     sunny         hot     high   weak
2     sunny         hot     high strong
3  overcast         hot     high   weak
4      rain        mild     high   weak
5      rain        cool   normal   weak
6      rain        cool   normal strong
7  overcast        cool   normal strong
8     sunny        mild     high   weak
9     sunny        cool   normal   weak
10     rain        mild   normal   weak
11    sunny        mild   normal strong
12 overcast        mild     high strong
13 overcast         hot   normal   weak
14     rain        mild     high strong$usekernel
[1] FALSE$varnames
[1] "outlook"     "temperature"
[3] "humidity"    "wind"       attr(,"class")
[1] "NaiveBayes"

参考文献：
1、https://blog.csdn.net/yucan1001/article/details/23033931?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159160213319725222426537%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=159160213319725222426537&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_allfirst_rank_v2~rank_v25-7-23033931.first_rank_v2_rank_v25&utm_term=%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AFR

2、https://blog.csdn.net/ISMedal/article/details/79428335?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-1

学习不易，请留下你的痕迹！
点个赞，分享一下！