python spark pyspark——朴素贝叶斯习题整理

贝叶斯分类：在做算法时数据不能为负我就将原来数据中的负号去掉导致结果预测失败
优点：在数据较少的情况下仍然有效，可以处理多类别问题。
缺点：对于输入数据的准备方式较为敏感。适用数据类型：标称型数据。

#1.导包
from pyspark.ml.classification import NaiveBayes
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.mllib.linalg import Vectors,Vector
from pyspark import SparkContext
from pyspark.ml.regression import LinearRegression
from pyspark.ml.feature import VectorAssembler
from pyspark.python.pyspark.shell import spark
from pyspark.ml.feature import StringIndexer
from pyspark.sql.types import *
from pyspark.sql.functions  import *
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.clustering import KMeans
#2.读取hdfs中的文件
sc=SparkContext.getOrCreate()
train_data=sc.textFile("hdfs://master:9000/qw.csv")
def GetParts(line):parts = line.split(',')return parts[0],parts[1],parts[2],parts[3],parts[4],parts[5],parts[6]
header = train_data.first() #获取第一行内容
train_data = train_data.filter(lambda row:row != header) #删除第一行数据
train = train_data.map(lambda line: GetParts(line))
df = spark.createDataFrame(train,["acceleration_x","acceleration_y","acceleration_z","gyro_x","gyro_y","gyro_z","activity"])#将数据转化为DataFrame格式
df.show()
#将string类型转化为浮点型
df = df.withColumn("acceleration_x", df["acceleration_x"].cast(FloatType()))
df = df.withColumn("acceleration_y", df["acceleration_y"].cast(FloatType()))
df = df.withColumn("acceleration_z", df["acceleration_z"].cast(FloatType()))
df = df.withColumn("gyro_x", df["gyro_x"].cast(FloatType()))
df = df.withColumn("gyro_y", df["gyro_y"].cast(FloatType()))
df = df.withColumn("gyro_z", df["gyro_z"].cast(FloatType()))
df = df.withColumn("activity", df["activity"].cast(FloatType()))
#将数据划分为特征和标签
assembler = VectorAssembler(inputCols=["acceleration_x","acceleration_y","acceleration_z","gyro_x","gyro_y","gyro_z"],outputCol="features")
output = assembler.transform(df)
label_features = output.select("features", "activity").toDF('features','label')
label_features.show(truncate=False)
#贝叶斯
nb = NaiveBayes(smoothing=1.0, modelType="multinomial")
# 训练模型
model = nb.fit(label_features)df1 = spark.createDataFrame([(-1.0602,-0.282,-0.0618,0.8069,-0.9107,1.6153,1)],["acceleration_x","acceleration_y","acceleration_z","gyro_x","gyro_y","gyro_z","activity"])
df1.show()
test_assembler = VectorAssembler(inputCols=["acceleration_x","acceleration_y","acceleration_z","gyro_x","gyro_y","gyro_z"],outputCol="features")
test_output = test_assembler.transform(df1)
test_label_features = test_output.select("features", "activity").toDF('features','label')
test_label_features.show(truncate=False)# df1 = label_features.head(5)
# df1 = spark.createDataFrame(df1)
# df1.show()
# compute accuracy on the test set
result = model.transform(test_label_features)
print(result.collect())
predictionAndLabels = result.select("prediction", "label").collect()
print(predictionAndLabels)

python spark pyspark——朴素贝叶斯习题整理相关推荐

Python实现基于朴素贝叶斯的垃圾邮件分类标签： python朴素贝叶斯垃圾邮件分类 2016-04-20 15:09 2750人阅读评论(1) 收藏举报分类：机器学习（19）听说
Python实现基于朴素贝叶斯的垃圾邮件分类标签: python朴素贝叶斯垃圾邮件分类 2016-04-20 15:09 2750人阅读评论(1) 收藏举报分类: 机器学习(19) 听说朴 ...
spark mllib 朴素贝叶斯 naive bayes
为什么80%的码农都做不了架构师?>>> 数据源说明第一列每行的标签,其他列为特征运行代码如下 package spark.logisticRegressionimport ...
Python+sklearn使用朴素贝叶斯算法识别中文垃圾邮件
总体思路与步骤: 1.从电子邮箱中收集垃圾和非垃圾邮件训练集. 2.读取全部训练集,删除其中的干扰字符,例如[]*..,等等,然后分词,删除长度为1的单个字. 3.统计全部训练集中词语的出现次数,截取 ...
python推荐系统算法朴素贝叶斯_机器学习经典算法之朴素贝叶斯分类
很多人都听说过贝叶斯原理,在哪听说过?基本上是在学概率统计的时候知道的.有些人可能会说,我记不住这些概率论的公式,没关系,我尽量用通俗易懂的语言进行讲解. 贝叶斯原理是英国数学家托马斯·贝叶斯提出的. ...
Python机器学习06——朴素贝叶斯
本系列所有的代码和数据都可以从陈强老师的个人主页上下载:Python数据程序参考书目:陈强.机器学习及Python应用. 北京:高等教育出版社, 2021. 本系列基本不讲数学原理,只从代码角度去让 ...
Python自然语言处理—朴素贝叶斯
一贝叶斯公式公式很好理解,当我们相求已知状态X下打上ý标签的概率的时候,可以将问题分以下三个问题 1,求标签ÿ下X状态的概率 2,求标签ÿ的概率 3,求X状态的概率以上三个问题可以简单的统计已知样 ...
python：基于朴素贝叶斯算法的垃圾邮件过滤分类
目录一.朴素贝叶斯算法 1.概述 2.推导过程二.实现垃圾邮件过滤分类 1.垃圾邮件问题背景 2.朴素贝叶斯算法实现垃圾邮件分类的步骤 3.python实现参考学习网址:https://blog ...
朴素贝叶斯python代码_朴素贝叶斯模型及python实现
1 朴素贝叶斯模型朴素贝叶斯法是基于贝叶斯定理.特征条件独立假设的分类方法.在预测时,对输入x,找出对应后验概率最大的 y 作为预测. NB模型: 输入: 先验概率分布:P(Y=ck),k=1,2, ...
python 机器学习 sklearn 朴素贝叶斯
首先介绍一个非常好的博主和博客,大家可以去这学习,我收获很大优秀的博客朴素贝叶斯下面包括三个方法分别是高斯朴素贝叶斯.多项式朴素贝叶斯.伯努利朴素贝叶斯这三种方式都有不同的应用场所,比如你要预测 ...
python推荐系统算法朴素贝叶斯_朴素贝叶斯算法在人才盘点中的应用（之一）
一.识别人才首先是处理不确定性问题做招聘面试的HR应该会认同这样的经历. 打开应聘者简历,赫然写着TOP10名学毕业.抬头一瞧,小伙长得一表人才,精神抖擞,朝气蓬勃.HR兴趣大增. 再一看,研究方向 ...

python spark pyspark——朴素贝叶斯习题整理

python spark pyspark——朴素贝叶斯习题整理相关推荐

最新文章

热门文章