java多线程调用nsq消费_spark-streaming连接消费nsq

spark-streaming连接消费nsq

目的

使用 NSQ作为消息流

使用 spark-streaming 进行消费

对数据进行清洗后，保存到hive仓库中

连接方案

1、编写Spark Streaming Custom Receivers(spark-streaming 自定义接收器)，详细见文档

2、使用 nsq 官方提供的Java程序连接包 JavaNSQClient ，详细见文档

详细代码

自定义连接器

ReliableNSQReceiver.scala

import com.github.brainlag.nsq.callbacks.NSQMessageCallback

import com.github.brainlag.nsq.lookup.DefaultNSQLookup

import com.github.brainlag.nsq.{NSQConsumer, NSQMessage}

import org.apache.spark.internal.Logging

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.receiver.Receiver

class MessageCallbacks(store_fun:String => Unit) extends NSQMessageCallback with Logging {

def message(message: NSQMessage): Unit ={

val s = new String(message.getMessage())

store_fun(s)

message.finished()

}

/* 自定义连接器 */

class ReliableNSQReceiver(host: String, port: Int, topic: String, channel: String)

extends Receiver[String](StorageLevel.MEMORY_AND_DISK_2) with Logging {

var consumer: NSQConsumer = null

def onStart() {

// 启动通过连接接收数据的线程

new Thread("Socket Receiver") {

override def run() { receive() }

}.start()

}

def onStop() {

logInfo("Stopped receiving")

consumer.close

}

/** 接收数据 */

private def receive() {

try {

val lookup = new DefaultNSQLookup

lookup.addLookupAddress(host, port)

consumer = new NSQConsumer(lookup, topic, channel, new MessageCallbacks(store))

consumer.start

} catch {

case e: java.net.ConnectException =>

restart("Error connecting to " + host + ":" + port, e)

case t: Throwable =>

restart("Error receiving data", t)

}

使用连接器

import com.google.gson.JsonParser

import org.apache.spark.SparkConf

import org.apache.spark.internal.Logging

import org.apache.spark.sql.{DataFrame, SparkSession}

import org.apache.spark.streaming.dstream.DStream

import org.apache.spark.streaming.{Seconds, StreamingContext}

* 在定义一个 context 之后,您必须执行以下操作.

* 通过创建输入 DStreams 来定义输入源.

* 通过应用转换和输出操作 DStreams 定义流计算(streaming computations).

* 开始接收输入并且使用 streamingContext.start() 来处理数据.

* 使用 streamingContext.awaitTermination() 等待处理被终止(手动或者由于任何错误).

* 使用 streamingContext.stop() 来手动的停止处理.

object ELKStreaming extends Logging{

def main(args: Array[String]): Unit ={

if (args.length < 4) {

System.err.println("Usage: ELKStreaming ")

System.exit(1)

}

logInfo("start ===========>")

StreamingExamples.setStreamingLogLevels()

val sparkConf = new SparkConf().setAppName("ELKStreaming").setMaster("yarn").set("hive.metastore.uris", "thrift://hadoop15.bigdata.org:9083")

// 创建一个批次间隔为10

val ssc = new StreamingContext(sparkConf, Seconds(args(2).toInt))

// 使用自定义的NSQReceiver

val lines = ssc.receiverStream(new ReliableNSQReceiver(args(0), args(1).toInt, "log", "scalatest"))

val hiveStream: DStream[(String, String)] = lines.map(line => prefix_exit(line))

// 将计算后的数据保存到hive中

hiveStream.foreachRDD(rdd => {

// 利用SparkConf来初始化SparkSession。

val sparkSession: SparkSession = SparkSession.builder().config(sparkConf).enableHiveSupport().getOrCreate()

// 导入隐式转换来将RDD

import sparkSession.implicits._

// 将RDD转换成DF

val df: DataFrame = rdd.toDF("str", "ymd")

// 取出表中的字段

logInfo("df count ===========>"+ df.count)

df.createOrReplaceTempView("spark_logs")

sparkSession.sql("insert into "+args(3)+" partition (ymd) select str,ymd from spark_logs")

})

ssc.start()

ssc.awaitTermination()

}

def prefix_exit(line:String):(String,String) ={

// 对数据进行清洗计算

val obj = new JsonParser().parse(line).getAsJsonObject

val data_str1 = obj.get("recv_timestamp").toString().split("T|Z|\"")

val data_str2 = data_str1(1).split('-')

val data_str3 = data_str2(1)+"/"+data_str2(2)+"/"+data_str2(0)+" "+data_str1(2)+" [I] "+obj.get("index_type").toString().split("\"")(1)+" "+line

val data_str4 = data_str2(0)+data_str2(1)+data_str2(2)

(data_str3.toString(), data_str4.toString())

}

java多线程调用nsq消费_spark-streaming连接消费nsq相关推荐

java多线程调用一个函数_Java 多线程（一）
1. 多线程使用方法使用多线程,绝大部分情况都是通过如下两种方式实现的,即继承Thread类或者实现Runnable接口.以下对两种方式分别进行介绍并比较. 1.1 使用Thread类实现多线程自 ...
java读写德卡数据_Spark Streaming 读取Kafka数据写入ES
简介: 目前项目中已有多个渠道到Kafka的数据处理,本文主要记录通过Spark Streaming 读取Kafka中的数据,写入到Elasticsearch,达到一个实时(严格来说,是近实时,刷新时 ...
java 多线程调用 dll 出错,JAVA调用DLL异常，请高手寻找异常原因，给出解决方法...
当前位置:我的异常网» J2SE » JAVA调用DLL异常,请高手寻找异常原因,给出解决方法 JAVA调用DLL异常,请高手寻找异常原因,给出解决方法 www.myexceptions.net 网 ...
druid java直接调用_Spring Boot使用Druid连接池的示例代码
Druid是Java语言中最好的数据库连接池.Druid相比于其他的数据库连接池,有两大特性: 监控数据库,有利于分析线上数据库问题更容易扩展,同时也很高效. 今天演示一下Spring Boot集成 ...
安装智能消费机服务器连接,消费一卡通系统/消费机布线安装方法
[导读] 一. 消费机工程布线要求: 1. 选用120欧姆的8芯双屏蔽网线(通常采用),线路截面积0.75平方毫米.根据布线环境及长度,再选择不同的屏蔽材质及抗拉强度不同的线材. 2. 所用的两芯线必 ...
多线程调用生成主键流水号存储过程产生主键冲突问题解决方案
遇到开发多线程测试插入数据的时候发现主键冲突问题问题具体描述如下: -------------------------------------------------------------- 调用 ...
java 多线程压缩_Java 多线程拷贝文件夹并调用tinyPng算法接口压缩图片实现（生产消费变种）...
线程模型生产者Provider线程为一,主要进行深搜目录文件:. 消费者Consumer线程多个, 因为RPC服务调用时延较长, 启用多个线程请求服务. 持久化线程Persist 将已经消费的消息存 ...
java多线程异步调用别的系统接口代码_抢先准备，40个 Java 多线程面试题及答案大汇总！...
↑↑↑点上方蓝字关注并标⭐「IT技术思维」一起培养顶尖技术思维来源:程序员共成长(id:finishbug) 这些多线程的问题,有些来源于各大网站.有些来源于自己的思考.可能有些问题网上有.可能有 ...
Java 多线程启动为什么调用 start() 方法而不是 run() 方法？
点击上方好好学java ,选择星标公众号重磅资讯.干货,第一时间送达今日推荐:终于放弃了单调的swagger-ui了,选择了这款神器-knife4j个人原创100W+访问量博客:点击前往,查 ...

java多线程调用nsq消费_spark-streaming连接消费nsq

java多线程调用nsq消费_spark-streaming连接消费nsq相关推荐

最新文章

热门文章