公司简介

西山居创建 1995 年初夏,在美丽的海滨小城珠海,西山居工作室孕育而生,一群西山居居士们十年如一日尅勊业业的奋斗。"创造快乐,传递快乐!" 一直是西山居居士们的创作宗旨。西山居以领先的技术作为坚实的基础以独特的本土化产品为玩家提供时尚化服务。在未来,西山居仍以娱乐软件为主导产品,不断进行研发和市场活动,逐步发展成为国内最优秀的集制作、发行于一体的数字化互动娱乐公司。

业务背景

由于公司产品的社交属性都非常强,对相关舆情进行分析与了解就显得很有必要,在此背景下,舆情监控系统应运而生。该系统利用算法组提供的分词算法,对文本进行解析与分类,打上各类标记后再通过计算产生中间结果。舆情系统直接查询这些中间结果,产生各类报表与趋势图,为及时掌握各类舆情趋势提供便利。用户可以自由组合舆情关注点,从而对平台有很严格的实时交互性查询要求,是典型的实时 HTAP 类业务。

存储技术选型

舆情系统之前我们曾经实现过一个客服系统,这个系统要求能实时查询,但面对是海量的玩家行为记录。在当时情况下(2016 年),可以选择的对象只有 MyCAT 这类数据库中间件,通过综合压力测试后,我们选定了 KingShard 这一款由公司前同事开发的中间件,KingShard 虽然没有 MyCAT 丰富的周边功能,但它在满足我们业务需求的核心功能上有更快的表现。但正因为有了这一次中间件的使用,我们对中间件有了比较全面的了解,它们在查询优化上有着天生的弱点,无法满足更复杂的查询或者表现极不友好,为此我们还不得不砍掉了客服系统的部分业务功能,所以在那时我已开始寻找更优的技术方案,其中分布式数据库是我们考察的重点方向。

BigTable、GFS、MapReduce 是谷歌在分布式存储与查询领域的探索成果,他们没有公开具体实现代码,但却发布了相应论文,对分布式文件系统、大数据挖掘和 NoSQL 发展起了重大促进作用。开源界根据这一成果开发出对应产品是 HBase、HDFS、Hadoop,这三个产品红极一时,相关周边产品更是百花齐放,很多细分领域都同时出现了多个产品竞争,让整个生态非常繁荣但也变得复杂,提高了我们的学习与使用成本。那么,在一些领域中有没有更加简单、直接、具有较强融合能力的解决方案呢?此时距谷歌这三篇论文发表已近 10 年,谷歌内部早已在尝试融合 NoSQL 和 SQL,并对它们进行了多次更新换代,Spanner、F1 两篇论文便是谷歌在这一方向的探索成果。开源分布式数据库 TiDB 便是受论文启发而设计的 HTAP (Hybrid Transactional and Analytical Processing) 数据库,结合了传统的 RDBMS 和 NoSQL 的最佳特性,兼容 MySQL,具有支持分布式事务、无限的水平扩展、数据强一致性保证等核心 NewSQL 特性。

当时,舆情系统接入的第一个游戏平均每天入库数据量就已达到 8500 万条,并且还需要支持各种实时交互性查询,显然中间件已不能满足要求,传统的关系型数据库则更加不可能了。考虑到以后还会有其它游戏接入,我们果断选择了分布式数据库。

随着互联网经济的发展,数据量跟并发数也在飞速增长,单机数据库已越来越不能满足要求了,为此谷歌、阿里等大厂都有了自研的分布式数据库,但都没有开源,而 MySQL 的 MGR 及相关功能进展的步子太小,TiDB 的出现很好的弥补了市场空白,成为我们的唯一选择。

服务器配置

舆情系统是内部孵化项目,服务器具体如下:

新购物理机器 6 台:

旧物理机 4 台:

我们将对资源使用相对较小的 PD、监控服务分别放在旧物理机上,TiDB、TiKV 和 TiSpark 则分配在新机器上,详细如下:

其中每个 TiKV 分配 CPU 10C / 内存 64G / 硬盘 2T,每个 TiSpark 分配 CPU 20C / 内存 64G。在资源有限情况下,结合数据量及舆情系统的 AP 业务属性,我们设计了这样相对复杂的架构,目的是为了充分利用好服务器资源,让它们能承担更极限的压力,事后有多次历史数据的导入也证明了我们这样设计的必要性,多谢 TiDB 的兄弟全程耐心指导及帮助。

项目开发过程

得出中间结果是一个非常大的计算过程,所以我们使用了 TiSpark。TiSpark 是 PingCAP 为解决用户复杂 OLAP 需求而推出的产品,它是将 Spark SQL 直接运行在分布式存储引擎 TiKV 上的 OLAP 解决方案。有了 TiSpark 我们可以方便地使用 Spark,而不需要再单独搭建一套 Spark 集群。

从 TiDB 的 1.0 RC 3 版本开始,我们就在金山云上搭建集群来试用与压测。期间经历了多次版本热更,集群也一直很稳定,功能与性能越来越强,所以在舆情系统开始开发时我们果断使用了 TiDB。并且 TiDB 有强烈的市场需求,他们的版本更新非常迅速,在试用期间时发现了一些功能不能满足需要,往往在下一个版本就解决了,这让人非常惊叹。

当前版本未加入实时计算业务,再加上使用了 TiSpark,所以整个架构相对简单,详细如下图:

项目上线及使用情况

舆情系统目前总数据量数 T,已正式上线三个月,期间从未出现过异常,系统平稳、使用效果也非常好。现在每天原始文本数据在 2500 万条以上,通过算法分词后产生的中间结果则每天有 6000 万条左右(日均入库 8500 万条),高峰时段的平均 QPS 在 3K 以上,闲时的平均 QPS 为 300 多一点。根据这样的量级,在一开始评估时设定的目标是:支持最近一个星期的实时交互性查询,但现在已经远远超过我们的预期。目前所有一个月内的时间跨度查询都在 1 秒左右完成,个别复杂的 3 个月的实时交互性查询则需要 2 秒多一点。

可以说 TiDB 给我们的体验远超预期,这样的数据量级及响应,单机版数据库是不可能达到要求的。

作者介绍:邹学,舆情监控系统技术负责人,珠海金山网络游戏科技有限公司(西山居)数据中心架构师,2015 年加入西山居,具有 10 年游戏行业软件开发经验,主要参与了公司的游戏网关设计,数据分析框架底层架构建设等,现专注于实时计算、爬虫、分布式系统方向。

舆情监控系统python开源_TiDB 在西山居实时舆情监控系统中的应用相关推荐

  1. [附源码]Python计算机毕业设计SSM即刻实时预约排队系统(程序+LW)

    [附源码]Python计算机毕业设计SSM即刻实时预约排队系统(程序+LW) 项目运行 环境配置: Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行) ...

  2. 广告业务系统 之 数据中转站 —— “日志中心-实时服务监控”

    文章目录 广告业务系统 之 数据中转站 -- "日志中心-实时服务监控" 日志中心 实时服务监控 -- 前链路日志分析 日志收敛手段 -- "手术开口" 基于 ...

  3. 鸿蒙系统代码开源不担忧友商,华为鸿蒙系统正式开源!打脸“安卓套皮论”,友商手机也可采用!...

    看得出在鸿蒙系统的推广和普及上华为行进的动作力度是又大又快.针对外界议论纷纷的"鸿蒙是不是安卓系统换皮"的争议,华为打算用最彻底的方式来辩驳,那就是将鸿蒙系统全面开源.据今天传来的 ...

  4. 万维考试系统python题库答案_万维全自动考试系统操作手册

    万维全自动网络考试平台 考试设置操作流程 1 / 29 万维捷通软件技术有限公司. 万维全自动网络考试平台 .............................................. ...

  5. python系统-Python(第八课,简单开发系统)

    一,回文数判断续 题目:输入一个五位数,使用字符串索引的方法判断是不是回文数 上一次练习中,我们使用取余,地板除等操作,判断一个数是不是回文数,略显麻烦.当我们学过序列的索引和遍历之后,利用这两点,我 ...

  6. 万维考试系统python题库答案_万维试题库系统官方下载

    万维试题库管理系统是一款相当出色的考试软件,软件拥有很多功能如课程定义,题型支持.试题批量识别导入,雷同试题检测,随机组卷和手工组卷流程控制,透明压缩,双向缓冲处理,数据导入导出共享,相当实用. 基本 ...

  7. 垃圾自动分拣系统python代码_[HuskyLens]掌控垃圾分拣系统

    360截图20200119220505036_副本.jpg (139.65 KB, 下载次数: 0) 2020-1-19 22:08 上传 2019年7月1日,被称为"史上最严"垃 ...

  8. openEuler社区开源项目:CPDS(容器故障检测系统)介绍

    容器故障检测系统 CPDS (Container Problem Detect System) 是由北京凝思软件股份有限公司(以下简称"凝思软件")设计并开发的容器集群故障检测系统 ...

  9. 2022最新视频打赏系统+全开源版本/附教程

    正文: 2022最新视频打赏系统+全开源版本/附教程,这套系统是我从别人那里拿到的,100%完整可用,今天测试防红失效了,需要修改防红API即可,程序仅供研究学习使用. 下载方式: lanzou.co ...

最新文章

  1. bzoj1834: [ZJOI2010]network 网络扩容
  2. hadoop2.7之Mapper/reducer源码分析
  3. 全球IPv4地址正式耗尽,你知道吗?
  4. bat从数组中找出相同数字并删除_全网把Map中的hash()分析的最透彻的文章,别无二家...
  5. VBA合并csv文件
  6. ElasticSearch+kibana安装
  7. Pix4Dmapper系列教程(一):Pix4D模型成果导出OSGB并加载到CASS3D进行三维测图
  8. 高德地图api中的adcode城市编码
  9. vue2生成图片导出pdf
  10. Java多人抽奖案例
  11. 五家渠市谷歌高清卫星地图下载
  12. 与计算机运算速度相关参数,计算机的运算速度与什么有关
  13. 《RAFT-Stereo:Multilevel Recurrent Field Transforms for Stereo Matching》论文笔记
  14. 数学分析 - 隐函数
  15. unity SteamVR利用手柄合理移动
  16. 力扣杯2023春-个人赛、战队赛
  17. offsetParent与parentElement ,parentNode,parentElement,childNodes和children
  18. Toward Fast, Flexible, and Robust Low-Light Image Enhancement(实现快速、灵活和稳健的弱光图像增强)CVPR2022
  19. 聊聊 effects 与 reducers--React AntDesign Dva
  20. 银行离岸汇款客户交易预测

热门文章

  1. 深度:保健产品市场正在经历深度震荡与变革转型,新时代环境下孕育哪些创新发展机会?
  2. 来自互联网的悲哀:不是你选择加班,而是 KPI 驯化你
  3. 腾讯会议 for Mac(云视频会议软件)
  4. 语法长难句-----特殊句型(一)
  5. 50个经典的增长黑客策略
  6. java计算机毕业设计web智慧医疗平台设计与实现源码+mysql数据库+系统+lw文档+部署
  7. Tomcat(一) Tomcat是什么:Tomcat与Java技术 Tomcat与Web应用 以及 Tomcat基本框架及相关配置
  8. 计算机课作业要求做一张简报,小学五年级信息技术教学计划(干货4篇)
  9. 简易的网页小游戏之接星星,HTML+JavaScript+css(一丢丢)
  10. July, 19(R)