联通研究院处长王志军:Hadoop在电信业大数据的应用

摘要:联通研究院处长王志军发表《Hadoop在电信业大数据的应用》主题演讲,据他介绍,联通第一次采用了开源技术,在这之前在电信行业当中比较少见,使用Hadoop、HBase等技术。

6月29日,第七届“开源中国 开源世界”高峰论坛在北京唯实国际文化交流中心召开。本届论坛主题为“开源融合创新移动互联未来”,聚焦开源与移动互联网、云计算、物联网等技术和产业发展,探讨在移动互联网时代,开源软件商业模式创新、开源软件人才培养、开源社区建设、开源软件与中国软件产业发展、以及基于开源模式形成新的产业生态系统等话题。

联通研究院处长 王志军

联通研究院处长王志军发表《Hadoop在电信业大数据的应用》主题演讲,据他介绍,联通第一次采用了开源技术,在这之前在电信行业当中比较少见,使用Hadoop、HBase等技术。

演讲实录:

我看了一下今天会议的主题,是“开源融合创新,移动互联未来”,我们的应用可能正好符合这个主题,一是开源,二是创新,三是跟移动互联关系。

随着国内3G网络的发展,或者移动通信网络的发展,中国联通目前运营着世界上最大的CDMA网络,流量运营是中国联通一个重要特点,中国联通3G套餐当中流量占比非常非常大,中国联通3G用户流量使用情况也是非常可观的,而目前中国联通遇到一个世纪问题,随着流量的增长,3G流量的争议也迅速的增加。现在3G业务在流量方面的投诉达到了投诉的7-10%,并且最近这半年还在成迅猛的上升趋势,各个省份已经达到了20%。

投诉来源于哪儿呢?

一些用户,特别是一些移动智能手机用户,例如我本人也一样,比如我的安卓手机,前一阵子谷歌安卓4.0出来之后发布了新的版本,我的手机在某一天下午某一个时刻进行了自动更新,基本有200兆大小的流量的产生,如果我是普通的3G用户,中国联通资费0.3元/兆,如果套餐使用光了,这次更新可能花费60元,这种更新是在不自觉情况下发生的,造成用户到中国联通进行投诉,他认为我自己没有使用这个流量,联通要给我证据,目前电信计费系统流量话单在GGSN设备上产生,是网关设备。这个设备产生流量话单时候根据一个流量依据而产生

第一,达到一定时间,例如2个小时;第二,达到一定流量大小,比如5兆,这个流量话单相当于一段时间之内使用流量总合的话单,没有说访问哪个目标的IP地质,没有访问的目的地,只告诉你这个时刻产生了这样的话单,用户当然不愿意,用户说我那天没有使用过手机,没有产生这个流量,这样情况下用户要求退费,或者双倍赔偿,GSN设备,无论是中国联通也好,还是其他运营商也好,采用设备可能来子华为、阿尔卡特,这些设备在全球商用了,GGSN产生的话单在一定意义上之上,出现这种问题是微乎其微的,说不清流量到哪儿去了,运营商作为弱势群体,只能退费或者双倍赔偿。

运营商的难言之隐

现在有一个案例,去年某一个时间中国联通一个用户在0点到4点之间产生巨额流量费用,他认为中国联通既然拿不出证据,以涉嫌欺诈消费者为由向法院提起了诉讼,影响是两方面的,对用户而言,他也是想知道流量到底什么时候发生的,如果手机的问题,他也知道怎么进行防范,这样就不会发生类似问题,根据客户部门提供的数据,可能因为无法提供商网流量详单造成退费和赔付,会影响到运营商流量计费商务模式,所以我们建立这种系统意义非常大,第一,我们的系统供联通客服人员使用,提供快速查询服务,解决流量投诉的问题,另外,我们也准备向最终用户提供异常的大流量查询服务。再一个问题,上网记录数据本身是数据的金矿,我们可以通过获取上网数据记录对流量进行统计。

海量数据的应对之策

下面分析一下难点,第一,上网记录数据是海量数据,经过我们的系统可以分析到,用户每个用上网记录基本几万到几十万,有的用户五六十万,我们现在采用的方案是在网关所有用户流量必经地方采集,分析流量数据,然后上成上网记录话单,话单量非常大,我可以举几个例子,例如用移动手机访问新浪网首页,对流量采集设备基本能生成20条左右上网记录话单,如果点iPad新闻链接,恐怕会产生180条上网记录,如果访问淘宝网首页,会产生60条请求和回应,在手机上网记录当中有大量DNS查询和推送服务,以中国联通某一个中等省份公司为例,日均上网记录达到10亿条,每个月的数据接近9T,整个移动互联网也在快速发展,根据中国联通统计,每隔6个月中国联通用户整体上网流量会翻一番,去年平均3G每用户的流量一年之内翻一番,整个流量增长非常迅速,也带来了上网记录的量非常非常大。刚才淘宝的张总也讲到这个问题了,传统IOE方式,IBM小型机,思科数据库存储,EMC存储,思科数据库存储这么大上网记录时候已经不可能了,我们采用开源的Hadoop解决,Hadoop本身是系统架构,也是开源项目,由Apache基金会开发,Hadoop本身最底层是分布式文件系统,这个分布式文件系统叫HDFL,在它之上有分布式处理框架,基于Hadoop整个开源项目,上面构建了结构化的访问数据库,在这之上又提供了类似的数据挖掘工具,另外也提供了一些分布式同步,以及远程调用和序列化工具。

Hadoop+HBase+ MapReduce 

对于Hadoop分布式文件系统本身来说,重要的出发点在于硬件故障是常态,不是非异常的状态,我们可以摒弃采用IBM小型机方案,Hadoop中数据可以自动复制,一份数据可以复制成三份,第一份在一台服务器上,第二份数据在另外一台机架的另外一台服务器上,第三份数据可能在另外一台机架的另外一台服务器上,作为分布式文件系统,每次请求写入的磁盘和服务器物理地点可能不一样,可以带来高并发的读写请求。

MapReduce框架分成很多数据级,最后再合并处理。HBase分布式数据库是分布式存储系统,主要特点在正它是四维存储系统,传统的数据库是二维表的结构,有行、有列,对它来说,除了有行之外,有列的概念,在列和行之间又可以存放多个版本,在这种情况下相当于四维表结构,好处在于可以灵活的表格结构,每个列组里面的列后来都可以随机应变,我们的采集系统现在在采集一些字段,未来的发展过程中,为了数据挖掘的需要,会采集更多的字段,方便我们在一个结构之下进行更多信息的存储以及后续的处理工作。

HBase本身利用自动复制机制保证Hbase本身存储的高可靠性。我们会做一些数据挖掘工作,除了采用MapReduce技术之外,还采用数据仓库技术,针对海量数据进行高性能查询和分析工作。中国联通已经构建了一个全国集中的一级架构海量数据存储和查询系统,第一,是一级架构,全国所有用户所有上网记录数据都放北京数据中心里,在国内电信行业当中也是首创的方式。

另外一个方式,首先将开源Hadoop、Hbase技术应用商用电信服务系统中来,开源的软件架构基本上没有商用系统的,但是这次是商用系统,系统的构成,包括数据采集、数据入库、数据存储、数据查询和数据分析技术,基本技术采用Hadoop,目前上网记录数据存储一般不小于30分钟,30分钟之前的上网记录现在可以通过我们系统查询到,在实际使用过程中,我们发现约10分钟的记录可以查到,用HBase处理这么海量的数据时候,入库速度非常非常迅速,另外查询速度也非常非常迅速。另外系统的存储不少于6个月原始上网记录能力,中间的统计报表会保存不少于5年,现在的数据查询速度,查询一个用户上网记录,比如有几万条记录,在几千亿条记录当中检索的时间小于一秒钟,当然,这个时间不包括查询页面的时间。这是上网记录详单内容,存储了很多用户上网记录信息,随着系统的发展,为了数据挖掘的需要,我们会进一步提取更多信息存到上网记录系统当中来。

Hadoop三节点 控制数据

整个系统部署情况是这样的,我们采用普通PC服务器部署这个系统,Hadoop本身有三个节点,一个是数据存储节点,现在有178个数据存储节点,每个数据存储节点有14T的容量,集群的监控节点有一台,入库服务节点24台,Web查询应用服务节点20台,在同一个机架上的数据交换采用千兆交换机。这是查询系统的界面,用户详细信息都可以通过这个系统查询出来。

在目前情况下,现在已经部署完成了4个省份,北京、黑龙江、浙江、重庆,四个省份所有用户上网记录都可以上来,每天入库条数超过42亿条用户上网数据记录,每天入库数据量超过1.2T,在这种数据量的情况下,现在已经保存了几个月的上网记录数据,在这种情况下,上网记录数据保存在一张表当中,保存4个省的数据,一个月可能超过1200亿条的数据,在这种情况下,在1200亿条数据当中检索一个用户数据会达到不小于一秒,目前1200亿条只用到15个数据节点,随着178个数据节点上线之后,保存全国31省的数据以及进行快速入库、查询和检索我们认为都没有问题。现在预估,31省上线之后,每个月用户上网记录超过8千亿条,我们系统明年6月份才可能考虑到下一期扩容工程,在这种情况下,我们相信每个月会有1万亿条数据,保存6个月用户数据,原始数据量会超过6万亿条,目前每条上网记录基本上在300个字节,随着我们把更多的字段加入进来之后,可能平均每条用户上网记录的长度还会增加,可能达到400字节,对整个集群的要求会更高。

回到主题上,我们第一次采用了开源技术,在这之前在电信行业当中比较少见,我们用了Hadoop、HBase,这里面还有用户管理员信息等等,目前在客服使用当中感觉也是非常非常好的,更重要的是利用这个系统可以做深入的数据挖掘工作。中国联通在查询用户上网记录之前会征得用户的同意,有可能通过口服开头同意,如果客服后台查询的话,我们可能通知用户有人要查询你的上网记录,在安全方面我们做了考虑。整体上就是这样的情况,如果大家感兴趣,可以跟我联系。

原文出自:http://www.csdn.net/article/a/2012-06-29/2807030

联通研究院处长王志军:Hadoop在电信业大数据的应用相关推荐

  1. 作者:王志强(1975-),男,中国标准化研究院高新技术与信息标准化研究所副研究员、副所长。...

    王志强(1975-),男,中国标准化研究院高新技术与信息标准化研究所副研究员.副所长,主要研究方向为工业数据标准化.数据质量标准化.信息资源开发利用.电子政务标准化等.

  2. 山东师范大学计算机尹副教授,张志军

    张志军,1973年生,博士,教授. 主要研究方向为推荐系统.机器学习.数据挖掘. 学习工作经历: 1993.9-1997.7山东师范大学计算机科学与技术系,学士. 2003.9-2006.7山东大学计 ...

  3. 中国信通院副院长王志勤:加快5G新基建,驱动数字化转型升级 (视频+全文+PPT)...

    数据猿导读 2020年3月23日,中国信息通信研究院副院长王志勤,围绕"加快5G新基建,驱动数字化转型升级"主题,剖析了5G新基建对数字经济发展的支撑作用,分享了5G在助力疫情防控 ...

  4. 海南大学计算机学院张一教授,应用数学专业01级校友:王志刚——海南大学信息科学技术学院教授...

    2004年6月毕业于湖北大学数学与计算机科学学院应用数学系,获理学硕士学位,2012年12月晋升为教授. 研究方向 主要研究方向:不确定理论.数据挖掘.随机分析及其应用 主持的科研项目: 1.海南省自 ...

  5. 四通利方总经理--王志东

    來自:小葛程序人生 王志东,四通利方总经理.1967年生,广东省东莞市人. 1988年,毕业于北京大学无线电电子学系: 1989年5月,特邀进入北京大学计算机技术研究所,研制"中文多窗口图形 ...

  6. 王幼军:拉普拉斯概率理论的历史研究

     拉普拉斯概率理论的历史研究 http://www.doc88.com/p-917707463935.html 绪论 一,研究的意义 从中国数学史研究的角度来说,拉普拉斯的概率理论的历史可以为我们 ...

  7. 香港大学中国学院王志荣博士:大数据时代的新商业模式和战略

    大数据时代的新商业模式和战略有哪些?香港大学中国学院的王志荣博士将过去几年来沉淀下来的思考与大家分享,包括共享经济.客户导向.成果经济和平台战略. 很荣幸今天代表香港大学和这么多的业界的朋友来分享我们 ...

  8. java程序设计颜志军_JSP 自定义标签之一 简单实例

    在JSP中使用自定义标签可以达到这样的目的,事实上,我们所熟知的各类框架基本上都是通过自定义标签的形式来实现的. 通过使用自定义标签,我们可以将实现复杂的逻辑在页面用简单的标签来加以展示.下面我们来实 ...

  9. 李丽云为什么选择肖志军?

    晚上打开电视(很难得啊,一般只有在饭桌上吃饭才会开电视,今天吃火锅,所以不能在电脑前吃),默认是中央12套,我只看这个台.正好在演<大家看法>,讲那个孕妇李丽云的事.之前看到南方周末的标题 ...

最新文章

  1. 计算机如何用计算机语言显示汉字,计算机是如何执行程序的呢?什么是编程语言?中国怎么不用中文编程?...
  2. UIView的AddChildViewCtroller的用法(4中页面切换方式)
  3. BitSet 数字排序
  4. 在iis中让asp.net的错误显示在远程访问电脑中
  5. java如何调windows框_java – JDialog.setAlwaysOnTop(true)将所有对话框带到Windows下的前面...
  6. protoc.exe java_protobuf java 使用 window
  7. C++:线程操作之CRITICAL_SECTION用法的介绍和例子理解
  8. JSP脚本与指令元素
  9. verilog仿真——$test$plusargs 和 $value$plusargs
  10. JAVA语言写的,用java语言写
  11. h2database连接字符串
  12. 混迹职场,你的领导也是你的资源
  13. 网络安全系列之十八 MySQL基本操作(PHP注入基础)
  14. python滤波器的截面图_Python OpenCV学习笔记之:图像滤波处理
  15. 50个新的汉化Demo!纯前端 Wijmo 放大招
  16. 野村综合研究所李智慧:日本金融科技是制度先行而非技术先行
  17. 网页游戏脱机脚本制作视频教程
  18. 中国指定银行支行数据及省市数据获取
  19. Python -- 使用if语句处理列表
  20. 新浪批量短网址生成php源码,最新新浪短网址API接口与短网址在线批量生成工具的使用方法...

热门文章

  1. java达达租车接口_Java第一个项目——达达租车系统v1
  2. 实现call和apply
  3. ?Web开发者需要知道的CSS Tricks
  4. Spark Streaming揭秘 Day16 数据清理机制
  5. 关于多网络时钟的讨论
  6. appium查看控件的方法
  7. 2011斯坦福大学iOS应用开发教程学习笔记(第二课)My First iOS App
  8. android长截屏代码,android长截屏原理及实现代码
  9. 安徽省2021年高考各科成绩查询,2021年安徽高考总分是多少 考试科目及各科分数...
  10. 川大和西南交大计算机考研难易度,2020考研:百所211院校报考难易度分析