【比特大数据】第一辑:手机信令大数据格式及应用价值
一、什么是手机信令大数据
手机信令是手机用户与发射基站或者微站之间的通信数据,只要手机一开机,并且手机屏幕上显示出运营商(中国移动、中国联通、中国电信)字样,信令数据就开始产生了。之后当你使用手机拨打接听电话、发送接受短信、上网浏览网页等所有通讯行为,都会和手机附近的基站发送通信关系,由于通信基站的位置是固定且已知的,基站的位置信息就反映了用户的位置,因此手机信令数据字段中始终带有时间和位置等信息。
从手机信令数据的来源来分类,可将手机信令大数据划分成三类,即话单数据、PS域信令数据和CS域信令数据。其中,话单数据信令是三个分类中最少的一类,只有当用户拨打或接听电话、发送或接收短信时才可以触发信令;CS域信令则是指BSC(基站)切换、位置更新、开关机和位置区切换等信令;而PS域信令增添了上网信令,受智能手机与4G网络的影响,通过手机上网的人数逐步增多, PS域的数据量大幅度增长。不管是何种手机信令数据,其原始数据的基本格式都包含手机IMSI号、时间戳、位置区编号、事件类型等几个字段。
表1 手机信令的数据格式

据统计,目前约85%的人拥有并使用手机,且手机用户的业务频繁,包含电话业务、短信业务、上网业务、位置更新业务等等,大量的用户和高频的通讯行为产生了海量的手机数据,一个百万人口级别的城市一天产生的信令数据条数约为3-5亿条,这些信息是海量的,无法用人工进行识别和分析。过去,对于运营商来说,这些历史大数据除了保存和销毁,没有其他作用,而今天,越来越多的移动运营商将这些数据提供给研究人员,让原本沉睡的数据发挥巨大作用。
二、 手机信令大数据有什么用
手机信令大数据如此受追捧?那是因为与传统数据相比,它在某些方面有不可替代的优势,传统数据,比如统计局的人口数据,铁路部门公布的年运输量数据等,大多是基于统计的数据,几乎是静态的,而且某些传统数据受限于数据获取方式,仅能是抽样数据,另外,通常获取数据需要耗费大量人力物力。相对传统数据,手机信令大数据几乎是全样本的,而且是随时随地的动态获取。而且,相对于传统数据,手机信令大数据获取的成本很低廉。手机信令数据是基于人的数据,总结起来,主要要一些作用:
1.区域人口和岗位数量的推算
一直以来,城市人口和岗位总量数据均出自与统计局、民政局、公安局等几个部门,受限于数据获取方式和统计方法,这些数据只能按年度更新。且由于城市化过程中,人员流动日益频繁,传统的数据口径已经不能满足动态化的人口变化跟踪需求。而由于手机的普及率极高使得通过手机信令手机反推人口总量规模成为可能。
基于手机信令的人口推算通常是根据3个月或者半年的数据得到,通过对用户长时间追踪,判别居民的逗留地点,分析该用户是否属于某城市的常驻居民,进而统计出城市的常驻人口。
更进一步的,可以通过工作及居家时段产生活跃次数最大的稳定点判断岗位人口和居住人口。通常假设9:00-18:00为居民最可能的工作时段,将20:00-次日8:00假设为可能的居家时段,基于该假设便可以确定工作时段出现可能性最大的地点为该用户的工作地,同时确定居家时段出现可能性最大的地点为该用户的居住地。以此推算所得人口定义为居住人口。

2.城市人口时空分布
城市人口在不同时间、不同空间的分布是完全不同的,可以用手机信令数据分析,清楚地了解城市人群的分布现状,通过对同一手机位置的长期跟踪,可判断出手机用户的居住地和工作岗位位置,从而得到城市规划最为关心的城市人口和岗位分布情况。

人口分布图(图片来源悦西安)
3.出行OD分析
客流OD分析是交通规划最基础的数据,手机大数据发挥了大样本、客观性、连续性的优点,同时可以将交通小区细分到0.5~1平方公里的面积、分别获得工作日、周末等不同日期不同时间段不同人群的全市客流OD分析,为现代城市交通规划提供了更为详尽的OD数据分析。

出行OD期望线(图片来源悦西安)
4.用户画像
所谓用户画像,是指单个用户所有信息标签的集合,即通过收集与分析用户的人口属性、社会交往、行为偏好等主要信息,将用户所有的标签综合起来,勾勒出该用户的整体特征与轮廓。在互联网经济条件下,满足消费者个性化需求成为运营商差异化竞争的主要手段,用户画像可以较为精准地发现客户类型,实现“数据驱动业务与运营”的重要助力。

当然,手机信令数据可挖掘的信息远不止这些,大家现在看到的成果只是冰山一角。还有很多有价值的东西值得探索和挖掘。
三、 手机数据的处理方法和流程
手机信令原始大数据需要经过一系列的模型处理方可转变成能够对行业应用有意义的指标。结合已有经验,手机信令大数据基本的处理流程为:数据预处理-基站小区定位-出行链识别-分区统计-结果扩样。
第一步数据预处理。条件确立后,逐一筛选记录,随后提出唯一且难以识别的IMSI号、无法定位等异常记录,然后便获得与条件相符的信令大数据样本。此外还需一一评价数据空间缺失、数据连续性等情况。
第二步基站小区定位。根据手机提供的服务基站位置,将手机当前处于的基站位置确定出来,主要采用单个基站小区所在服务范围内的精度来确定。诸如:若为城区基站,基站密度较大,且服务半径较小,因而其定位精度控制在300-500m以内;若为郊区,基站密度较小,服务半径较大,则精度控制在500-2000m以内。
第三步出行链识别。根据时间来提取用户信令数据,进而便能获得各用户手机的全天候移动轨迹,紧接着便能将出行链识别模型构建出来,在这一模型中可以把手机移动轨迹划分成若干个连续出行点,进而便能识别出每次用户出行的起始点和停留点。
第四步分区统计。首先按需划分空间分析单元,以此获得能够被用来统计和分析的交通分区,随后建立起交通分区和基站小区间的对应关系,然后根据交通分区要求来对用户出行记录进行相应的汇总统计,进而便能获得基于交通分区背景下的出行记录。
第五步结果扩样。虽然当前的手机信令样本量非常庞大,但是依然无法在同一时段内获取到三家运营商数据,加之获得的一些数据为无效数据,针对此,为了剔除无效数据,确保手机信令样本有效性,便要求实施扩样处理。在具体的扩样操作中,需对居民手机保有量、有效样本筛选量、空间分布和运营商市场占额等内容进行考虑。此外还可以在社会经济调查报告、人口普查数据和岗位调查数据等资料借鉴下,对扩样结果的准确性进行校验处理。
为了让大家更加方便的使用手机信令数据,我们工作室开发了大数据自动化处理平台,通过部署hadoop分布式服务器集群,利用专业的大数据处理算法,构建了一键式、企业级的大数据处理平台,快速响应用户的大数据需求。
平台网站:https://www.yunshudu.com
意见反馈:3611336893@qq.com
微信号:Hold_on456了解更多大数据知识,欢迎关注比特大数据工作室:

【比特大数据】第一辑:手机信令大数据格式及应用价值相关推荐

  1. Byte学堂:手机信令大数据格式及应用价值

    一.什么是手机信令大数据     手机信令是手机用户与发射基站或者微站之间的通信数据,只要手机一开机,并且手机屏幕上显示出运营商(中国移动.中国联通.中国电信)字样,信令数据就开始产生了.之后当你使用 ...

  2. 谷歌亚马逊或遭英国监管;昔日“大数据第一股”面临退市;特斯拉辅助驾驶系统索赔案胜诉丨每日大事件...

    ‍ ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 企业动态 台积电与诚新绿能签署协议,将购买20000GWh可再生能源 4月21日,台积电宣布已签署一项长期协议,将在20年内每年从台湾诚新绿 ...

  3. 技术不是大数据第一生产力,数据交易才能带来应用爆发

    导言:我从事大数据工作10余年,很多时候和圈内朋友谈及大数据,大家首先谈到的都是数据挖掘和人工智能算法,或是hadoop的架构.我也曾深陷这样的误区,认为"只要会写算法.实现架构就是大数据的 ...

  4. 大数据第一季--Hadoop(day5)-徐培成-专题视频课程

    大数据第一季--Hadoop(day5)-1777人已学习 课程介绍         大数据第一季--Hadoop(day5) 课程收益     大数据第一季--Hadoop(day5) 讲师介绍   ...

  5. 大数据第一课(满分作业)——泰坦尼克号生存者预测(Titanic - Machine Learning from Disaster)

    大数据第一课(满分作业)--泰坦尼克号生存者预测(Titanic - Machine Learning from Disaster) 1 项目背景 1.1 The Challenge 1.2 What ...

  6. 大数据 第一章 大数据概论

    第一章 大数据概论 1.1.大数据概念 ​ 按顺序给出数据存储单位:bit.Byte.KB.MB.GB.TB.PB.EB.ZB.YB.BB.NB.DB ​ 1Byte=8bit 1K=1024Byte ...

  7. 大数据第一阶段学习笔记

    开始:2022年11月6日 以下内容仅为个人笔记整理.(第一阶段的内容并不完全.硬件上有点问题,暂时无法解决,空着的部分后续补上.) 第0章 大数据介绍 大数据可以从事的职位有: 大数据工程师 数据分 ...

  8. 大数据第一天 Hadoop01-入门集群环境搭建

    Hadoop01-入门&集群环境搭建 今日内容 ​ Hadoop的介绍 ​ 集群环境搭建准备工作 ​ Linux命令和Shell脚本增强 ​ 集群环境搭建 大数据概述 ​ 大数据: 就是对海量 ...

  9. 政府大数据应用的反思;大数据分析应用常见的困难

    来源:网络大数据 摘要:在智慧城市建设中,以支持政府决策为名的大数据中心建设如火如荼,但利用大数据改进决策的成功案例却鲜有,与大数据中心的投资不成比例,令人质疑大数据中心遍地开花模式的合理性. 一.政 ...

最新文章

  1. Android SDK 更新不下来解决方法
  2. 浙大计算机 在职博士,浙江大学在职博士含金量高吗?
  3. 2.异步回调检测线程结束
  4. html中免费的四级联动,利用JS实现省市区街道四级联动插件
  5. linux内核设计与实现 中文第三版 pdf_大牛推荐的5本 Linux 经典必读书
  6. es6新特性之Map
  7. 40Linux组41Linux所有者42Linux所在组43Linux修改所有组
  8. c++循环读取多行文本文件
  9. ecshop退出登录会清空购物车的bug优化,最完美解决方法
  10. Juniper交换机配置命令_学习笔记
  11. 大一结业项目之一(C#晨曦超市管理系统 )
  12. 人工智能学习(十一):机器人学
  13. 【Python学习】pandas 删除重复行
  14. C++获取鼠标坐标并移动鼠标
  15. 《图像处理、分析与机器视觉 第四版》数学形态学基本概念——学习笔记
  16. ArcGIS Pro试用许可申请
  17. 最强思维导图训练营教程
  18. 防火墙用户管理和入侵防御简介
  19. 小米盒子3S刷国际版
  20. phpstudy2016 PHP-5.4.45存在隐藏后门文件以及apache弹出php startup的经历

热门文章

  1. leetcode374
  2. 【小白搞机入门】名词集-BootLoader锁(BL锁)
  3. 团建游戏----啤酒大赛
  4. you-get 使用总结
  5. mac数据库操作(忘记密码)
  6. matlab simulink三自由度汽车模型
  7. 使用高德地图api点聚合案例 (自定义样式)
  8. 基于PnP的目标位姿求解
  9. java坦克大战总体功能设计_Java编程:坦克大战游戏的设计
  10. selenium安装、pip升级、更换国内源