典型行业大数据应用和安全风险和解决方案
安全大数据
网际空间安全面临的威胁越来越多样化。移动网络、云和虚拟化、物联网、工控系统等技术领域的快速发展,使得保护对象和攻击路径都变得更加复杂。而攻击来源也从早期的个人黑客变为犯罪团伙、政治势力、网络部队等更严密的组织。甚至大数据技术本身也被攻击者所利用。能够应对核威慑的,只有核威慑本身;能够应对大数据攻击技术的,也只有大数 据安全技术。目前安全行业的大数据应用场景主要包括等几类:
(一)网络安全态势感知
近年来,网络安全事件层出不穷,传统安全防御措施很难及时、有效的发现安全威胁。这就需要依靠互联网的海量安全数据,解决网络安全监控的问题,通过大数据技术对这些安全要素信息进行分析,全面、精准的掌握网络安全状态,并以可视化的方式,向网络安全监管单位提供所属管辖范围内的实时感知,同时针对安全隐患提供通报等手段帮助监管单位完成安全监控的闭环,从而改变当前“黑客主动攻击、企业被动防御”的局面。
态势感知技术这一概念源于美国空军的研究,此后在核反应控制、空中交通监管及医疗应急调度等领域被广泛应用。在安全领域,该技术是指广泛采集和收集广域网中的安全状态和事件信息,并加以处理、分析和展现,从而明确当前网络的总体安全状况,为大范围的预警和响应提供决策支持的技术。态势感知技术主要是应对大范围广谱威胁,相关的技术包括海量异构数据分析、深度学习、网络综合度量指标、网络测绘、威胁情 报、知识图谱、安全可视化等。
(二)高级持续威胁检测
高级持续性威胁具有精心伪装、定点攻击、长期潜伏、持续渗透等特点,已经成为网络犯罪和间谍活动的首选攻击方式。过去针对特定网络APT定向攻击的发现有两个难点:一是未知威胁分析过程缺少对历史数据的支持,难以进行回溯关联,遗漏了很多关键信息;二是缺少外部情报的来源,只依赖于自有的黑域名/黑IP库,检测的精度和效率都难以满足需求。采用大数据技术,从两方面搜集数据:一是来自于互联网威胁情报云平台的威胁情报数据,二是来自于本地运营商互联网出口监控到的网络流量数据。基于上述的海量安全数据,可以通过人工智能结合大数据知识以及攻击者的多个维度特征还原出攻击者的全貌,包括程序形态,不同编码风格和不同攻击原理的同源木马程序,恶意服务器等,通过全貌特征跟踪攻击者,持续地发现未知威胁。通过对云端大数据中提取的恶意域名、IP、主防库、样本库等信息进行关联分析,发现传统规则检测手段无法发现的未知威胁,实现攻击早期的快速发现。根据样本外连行为识别免杀木马,实现早期的快速发现。对未知威胁的网络行为,攻击源头进行精准定位,对远控木马等行为进行威胁的识别,最终达到对入侵途径及攻击者背景的研判与溯源。
(三)伪基站发现与追踪
伪基站是一种小型或微型的信号收发装置,和运营商的真实基站类似,能够获取周围的手机与基站的设备信息,通过模拟真实基站通信机制,迫使周围的手机连接到该仿冒的基站上,向普通用户发送垃圾短信,甚至冒用号码,群发诈骗信息。
采用大数据技术,则可以极大提高发现伪基站的能力和效率,并可以及时阻断诈骗短信中的钓鱼链接,打破诈骗链条。具体包括以下步骤:第一,通过手机用户举报垃圾短信,或者通过手机专业软件主动拦截并上报垃圾短信,大量收集伪基站短信中包含的时间、地点、内容、仿冒的基站号等各种信息;第二,在大数据处理平台中,运用自然语言处理与机器学习的方法,去掉大量的噪声点,从海量的垃圾短信中以较高的精度识别出伪基站短信;第三,将伪基站短信与经纬度信息结合,就可以发现并定位伪基站;结合伪基站的历史数据,可以进一步找到伪基站的活动规律,并以此对其运动轨迹进行预判;第四,与地理信息系统联动,展现伪基站位置、伪基站的行为、历史运行路径、数量分布等等信息,从而帮助执法部 门的抓捕活动。
(四)反钓鱼攻击
钓鱼攻击是一种利用社会工程学手段,伪装在线金融或交易平台的网站,针对客户个人身份数据和金融账号进行盗窃的犯罪行为。近些年来,钓鱼攻击相关的网银欺诈案件使得用户蒙受巨大的经济损失,也严重影响了银行业金融机构的声誉。据中国反钓鱼网站联盟发布的统计数据,在 2015 年 9 月,处理的钓鱼网站达 1531 个,涉及淘宝网、工商银行、平安银行、 建设银行四家单位的钓鱼网站总量占全部举报量的 98.56%。据《 2014 年中国网络购物安全报告》报告:在 2014 年,包括钓鱼攻击、恶意代码在内的安全威胁,给国内网购用户带来了超过 300 亿的损失。
发现钓鱼网站,需要利用搜索引擎扫描相关互联网址,并通过大数据建模过滤掉可信页面与重复页面,筛选出有嫌疑的钓鱼网址页面,将这些页面输入到分析引擎中;用户也可以进行举报,将钓鱼网址上报到分析引擎的数据库中。分析引擎通过规则模型综合研判、机器学习等方式检测出钓鱼网址和页面。将发现的钓鱼网站和网页汇集成为网址信誉库,金融机构可以把具有欺诈性的URL信息提到这个信誉库中,其中的信息就是是否拦截网页访问的依据。各终端访问钓鱼网站时,通过与云关联的终端软件,提示并阻止用户的访问行为。
电子政务大数据
健康医疗大数据
作为典型的实践科学,医学中有很多知识来源于经验积累。而目前经验积累的最直接、客观的体现就是“数据”。因此,利用健康医疗过程中产生的海量数据,开发其潜在价值,使其助力健康医疗事业的发展,成为 医疗行业、技术研发领域等相关有识之士共同努力的目标。
(一)医学研究效率提升
中国作为世界上病例数最多的国家,为医生科研提供了天然的优势条件,但传统的数据存储方式,使得病例数据的收集成为科研最大的障碍。基于整合后的医疗大数据,利用大数据分析及搜索引擎技术可以有效延展研究范围和深度,帮助医生开展过去难以开展的研究领域:临床科研应用、跨医疗机构间的多中心联合研究、专科专病数据挖掘积累及研究,提升科研质量和效率。
(二)医院管理提效提能
解决医院管理数据质量差、口径杂、系统多、方法少等情况导致的医院管理者无法详细了解医院运营情况的问题,能为医疗机构职能部门提供日常指标的快捷多维度分析功能,提升管理人员的宏观洞察力。
(三)健康医疗生态良性发展
基于清洗挖掘后的标准化医疗大数据,还可以提供更多应用服务,如临床辅助决策服务(CDSS)、精准保险服务、药品研发等,大数据可助其节省研发成本、缩短研发周期、节省营销成本、提升营销精准率。
健康医疗大数据在促进业务发展的同时,面临的安全挑战主要表现 在:
1)数据权属不清。健康医疗大数据起源于个人患者本身,那么数据权属到底是属于个人、还是产生数据的医疗机构一直没有定论;另外,第三方机构在原始数据基础上挖掘延伸出的新数据,其归属权也没有明确规 定。
2)应用复杂性高。目前各地区和机构在进行健康医疗领域信息化建设时大都根据自身需求建立独立的信息系统,这些信息系统架构各异、数 据格式不同,导致数据在安全共享、交换和处理时的复杂度大幅提升。
3)个人隐私保护难。健康医疗数据中包含特别敏感的个人隐私信息,必须依法进行管控和保护;对涉及健康医疗数据的管理要以相应的法律法规做指导,在进行健康医疗数据的收集、存储、挖掘等应用时,需要 解决个人隐私保护的难题。
电商行业大数据
电商行业作为基于互联网技术衍生的新型业务,积累了大量商家数据、买家数据、商品数据,以及在买卖交易过程中产生的订单数据、交易数据和用户行为数据等。借助大数据技术发展契机,电商行业也开始了大数据时代的转型。电商行业基于长期积累的海量数据,开始在不同业务方 向利用大数据技术分析、挖掘数据价值。
(一)精细化运营及管理
通过对电商数据分析和利用,改进电商业务运营模式,实现业务精细化的运营及管理,包括业务分析、业务智能化、精细化营销、风险管理和运营效率等方面。例如在营销方面,能够通过对以往的营销数据分析,最大化的利用数据资源建立适用的营销方案,并及时通过营销反馈数据的收集和分析,反作用于营销方案的改进工作;在风险管理方面,通过建立实时响应的风险监控系统,对电商业务流中的数据与风险大数据进行关联分 析,更好地识别和控制业务风险。
(二)提升业务效率
通过对电商行业中的业务数据进行大数据分析,作用于电商企业的产品设计、绩效管理、配送效率、库存管理和客户关系管理等关键环节,提升业务能力和效率。例如,通过对历史销售数据进行大数据分析,结合后期的产业环境,商家可以预测销售数据,进而优化物流和仓储;通过客户大数据分析,物流企业能够更合理的选择派送方式、优选路径,并提供差异化服务,提高物流服务质量等。
(三)改进消费体验
电商企业通过对消费者数据的分析可以产生如消费者“画像”等衍生数据。企业基于这些衍生数据,可以为消费者提供个性化的服务,如个性化商品推荐、个性化搜索以及智能机器人客服等服务,提升消费体验。
(四)保障生态圈良性发展
电商业务的生态圈涉及电商业务平台、商家、消费者、为商家提供服务的独立软件提供商,以及相关服务机构等众多合法参与者,但也存在着诸如诈骗组织和炒信团伙之类的谋求非法利益的黑灰产组织。电商行业可利用大数据技术精准识别风险,打击炒信、欺诈和侵权等恶意行为,促进电商生态的良性发展。
电商行业大数据在促进业务发展的同时,相应的安全挑战也随之浮现,主要表现在:
1)数据权属不清
电商业务的开展主要包括电商平台、商家和消费者三方,电商业务产生的数据如何划分其所有权、控制权和使用权,是在电商业务中合理使用数据的前提。当前电商业务的大数据应用中,通常利用电商平台对数据进行分析,也存在商家或商家授权独立软件提供商使用商家数据进行分析的情况,在权利归属不明确的情况下,责任的归属也难以界定,相关数据安 全难以保障。
2)大数据聚合分析风险
电商业务的大数据应用涉及对消费者相关的数据分析,虽然可以通过隐私保护政策、用户授权协议的形式获取相关数据的使用合法授权,而且在对电商业务分析的过程中也会采用匿名化处理的方式,保证用户的个人信息安全。但是,在对大数据加工计算的过程中,如何保障不会因为大数 据的聚合分析而实现“去匿名化”,依然是亟待解决的难题。
3)数据版权保护
电商生态圈内的数据流动和共享较为普遍,目前主要通过法律协议方式约束对数据的使用。但由于缺乏有效的数据版权保护技术手段及措施, 难以甄别是否存在超出范围的数据扩散或使用问题。
4)数据跨境安全
目前国家大力支持跨境电商业务,而跨境电商业务必然涉及数据的跨境问题。不同国家和地区的数据保护法规对数据跨境流动的要求存在差异性,比如俄罗斯明确提出俄罗斯公民的数据应在俄罗斯境内更新后方可传到海外进行处理;欧盟则扩大了数据保护法律适用的管辖范围。这些法规将给跨境电商企业带来高昂的合规成本,制约了跨境电子商务的发展。如何处理数据跨境安全合规与跨境电商战略发展的矛盾,是亟待解决的难 题。
电信行业大数据
电信运营商拥有大量的数据资源,如网络信息、用户终端信息、用户位置信息等,同时电信行业近年来利用大数据进行深度挖掘分析,将丰富的网络、用户等数据资源加工抽取后封装为服务,向客户提供。可拓展的大数据应用服务主要为内部支撑、社会服务、商业运营等几大类,典型应 用主要包括:
(一)运营商内部支撑
运营商利用大数据技术,改善服务水平,提升用户体验。根据网络流量变化、网络信令数据信息和各个设备长期运行情况,运营商利用大数据分析,可以及时调整资源配置,进行全网络优化,提升网络质量和网络利用率;可以监控服务质量,改进突发故障自动应对机制;还可以通过分析不同用户群流量使用特征以及存量用户流量趋势,按需提供不同的流量服务,实现流量经营。
(二)社会服务支撑
运营商利用大数据技术,对其拥有的各种数据进行深度挖掘,根据不同行业客户的业务特点,提供城市规划与交通线网规划、路网状态实时监测与公共交通调度、信息验真服务、公共区域安全监测等不同的社会服务支撑信息服务,如基于移动蜂窝网络产生的位置信息,为政府公共管理、城市规划、交通规划提供数据,为零售商提供人群分布、流向、热点等信息。
(三)商业运营支撑
运营商利用大数据技术,基于用户终端信息、用户基础数据、订购产品及行为数据等,可以生成用户基础数据特征与兴趣特征模型,进而预测客户行为,进行程序化广告投放,实现精准营销。还可以通过用户画像进行产品与推广的规划,以个性化、精准型的业务内容不断增强客户黏性。大数据给电信行业带来新的发展机遇,电信运营商借助已有的数据积累优势,不断发展大数据应用,但同时数据的集中管理、数据对外开放等新技术特点和业务新形态应用,也使电信行业大数据面临新的安全风险和挑战,主要包括:
1)供应链安全
通信数据在移动网络设备中产生,而这些设备是由多家供应商提供。同时,存在大数据平台系统第三方供给代建设、代维护等问题,在特定阶段,部分设备的操作权在供应商手中,这意味着供应链的各环节存在安全 风险。
2)数据集中管理
在大数据业务应用发展的驱动下,电信运营商的数据由原来的各系统分散存储转变为大数据平台集中存储模式,大数据资源的安全风险更加集 中,一旦发生安全事件将涉及海量客户信息及公司数据资产。
3)平台组件开源
大数据平台多使用开源软件,这些软件设计初衷主要考虑高效数据处理,缺乏安全性保障,滞后于电信业务发展的安全防护能力,存在安全隐 患。
4)敏感数据共享
在电信运营商内部信息系统建设相对分散,敏感数据跨部门、跨系统共享留存比较常见,其中一旦存在系统安全防护措施不当,均可能发生敏 感数据泄漏,造成“一点突破、全网皆失”的严重后果。
大数据相关国家标准
GB/T 38664.1-2020 信息技术 大数据 政务数据开放共享 第1部分:总则
GB/T 38664.2-2020 信息技术 大数据 政务数据开放共享 第2部分:基本要求
GB/T 38664.3-2020 信息技术 大数据 政务数据开放共享 第3部分:开放程度评价
典型行业大数据应用和安全风险和解决方案相关推荐
- 独家下载 |《领军行业大数据及AI实战》解锁九大行业领军企业云上大数据及AI实战
飞天大数据平台不仅是阿里经济体大数据生产的基石,更为各行业客户提供大数据整体解决方案和强劲算力.上一册介绍阿里巴巴内部大数据实战的电子书<阿里巴巴大数据及AI实战>推出后,受到了广大开发者 ...
- 医疗行业大数据医疗分析案例
某公司国家863项目申请计划书,有幸参与其中,现将部分构思设想与大家分享,希望可以获得更多的交流. 1.主要研究技术内容的国内外发展现状与趋势 2013年是世界大数据元年,基于大数据的信息挖掘引发了医 ...
- 大数据架构及行业大数据应用
今天要和大家分享一 些南大通用CTO武新所总结的底层数据处理技术的发展趋势和正在经历的巨大变革. 这个领域过去5年发展很快.热度很高,目前还在起步阶段. 1.数据价值的发现与使用 先不说什么是大 ...
- 国外医疗行业大数据应用解决之道
医疗保健不乏大数据分析应用案例,其中包括减少再住院.更好的药物治疗管理.提高战略规划和防欺诈行为. 这些意愿都很好,但关键在于从何开始?大多数医疗数据仍然非结构化的专有的和孤立的--为此创建一个临床 ...
- 三种最典型的大数据存储技术路线
三种最典型的大数据存储技术路线 近期由中关村大数据产业联盟举办的"大数据100分"线上研讨会中,南大通用的CTO.资深业界专家武新博士同众多网友分享了底层数据处理技术的发展趋势和正 ...
- 开放下载!《阿里巴巴大数据及AI实战》深度解析典型场景大数据实践
来源:开发者社区 本文约2000字,建议阅读5分钟. 阿里经济体大数据及AI典型场景最佳实践全揭秘.2019不容错过的大数据实战手册--<阿里巴巴大数据及AI实战>现在可以免费下载阅读啦! ...
- 变革!建设行业大数据的崛起
ZD至顶网CIO与应用频道 12月23日 北京消息:影片<点球成金>是部关于奥兰克运动家棒球队如何通过利用统计学和数学建模的方式分析数字,从而取得最终胜利的电影.有一个有趣的场景,就是灰头 ...
- 数字营销行业大数据平台云原生升级实战
简介: 加和科技CTO 王可攀:技术是为业务价值而服务 王可攀 加和科技CTO 本文将基于加和科技大数据平台升级过程中面临的问题和挑战.如何调整数据平台架构以及调整后的变化,为大家介绍数字营销行业大数 ...
- 百分点零售行业大数据解决方案
类型: 定制服务 软件包: bigdata business intelligence retailing solution collateral 联系服务商 产品详情 零售行业的挑战与机遇 随着互联 ...
- 电信行业大数据(大数据平台系列)
电信行业大数据(大数据平台系列) 电信行业拥有体量巨大的数据资源,单个运营商的手机用户每天产生的话单记录.信令数据.上网日志数据可以达到PB级规模.通过大数据技术,运营商可以提升数据处理能力,聚合海量 ...
最新文章
- Debian 编译内核全过程[转]
- 下一代安全工具:SHA-3
- AC自动机(写的很乱,仅记录留作自己复习)
- IncompatibleClassChangFound interface org.apache.hadoop.mapreduce.JobContext, but class was expected
- Spring主要用到两种设计模式
- java media.player_关于Java:如何正确发布Android MediaPlayer
- Linux下如何编译Android源码~~~
- TypeScript入门指南(译文)
- mysql调换数据_mysql互换表中两列数据方法
- sql azure 语法_将SQL工作负载迁移到Microsoft Azure:服务选择
- 文献阅读-Pan-Cancer Analysis of lncRNA Regulation Supports Their Targeting of Cancer Genes in Each Tumor
- Mysql添加远程访问权限
- 对AD采样信号的简单滤波处理
- 文献解读-Physics Informed Deep Learning(PINN)
- 决策树之CART(分类回归树)详解
- react实现微信分享
- 研究了1天的ckfinder记录
- LoRaWan 硬件和信道特点 TDMA的MAC协议优势
- 上海交通大学学生生存手册
- 编译调试 chromium/v8