大数据融合技术:问题与挑战
大数据融合技术:问题与挑战
本文为《大数据融合研究:问题与挑战》的总结。
概述
数据的特点:
- 多元性——数据类型多样;数据内容“维度”多样;数据所涉及的知识范畴的“粒度”多样
- 演化性——指数据随时间或解释的变化而变化的特性
- 真实性——由实体的同名异义、异名同义表示以及关系的变化引起
- 普适性——指在认知范围内达成共识的特性,例如“老师”和“蜡烛”具有该特性
数据湖:数据集成的对象,即数据与知识的复合体。传统的关系型数据是先有模式(表)再有数据,而数据湖是先有数据再有模式。
大数据融合:建立数据间、信息间、知识片段间多维度、多粒度的关联关系,实现更多层面的知识交互,从而聚敛出数据湖中的“波纹”(即语义关联的紧密程度)。
大数据融合存在的问题:
- 割裂的多源异构数据
- 数据规模与数据价值的矛盾
- 跨媒体、跨语言的关联
- 实体与关系的动态演化
- 知识的隐含性
现有技术
普遍采用3V(海量、高速、类型多样)特性下的集成技术。关键技术:
- 模式/本体对齐:利用属性名称、类型、值的相似性以及属性之间的邻接关系来寻找源模式与中介模式的对应关系。所需关键技术:
- 演化模型——检测模式映射的演化,尽力而为、模糊回答
- 概率模型——将中介模式按语义表示成源属性的聚类,源模式会出现与其有不同程度对应关系的多个候选中介模式,然后根据查询请求为每个候选中介模式分配一个备选概率来确定最佳映射
- 深度匹配——基于潜在的语义匹配
- 实体链接:关键在于实体识别,主要是识别相似实体(相似:多个命名实体可对应到一个真实实体)和消除实体歧义(一个实体可对应多个真实实体)。可分为:
- 面向非结构化文本的命名实体识别与消歧——先后出现针对单查询、文档、短文档及社会媒体3种类型的识别方法
- 面向结构化数据的的记录链接——从数据集中识别和聚合表示现实世界中同一实体的记录
- 结构化与非结构化数据之间的复杂数据实体关联——核心为表象消歧,即建立结构化与非结构化实体之间的链接关系
- 冲突解决:从所有冲突中甄别正确的值。这些冲突可分为:
- 模式冲突——由数据源的模式异构引起
- 标识符冲突——指异名同义现象
- 数据冲突——同一属性具有多种不同的值
- 关系推演:自动找到关联数据中的路径模式和自然语言中的关系词汇之间的对应关系。关系推演包括以下3种情况:
- 已知一个实体和一条关系推断另一个实体,或已知两个实体预测之间的关系——①
- 实体间间接关系的推理——②;①、②采用嵌入表示和图特征模型进行关系的推理与预测
- 关系的演化度量——实体关系的演化,表现在聚类随时间的变化,涉及软聚类、2阶段聚类方案扥等
现有技术的局限性
实体链接技术的局限性
问题1:现有的实体链接基本是实体识别、冲突解决、共指识别串行化执行,忽略了此三步之间的彼此相互影响。这样存在三个方面的弊病:
- 实体识别过程中产生的错误会依次向后续过程传播,且该错误不可恢复
- 共指识别和冲突解决的结果不能向前反馈
- 实体识别过程和冲突解决过程可能会产生不一致输出
实际中这三者相互影响:实体识别为冲突解决和共指识别提供更多的特征,同时冲突解决和共指识别为实体识别提供已消歧的链接信息辅助聚类。针对该弊病,现在研究热点为交叉迭代。
问题2:共指识别还面临实体关系的演化带来的挑战。已有方法没有考虑可靠性和更新程度、局部决策对与之关联表象的影响,并且直接面向动态数据,演化模型依赖于训练数据集和演化证据的质量,匹配精度高,但是时间代价在大数据环境下无法承受。
问题3:复杂实体关联方法在适用范围、准确率等方面都存在不足,主要有:
- 非结构化数据一般不显式包含属性名,其实体属性不一定到出现在结构化数据中,结构化数据中实体属性也不一定能在非结构化数据中找到对应
- 新实体的发现是一大难点,关键在于相似性判断阈值的确定没有有效解决办法
- 大数据融合面向跨语言融合迈进,该方面研究成果不多
冲突解决技术的局限性
问题1:消歧方法依赖于实际参照数据(数据标注)的可用性,参照数据缺乏领域性和针对性,使得实用性变窄
问题2:信息的质量直接引发冲突
关系推演技术的局限性
问题1:关系推理目前只考虑了直接关系和路径关系的推理,缺乏对关系之间复杂模式的考虑
问题2:演化建模对冲突识别与解决影响很大,虽然现有方法捕获了实体属性值的变化,但没有考虑属性值变化的复杂模式
大数据融合技术:问题与挑战相关推荐
- 大数据可视化技术面临的挑战及应对措施
来源:科技导报 本文约5400字,建议阅读10分钟 本文介绍了适用于大数据的数据可视化技术,讨论了针对大数据可视化应用需求自主研发的交互式可视化设计平台AutoVis及其应用. [ 导读 ]本文从大数 ...
- 大数据可视化技术挑战和措施
数据可视化在大数据场景中面临许多新的挑战,包括数据规模.数据融合.图表绘制效率.图表表达能力.系统可扩展性.快速构建能力.数据分析和数据交互等. 数据规模 大数据规模大.价值密度降低,受限于屏幕空间, ...
- 【大数据】AI、IoT、区块链这些技术与大数据融合,大数据基础软件干货不容错过
作者:刘学习 | 小编:阿软 在IT产业发展中,包括CPU.操作系统在内的基础软硬件地位独特,不但让美国赢得了产业发展的先机,成就了产业巨头,而且因为技术.标准和生态形成的壁垒,主宰了整个产业的发展 ...
- 孙家广院士:大数据软件的机遇与挑战
来源:科技导报 本文约1600字,建议阅读5分钟 大数据作为产业发展的创新要素,在数据科学与技术.商业模式.产业格局.生态价值与教育层面,均带来了新理念和新思维. 2019年,大数据.数据科学.机器学 ...
- 海洋大数据关键技术及在灾害天气下船舶行为预测上的应用
海洋大数据关键技术及在灾害天气下船舶行为预测上的应用 王冬海,卢峰,方晓蓉,郭刚 中电科海洋信息技术研究院有限公司,北京 100041 摘要:随着海洋数据量的爆炸式增长,海洋大数据受到越来越多的关注. ...
- 【2017年第4期】流式大数据实时处理技术、平台及应用
陈纯 浙江大学计算机科学与技术学院,浙江 杭州 310058 摘要:大数据处理系统根据其时效性可分为批式大数据和流式大数据两类.上述两类系统均无法满足"事中"感知查询分析处理模式的 ...
- 【2017年第2期】应用驱动的大数据融合平台建设
孟祥飞, 冯景华, 赵洋, 夏梓峻 国家超级计算天津中心,天津 300457 摘要:论述了大数据在信息社会发展中的核心地位和对信息技术创新的全方位驱动:重点阐述了应用驱动的大数据和超级计算.云计算融合 ...
- 大数据可视化技术的作用有哪些
在大数据时代,数据可视化技术在广泛应用的同时,也面临诸多新的挑战.大数据可视化是一个面向应用的研究领域,本文重点从应用实践的角度,讨论在大数据背景下大数据可视化内涵.研究进展.相关技术与产品以及所面临 ...
- 全面解析流式大数据实时处理技术、平台及应用
一. 引言 大数据技术的广泛应用使其成为引领众多行业技术进步.促进效益增长的关键支撑技术.根据数据处理的时效性,大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类.其中 ...
最新文章
- 2018网站信息系统安全等级保护限期整改通知书的处理解决方案
- AgileEAS.NET平台开发实例-药店系统-数据库还原
- php json返回sql,php – 如何从我的特定SQL查询中返回json?
- Web服务器面临的五种应用层DOS威胁
- 解决win7“该文件没有与之关联的程序来执行该操作”
- 基于人人网的Android开发流程介绍
- 查询某个字段值为null的记录
- windows2008下运行环境部署(iis,ftp,oracle)
- 各类电商购物网站商城系统静态网页html制作(含静态网站源码)
- 如何高效实现内外网切换?是个网络工程师,都在用它
- 解决steam无法启动gta5报错msvcp140.dll丢失
- 计算机显卡风扇有异响,电脑运行中有异响,拍一拍就好了,原来好多人还不知道问题在哪!...
- 有道无术,术尚可求,有术无道,止于术
- 在讯用矿物质防火电缆时应该注意什么?
- 快速原型工具,帮你从0开始画原型图!
- HTML制作虾米音乐,最新虾米音乐电台调用代码
- 360路由器远程连接服务器,360路由器设置好了不能上网的解决办法
- shape属性详解使用
- ASICC码对照表整理
- JavaScript关于exec()函数的理解
热门文章
- 报错 Entry name ‘AndroidManifest.xml‘
- 动态规划法求解资源分配问题
- 工程导论-绪论 读书感想
- klee 检测漏洞-四个实例
- 内地香港签司法协助安排 9成民商事案件判决有望互认
- Objective Quality Assessment of Tone-Mapped Images
- echarts 折线图 设置y轴最小刻度_手把手教你玩转echarts(二)折线图
- jquery实现app开发闹钟功能_趣味闹钟APP开发,随意切换闹钟叫醒功能
- php switch
- Redis安装与配置、centos虚拟机上配置自启动redis服务