为啥要做ID Mapping?

其实技术都是为了解决实际业务问题的。如果没有数据孤岛的问题,也就不会有这波澜壮阔的数字技术发展和改革。

在 10 多年前的时候,当时IT界都还在做“四库十二金”的项目。我就接了这么一个活,就是把一个地区的所有地址给弄干净。这可就费劲了,因为同一个地址有 N 多种写法,比如说“大裤衩”,全称叫“中央电视台总部大楼”,门牌号是“北京市朝阳区东三环中路32号”,也有别称叫“中央电视台新址”,而且还有具体经纬度。

这么乱的情况,一不小心就给弄错了。我们当时接的项目就是把这乱七八糟的地址给统一了,给地理信息库提供基础数据。这上那弄去啊?太费劲了好么!

我们当时是怎么弄的呢?说来也很简单,就是比对。写规则比对,简单规则对不上,就用复杂规则对,复杂规则还对不上,就肉眼雷达看。先对大厦、门牌号啥的做清洗,把错别字等都清洗好。然后以相对比较精准的数据源为准,匹配一波,相同的先打上标记。然后把类似的也放一边,最后把都匹配不上的放一边,最后把经纬度也加上一起看。最后再人工肉眼雷达过两遍,最后剩下的就不管了。

这太痛苦了!不过我那时候技术不行,不知道用高技术。百度这边就用图数据库解决这个问题,现在在百度上搜索啥都给你弄出来:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B3UPKbSs-1649210737083)(data:image/gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVQImWNgYGBgAAAABQABh6FO1AAAAABJRU5ErkJggg==)]

在互联网场景中,

【数据治理】One ID中的核心技术ID-Mapping究竟是怎么实现的相关推荐

  1. One ID中的核心技术ID-Mapping究竟是怎么实现的?

    点击上方 "云祁QI"关注, 星标或置顶一起成长 网上讲 ID Mapping  的技术文章不多,正好看到彭文华老师的这篇文章,分享给大家,我们一起学习,共同进步. 为啥要做ID ...

  2. 物理隔离与数据交换-网闸中的核心技术

    网闸中隔离控制技术的几个发展方向 网闸不同于防火墙,也不同于堡垒机,是因为网闸从物理上保证内外网的不互通,其中隔离控制部分是实现这个物理隔离的关键.这里重点分析目前流行的几种技术: 1.摆渡交换技术 ...

  3. 工业数字化转型中的数据治理

    随着数据资源的爆炸性增长,企业面临着数据标准不统一.数据信息分散.数据质量参差不齐.开发维护困难等问题,很难满足实时分析和决策的高要求.因此,数据治理对于工业互联网的发展至关重要. 1 数据治理发展现 ...

  4. 工业企业数字化转型中的数据治理

     关注ITValue,看企业级最新鲜.最价值报道! 作者:汪洋 王柯 张桃宁 韩蕊 彭艳兵 汤国强 来源:<信息技术与网络安全>2022 年第 4 期 随着数据资源的爆炸性增长,企业面临着 ...

  5. 如何进行有效的数据治理,提升数据价值?

    在数据应用过程中,数据采集和数据治理是两大核心抓手.本文继<方法论 + 实践,全面解析数据采集方案>之后,作者王灼洲通过两大挑战.三大原则详细阐述了对于企业数据治理的思考.主要内容如下: ...

  6. 神策数据王灼洲:如何进行有效的数据治理,提升数据价值?

    在数据应用过程中,数据采集和数据治理是两大核心抓手.本文继<方法论 + 实践,全面解析数据采集方案>之后,作者王灼洲通过两大挑战.三大原则详细阐述了对于企业数据治理的思考.(文末附 PPT ...

  7. 50%企业数据治理失败!这9大要素才是成功关键

    导读:企业数据治理的9个要素. 作者:用友平台与数据智能团队 来源:大数据DT(ID:hzdashuju) 知名咨询公司Gartner的调研显示,在实施数据治理的企业中,有34%的企业数据治理处于良性 ...

  8. DGI数据治理框架 全面解读

    本栏目的首发平台是微信公众号,欢迎扫描下方二维码关注,干货文章第一时间送达! 作者丨石秀峰 来源丨谈数据(ID:learning-bigdata) 全文共4537个字,建议阅读需12分钟 早上好呀!紧 ...

  9. 美团酒旅数据治理实践

    数据已成为很多公司的核心资产,而在数据开发的过程中会引入各种质量.效率.安全等方面的问题,而数据治理就是要不断消除引入的这些问题,保障数据准确.全面和完整,为业务创造价值,同时严格管理数据的权限,避免 ...

最新文章

  1. 这些算法在印度农村医疗中发挥极大作用,未来还将发挥哪些作用?
  2. python实现简单的情感分析
  3. es6 中的generator函数控制流程
  4. CTFshow 命令执行 web122
  5. Java设计模式中的六大设计原则
  6. jar 工程我怎么在网页上url访问某一个方法_搜狗用这个骚技术,把百度逼上了绝路。。。...
  7. 游戏美术经验分享:如何提升游戏角色设计能力
  8. struts2学生信息管理系统篇章③
  9. SAP Hybris backoffice登录时的语言选择
  10. 【vue开发】vue插件的install方法
  11. 17-Docker的数据持久化介绍
  12. js 字符串插入_Vue.js 条件与循环
  13. vision安装过程中出错_scrapy安装过程中之Twisted的安装遇到的坑
  14. python代码实现自动登录
  15. Reed-Solomon Codes——RS纠错码
  16. 噪声调相干扰matlab程序,噪声调相干扰信号的性能仿真
  17. EasyExcel 读.CSV 文件数据为null或乱码问题
  18. IMX6Q安卓解开温度墙,设置高性能模式
  19. Html网页远程控制电脑,如何从Web浏览器远程控制您的计算机 | MOS86
  20. 优秀网页翻译:高精度 10MHz GPS 驯服钟 (GPSDO) - Part 1

热门文章

  1. centos七部署nginx+haproxy+nfs操作步骤
  2. 怎样使用nat和桥接方式解决虚拟机联网问题
  3. 在数据库历史上最重要的人物简介
  4. 智能机器人技术综合实训课程说明
  5. 2018(2017)美图java服务端笔试(回忆录)
  6. FaceShifter:新的人脸交换模型
  7. POI之Excel简单导入
  8. 英语语法最终珍藏版笔记- 20倒装
  9. 用管理员权限打开vs2010并调试网页游戏辅助,使用WPE无法抓包的解决方法
  10. 值得2019年创业的互联网项目 小程序创业月入10万不是梦