作为一个在这个很窄的领域里踏踏实实做了七年(为了严谨,还差一天)的公司,我们从来不给客户讲一些看着高大上的名词,显得自己有多牛逼,是怎么回事就是什么回事,实事求是,也不会因为有些客户喜欢高覆盖率就把不应该标注的数据标注掉而显得自己覆盖率高,这个问题请参见之前写过的《谈如何正确理解 IP 数据的覆盖率,兼谈正确率~》。

我也始终认为产品质量会说话,也总会有人理解你的产品所代表的态度、质量和价值。你现在不需要没关系,买不起没关系,但是起码你对这个数据的认识是正确的,而不是被我们的同行(以下的同行均指国内同行)所误导。毕竟你是不是业界中的苹果、华为不是你自己重复说一千遍就是了的。终究要靠数据质量、客户口碑才行。

最近有人在问我这么一个问题,说你们的同行出去演讲时说了一大堆技术名词,诸如实时处理 BGP 数据、UNDNS 解析、主被动网络测量技术等等,来标榜他们的数据如何的好,那你们如何来证明你们的数据质量比同行好呢?

我觉得单独解释,不如写个文章出来明确说明一下比较好。

其实 IP 地理位置数据库自 90 年代起就有公司在做,如果你去专利数据库里搜索相关专利,很多的专利都是那个时代申请的,20 年的有效期,很多已经或者就快过期了。你要说这几年有什么新东西吗?我认为基本上没有,从大方向上看都是冷饭。最终拼的是谁能够把这些基础事情的工程化做到位,做到 99% 甚至 99.99% 的极致才是王道。

客户们拿到的地理位置数据库的质量实际上是看这些事情在背后的工程化是否到位,当然也要包括完整的工作方法论。你的数据来源是否覆盖足够,是否分析到位,任务如何分解合理,需要多少人手来研究分析、标注,工作量是否能够满足甚至超越这个网络一直快速变更的情况。整个数据系统和工作方法论也要随着维护范围的不断扩大和质量要求的提高,能够持续迭代支持,发现要快、判断要快、更改要改、更新要快。这些都是需要耐心去一点点的琢磨,都是水磨工夫。

我们应该把事情做好做到位超出客户预期,而不是堆砌高大上的名词,搞一个看着玄乎乎的 ppt 公开忽悠,毕竟客户需要的不是那些技术本身或者你所谓申请了多少个专利,最终需求就是你输出的 IP 对应地理位置和相关数据是否足够准确而已。

我们的观点是,你的数据实际标注和解释能力(注意,这些是抄袭不来的)跟实际网络情况相比之下有 80 分相像的,才算是将将及格,90 分才可能算是还不错,95 分才能算是高分。而做到 99 分是我们目前在努力的目标。

从流行的 8020 法则来看,数据库能做到实际网络情况的 80 分,也就算是 8020 法则里说的 80%,其余的那 20 分才是剩下的20%,而这最后的 20% 里每提高 1%,可能所对应需要消耗的人力、精力、投入都是非线性增长的了。

可惜目前的客户评估手段还是比较单一,基本上还是看覆盖率,而不看正确率,这么评估有什么意义呢?如果这么干,我推荐你买我前面文章里提到的公司的那个库,因为他全库的城市级覆盖率 99.99% 了。这覆盖率多好。:)

这些文字好像也很抽象,那么自我证明一下吧。

我们在最初制作数据库的时候,就制作了一个软件,名字叫做 BestTrace,支持各个平台,而这个工具想做好就需要前面那几个高大上的名词了。本来是给内部使用的,给一些早期客户演示的时候都觉得不错,所以就开放出来了。

简单来说,这个软件其实就是把原始的 Traceroute 命令行工具可视化,可以更方便的查看网络路径情况,比如经过哪些国家以及城市,包括运营商情况。类似的软件我所最早知道的一个软件叫 VisualRoute,但是早就不再更新。类似的软件或者网页版可以说多如牛毛,但是对比下来,只有我们自己这个是质量达到要求的。

有图有真相:

如果你作为一个相对熟悉互联网络的人,就应该可以理解,我们的输出至少看着是非常符合逻辑的,当然我们也认为完全符合实际情况。毕竟用这个软件的客户群体,有很大一部分是大大小小运营商里的技术人员,要么是做相关网络维护的,还有很多网络爱好者,我相信他们有足够的判断力,口碑嘛,我不自夸了,自行搜索吧。如果你是我们这个软件的用户,欢迎评论。

既然是可视化,我们也配套了地图路径:

总览

北美部分

欧洲部分

而我们的同行是什么样呢?无论软件版本还是网页版本,实际上要么根本没提供,要么就是简单粗暴没有任何处理的,我希望我会被同行打脸,非常欢迎同行来评论里给个地址让我去品鉴一下。

从 IP 库的角度看,这个软件的最大价值是可以自证 IP 数据库本身的质量。数据路径应该要环环相扣,这是基本功底。如果网络路径数据问题都很大,或者路径只是显示到了国家,你又如何相信末端结果显示的那个城市是对的呢?

比如下图,先不说目标 IP 的位置正确与否,问题是你上面路由器是英国,你凭什么说下面是英格兰呢?或者反过来说,目标 IP 应该是英格兰的准确率会是多少呢?

而想做好这个软件,既需要一个非常高质量的 IP 库,也需要 BGP/ASN 数据,还需要所谓的 UNDNS 解析数据,试问同行的技术如此高大上,用于落地的数据在哪里?哪里可以用?还是以商业秘密的名义,实则根本没有人搞呢?当然了,所谓的主动网络测量技术大概率指的不是 Ping 就是 Traceroute,要么就是端口扫描。这让我想起来了一个在过度包装之后往往会被人想起的一个词,请说人话。

如果你不想装客户端尝试,我们也有类似的网页版提供,请去 IPIP 官网首页导航栏右侧的工具项目里找,第一个就是。

你也不用觉得我就是找了一个数据好看的给大家秀肌肉,都是公开的,你自己可以试,如果里面有错误,欢迎反馈,用的好了,也希望推荐给周围的人用。软件下载地址也在官网首页下方。

再者,我们不但提供了 BestTrace 这个客户端软件,我们网页版 Traceroute 工具也提供了分布在全球至少 600 个左右(总数在网页上有显示)的监测点供大家免费使用,作为一个从制作 IP 库角度很基础但是有非常非常非常之必要,而且数量越多越好的基础设施,试问我们的同行们,你们有多少个?10 个?20 个?30 个?还是会拿运营商的 Looking Glass 来凑数呢?

而且还要说一下,我们为了不让客户觉得我们是忽悠人,专门制作了网页(参见阅读原文)给大家看我们每天在 IP 数据库上的工作量,那些说自己工作量很大的,也来晒晒如何?我们有 2015 年底到现在的所有数据更改历史,不怕任何一个客户提出审计的要求。而实际上客户只要做了每日数据存档,自行对比也是可以的。

最后,还是希望和同行们能在一个以数据质量为核心的事情上互相攀比,而不是要么偷偷照着我们的数据抄,要么十个员工八个销售,又或者跑到 QQ 群里卧底想撬我们的客户,你们跟我们的员工屡次推销你们产品的事情,我都是在旁边看着的。下一次就不是发律师函了。

综上,我认为同行们需要先做到以下几项:

1、为了证明自己的数据标注逻辑,请同行基于自己的能力,公开提供真实可依赖的 Traceroute 地理路径可视化能力,无论软件还是网页版本;

2、为了证明有制作全球数据的能力,请同行公开提供覆盖全球主流大城市的监测点,用于 Ping 或者 Traceroute 可视化用途,数量 200 个以上?

3、为了证明每天都有足够的工作量在跟进互联网络变化,持续为客户服务,请同行不但要做到给客户的数据实现每日更新,而且要公开提供数据的每日变更情况,比如 BGP 和 IP 数据库的。

这些能做到了, 再去跟客户说可以对标我们的数据库质量的事情吧。也希望已经购买或者想购买我们同行数据库的客户们督促他们去实现。毕竟它们也都涨价了。

来而不往非礼也,在这里也欢迎各位同行们在数据质量角度提出更多的挑战,我们一定奉陪到底。

最后问一个问题,假设现在有灯神可以许愿,而我许愿那些现在还在或者曾经抄袭我们数据的同行们都灰飞烟灭,你觉得还会剩几个?

IP 库的 8020 法则与那些高大上的名词~相关推荐

  1. IP 库的那些事儿之 2013 - 2014 流水帐版

    @高春辉 2014 年 11 月 好吧,我先承认我写这篇文章的目的之一是希望各位能重视 IP 库,而不是某个开发人员随便从某些地方就下载一个用然后万年不更新,或者虽然更新,但是 IP 库本身不准确,导 ...

  2. 旧文重发:IP 库的那些事儿之 2013 - 2014 流水帐版~

    重发前言:这篇文章是我在开始做 IP 库后的第一篇相关的文章,是我到现在为止,阅读量最大的文章,也是让这个事情直接上了一个台阶的文章,在这个文章发布之后的一个月内,我们增加了 60 多个客户.其实拿现 ...

  3. 中国地理区域IP库整理

    一.前言    此文应朋友需求进行整理,内容为中国行政地理区域IP库整理第一步:根据apnic分配给中国的IPv4地址,进行whois信息筛选划分出ISP.及地域IP库,以及生成脚本.网上之前也有类似 ...

  4. 纯真IP库的结构分析及一个查询类

    个人网站上有个功能,记录访问者的IP及其归属地.最初我偷懒通过一个WebService来查询IP归属地,后来觉得通过这种方法响应时间长,资源耗费大,而且对那个WebSerice的依赖度太高,如果它挂了 ...

  5. php基于新浪ip库获取城市,PHP基于新浪IP库获取IP详细地址的方法

    [导读]这篇文章主要介绍了PHP基于新浪IP库获取IP详细地址的方法,涉及php正则.curl及编码转换相关操作技巧 本文实例讲述了PHP基于新浪IP库获取IP详细地址的方法.代码如下<?php ...

  6. redis缓存原理与实现_基于Redis实现范围查询的IP库缓存设计方案

    点击上方"码农沉思录"  发现更多精彩我先说下结果.我现在还不敢放线上去测,这是本地测的数据,我4g内存的电脑本地开redis,一次都没写完过全部数据,都是写一半后不是redis挂 ...

  7. C# 调用IP库(QQWry.Dat)查询IP位置及自动升级IP库方法(附IP库下载地址及相关dll下载)

    前言 C# 用IP地址(123.125.114.144)查询位置(北京市百度公司)的东西,非常好用也非常方便,可手动升级刷新IP库,一次编码永久收益,可支持winform.asp.net等程序. 本文 ...

  8. C# 调用IP库(QQWry.Dat)查询IP位置及自动升级IP库方法(附IP库下载地址及相关dll下载)...

    前言 C# 用IP地址(123.125.114.144)查询位置(北京市百度公司)的东西,非常好用也非常方便,可手动升级刷新IP库,一次编码永久收益,可支持winform.asp.net等程序. 本文 ...

  9. python ipaddr库_用Python脚本查询纯真IP库QQWry.dat(Demon修改版)

    #!/usr/bin/env python # coding: utf-8 # from: http://linuxtoy.org/files/pyip.py # Blog: http://linux ...

  10. 使用redis存储全球IP库

    将本文以行表形式存储于关系型数据库中的IP信息库,通过转换,存储到key-value型的Redis库中,以加快查询的速度.本文通过使用Redis的散列类型和有序集合类型来实现这种需求. 在工程中常有这 ...

最新文章

  1. 2020 数据分析岗位报告:数据分析师需要哪些能力?
  2. SVN 提交子文件夹问题
  3. SpirngMVC通过Ajax传递多个对象
  4. Leet Code OJ 20. Valid Parentheses [Difficulty: Easy]
  5. java23种设计模式之五:代理模式
  6. java中包容易出现的错误及权限问题
  7. c#没有指针导致的性能问题研究一二
  8. 简约几何艺术海报PSD分层模板,即使简单也足以控制观众的注意力。
  9. [在线+源码]vue全家桶+Typescript开发一款习惯养成APP
  10. 华为 会议室分配时间最长_解决方案—会议室预约多入口超融合
  11. Java旅游网站源码+页面
  12. 计算机的有关英语单词大全,与计算机相关的英语词汇汇总
  13. 数据结构-二叉树的定义、创建和周游(前序、中序、后序和层序)
  14. [Windows]卸载Office 2016密钥
  15. ctfshow萌新赛web
  16. Word文档生成神器:开源项目poi.tl使用介绍
  17. Mysql 主从架构之-主从配置
  18. 国际象棋java_国际象棋源代码-JAVA
  19. 数据中心水蓄冷削峰填谷的经济性分析
  20. kafka Java客户端之 consumer API 消费消息

热门文章

  1. 推荐一款windows下好用的文件夹加密、文件加密软件(含使用说明)
  2. Nexus下载安装及对接
  3. 贷前调查必须采集的十大客户信息
  4. java面试官如何面试别人
  5. 概率统计学习笔记(7)
  6. 【算法学习】蝙蝠算法简介
  7. 蝙蝠算法的matlab程序,多目标蝙蝠算法
  8. eclipse中文版设置字体大小
  9. c语言实现开方,c语言开方(c语言开平方代码)
  10. 斑马打印机linux驱动安装教程,win7系统安装斑马打印机驱动的操作方法