重发前言:这是旧文重发系列的最后一篇了,后面就得动脑筋继续写了。

重要提示:本文大量提及 IP 库,您基本都可认为是第三方服务的代词,真的不是 IP 库广告,我司此业务已经不需要打广告了。;D

这么标题很长很绕口,但我确实没找到更好的标题,姑且如此,以后有更好的,修订时再改~

这个相关的内容其实我早就在 2015 年的时候就想写,自从我开始对外销售 IP 库,总会跟很多技术 Leader 就此事进行沟通,加上随着我们的知名度增加,来采集(抓/爬)数据的请求量也在逐渐增大,包括中间一次走到 DDOS 路线上去,最后就要了一份数据(要钱没有要命也不给,现在没这机会了,要 DDOS 先看看我们页脚写的声明)的事情。

我也曾经跟一些朋友私下吐槽过。但是依然觉得不公开吐一下不快,所以蹭着周五的微博吐槽与热血上脑,现在来总结个文章吐一下吧。

先写几个我现实中碰到的例子吧:

1、2014 年,有网友在我们的 QQ 群里说某知名 O2O 网站的基于 IP 的城市重定向总是出错,而我们的数据是对的,我就找朋友介绍去看能否跟他们聊聊,聊天截图也给他们看了,我们的情况也说了,结果花了一个中午的时间,最后人家淡淡的说,好,我知道了。嗯,我就知道不会有下文了。

2、2015 年,也是类似的情况,我也找了朋友介绍过去,同样花了差不多一两个小时的时间,人家说,是的,确实非常重要,我们可能还得自己搞。

3、2015 年上半年,有个公司联系我购买服务,聊到中间他说,其实我们自己折腾了两三个月,后来发现搞不定,才下决心来买的,我看玩笑跟他说,估计你们三个月的投入能购买我们好几年的服务了。

4、2015 年底,某大公司找我们要做数据测试,测试后,跟我们说,用免费版,有鉴于此,我们把免费版改成了半年更新。。。(这个在微博上发过,不过不用猜了,不是互联网公司。)

5、2016年,某互联网巨头,有人联系我们问我们可以不可以合作,我说我们最大的成本是人,而且购买服务也是合作的一种。

6、还有就是我们这次吐槽的抓数据~其实抓数据的情况,不仅仅是小公司和个人,我们也确实遇到过大公司抓的情况,也被证实和找到人了。

综上,有几种情况:

1、对数据的准确性不在乎;

2、对数据的准确性在乎,但是想捏在自己手里;

3、对数据的准确性在乎,但不想单独花钱买,或者说还不认为需要到买的地步。

但是上述提到的这些公司,对外所说的技术以及基础设施的重视程度,那可是都是有专门的PR或者技术博客的地步,但是,以小见大吧,让 ACM 获奖者做 HTML 页面的事情也不是没有过。

至今,我们已经很少再主动上门了,因为不想买的不会买,你抛媚眼也是然并卵,免费送他数据也没用,想买的自然会找到办法了解我们。。。

我很早就跟人探讨过,中国在很多领域往往是重硬件轻软件,几千万的硬件投入眼睛都不眨,遇到数据和服务的购买,那就跟要他命了一样;重自己写轻购买,宁可自己雇一堆人搞个四不像,也不愿意去有些知名度的公司去买或者外包,虽然第三方方公司的成熟度问题是另外的问题;实在搞不定不得不买的时候,估计心里想的也是,你等着。。。

这次对抓数据的吐槽,很多人回复,总结下来,有这么几个观点:

1、练习爬虫水平;

word 天,我网站何德何能,能让人单纯的只练习爬虫水平?而且我吐槽的主要根源不是被爬,而是被爬的经常 502,总是被用户和客户说来说去啊。。。

看来已经证明了爬虫水平有待提高。。。

2、"大公司流程长,审批慢,买不如抓。"

3、"一个员工凭本事抓取,一个员工给老板算了笔账提出买,你说老板会喜欢哪一个?"

4、"在公司里面,买东西是要额外上报审批花钱的,上面那帮人的脑子很多都是你们这帮程序员花大把的工资养着你们,不往死了用,死命加班,他们就感觉亏得慌。"

我的回复是"一个公司要买的东西很多,就这个看着能抓就不买了,这是什么逻辑呢?而且不在乎数据有问题会给业务带来损失吗?有某些公司真的很在意我们的更新情况的,这种公司才要赞。。。"。

5、"老板认为:数据要在自己手里。当然这个其实还是立场问题。"

我的回复是"把核心业务抓在自己手里和把所有事情抓在自己手里,是有很大区别的,你们领导怎么不自己造操作系统呢?"

6、"古人云授人以鱼,不如授人以渔。你给人家鱼,但人家就想练练捕鱼的本领,哪天你断供了,他们还可以去其他地方捕,给我也这么办。凡事换位思考就明白了。"

我想说,抓数据和自己练习捕鱼技巧,真的是两码事,你这是偷别人家种好的鱼,好吗?

有机会可以给你再深入聊聊如何做一个好的 IP 库,深入进来看看,你就知道我们这鱼还是买吧。。。

另外我们现在人也不多,现在也就十个人吧,还在招。。。

7、"我们公司痛快的购买了库,有功夫抓数据还不如弄点其他的。"

这个我还是赞同的,在成本控制范围内,能用钱快速解决的事情,坚决不浪费时间折腾。

"懂架构的重视架构的公司肯定会把 IP 库作为基础设施的必要组成部分。但是,某些管理者和boss  leader 不会这么想,所以我离职了。"

赞。

8、附带一下,有个人说"我们买了@高春辉 家的 ipip.net 收费版,对比之前用的纯真数据库,优势应该在于整理好后的结构化的数据,可以直接拿来做分析,不过运营成本涨了,接下来我们也要涨价转嫁成本给消费者了 。"

我的回复是"个人认为运营成本并没有涨,其一是你不用为纯真库的不规范花时间去整理了,如果你每个月都更新一两次,都去花时间去整理,你算算成本如何?其二是你不用为里面的不准确的数据消耗时间精力了,用我们的数据,你可能一年内都不会有用户抱怨不准的,即使有投诉,你可以简单来找我们验证正确性,这样算账如何?"

您觉得呢?

9、"除非之前用过,用户不会这么的区分的。就像看电影,没有特殊原因,大家就不太相信国产片。从微软开始,正版服务就不如盗版,必然会被集体惩罚。国产车,国产奶粉,国产的云存储,…,都在享受类似待遇。"

"其实真正问题,正版的服务让人没有信任感。"

最经典四个字,因噎废食。

10、鸟哥说的形象,"已经习惯了折腾好几个小时找盗版软件也不愿意花个几十块钱买 license, 你有啥办法。"。

有些人一贯是我穷我有理的想法。但却没发现,其实穷的是态度。跟他有钱与否无关,跟他是不是大公司无关。

来到重点吧?怎么算投入产出比才好?

一个好的技术 Leader,在算账时至少要考虑时间成本和机会成本在内。

一个好的技术 Leader,在算账时至少要考虑时间成本和机会成本在内。

一个好的技术 Leader,在算账时至少要考虑时间成本和机会成本在内。

重要事情说三遍!

假设你现在有空余的技术人员和服务器,你是觉得做跟核心业务相关的事情容易出成绩呢?还是随便去抓个业务上需要的数据容易出成绩呢?

在假设你现在的技术人员比较忙碌,业务部门 PM 们也虎视眈眈,是不是该要考虑把大家手里的事情清一清,把不重要或者至少是目前并不重要的事情,要么延后,要么购买或者外包的事情,而不是天天去抱怨人不够,单纯增加人员预算,不会干活的干法,人员永远是不够的。996上班?把你的员工变成 007 也没戏。。。

是的,很多人会把人员成本和服务器、带宽成本算做沉没成本,觉得没事不如找个事干,这种想法我觉得也是不可取,首先单纯的抓数据是没有成就感的好吗?而且明确的是有还算靠谱的地方提供服务,为什么要抓呢?就算手痒,俺们抓点人家不卖的数据不行吗?

还会有人把时间不当作成本,我公司小,我人便宜,巴拉巴拉,但终究你仔细算算,可能就会发现,公司小更要注重时间成本,因为你就没几个人,而大公司就不要提时间不是成本了,贵啊。。。

前文说到的那个大公司的情况,就是这样,我找到具体抓数据的人,他也跟我说是跟 Leader 提过,但是 Leader 不想买让他抓,但是他也很郁闷,因为抓这个事情没有成就感,后来有一天,跟我说他离职了,以小见大。。。

我的好友说的一句话,我觉得挺好,你抓的再好再牛逼,抓一年也就省了一万块,真的值得吗?

你辛辛苦苦给个工程师一个月一两万的工资,让他抓一年才一万块钱就能买到的数据,这样合适?还是让他做些更有价值,跟公司业务更相关价值更大的事情,更合适呢?

还有那种想自己做把事情抓在自己手里的,估计都是没自己真正做过,总觉得事情简单,投个俩三个人做就可以搞定了。

说句不好听的,现在技术领域这么细分,但凡算个领域,从你熟悉到你觉得可以上手试试,恐怕都得花点时间,更别说中间的踩坑到比较精通了。问题是如果这个事情是你的重点也就罢了,你可以持续支持下去,这才是你能搞定的部分,你要是搞不定呢?

在很多人眼里,IP 库不是个难题,但是在我们之前,IP 库这个痛点已经痛了很多年,谁真的搞定了呢?

从 IP 库的依赖程度上看,CDN/视频/直播公司们应该是非常非常重依赖,但是三年下来,你能看到的但凡规模大一些的,基本上都是我们的客户了,你觉得如果 IP 库对你公司并没有这么重依赖的话,你能比上述这些公司还重视?

有一个公司买的时候跟我说,不是以前不想买,是因为之前有专门的人维护,怕内部矛盾,现在人走了。。。

但是我们也有很多客户,就是负责维护和使用的部门买的啊。。。

这个帐里还少算了一个事情,就是使用错误数据,对业务的影响,如果你是广告公司,你把北京的广告错误的投给了上海人。。。

有一个公司的人跟我说,你们的数据卖的太便宜了,之前的数据问题很多,导致我们的效率一直上不去,现在我们总算不用担心这个环节了。

有句话,可能大家也经常听,也经常说,就是"专业的人做专业的事",未来将是"专业的公司做专业的事",这句话希望以后听到的越多越好。。。

之前还有人在微博上跟我聊,希望我提供一些统计数据给他,让他来说服他的同事购买,我的回答是,如果你的同事就没算明白帐,我就是提供这个数据,也是没有用的。

1.0 % 和 1.1 % 看着差别不大,不过依赖于公司规模,如果你的公司每天有 20 亿次请求或者广告投放依赖于 IP 库,你算算 0.1% 错误率是多少呢?

有些 Leader 可能愿意把精力放在提高 1ms  响应时间上,但却不愿在意这个 0.1%。。。

综上,虽然我举的很多是我们自己 IP 库的例子,但是泛化到第三方服务上去,情况不会有变化。虽然 IP 库不是所谓窄义上的 SAAS 服务,但是我们已经证明了一点,你哪怕没有竞争对手也做得产品质量很好,人家依然可以不买帐。所以这个行业里的人学会算帐,才会有更大的机会,虽然目前已经比五年前好很多了。。。

重要的是会算投入产出的帐,和找到靠谱的服务商。

专业的公司做专业的事。。。重复两遍了,够不?

针对后者,我建议:多试用比对产品,多反馈看专业程度,找已经购买的客户问使用情况。

我相信未来几年,企业化服务的公司会有很多很多,但是千万别让好的产品做出来了,却死在客户数量和付费率不够上吧。。。

再一次重复一下重点:计算投入产出比,重点不是资金和沉没成本,重要的是时间成本、机会成本、事情做的不够专业导致业务出现问题的情况和人的成就感!

人和钱,都要尽量用在刀刃上!

可以说,我们就是为了节省时间精力,导致我们拒绝了大公司的定制需求,人家可骄傲的说了,你们说个数,我们不差钱。。。

共勉吧!

--- 继续微博上的讨论 ---

总有些人认为做爬虫是个很简单的事情,比如说两三天搞定,其实这也是一个没仔细算帐的问题,爬虫代码基本上都不能写一次跑一年不用管,总得要人花时间维护,另外还要消耗服务器、带宽,还要花精力照看抓取进程处理出错,还要把数据格式化,要检查数据正确性,要把数据入数据库,,还要合并,还要保证更新,而且最难的是抓的人往往发现不了数据是否投毒。

一个税前待遇 12000 块的工程师,一年只算 12 个月,差不多一个小时 68 块的时薪,假设他每天要花一个小时维护这个事情,那么一年下来的工资是 68×22×12 = 17952人民币,还未将招人成本,管理成本,办公成本,和税费/奖金/福利成本、服务器、带宽以及其它成本计算在内,还有爬虫做的烂或者抓的不够快,爬的速度总是跟不上人家更新速度的情况,更别说一般都不会想到的法律和被抓到破绽愤而披露的风险了。。。

请再次认真考虑我的朋友那句话,"你在我这里爬一年只值一万块",而且我们只是最贵的那档 IP 库的服务才刚刚超过一万块哦。

你真有这抓的想法和预算,俺们能抓点不卖数据的吗?

你给人讲起来,至少有想象空间,在我这里,这个是负数啊。。。

什么?你不在乎这些,就是要抓?好吧,先去搞清楚我们的数据规模和更新情况再来拍胸脯。。。

行百里者半九十,你却还没出发。。。

01/18/2017

旧文重发:从第三方服务角度看各公司技术部门如何正确计算投入产出比~相关推荐

  1. 从软件工程角度看大前端技术栈

    从软件工程角度看大前端技术栈 优秀人才不缺工作机会,只缺适合自己的好机会.但是他们往往没有精力从海量机会中找到最适合的那个. 100offer 会对平台上的人才和企业进行严格筛选,让「最好的人才」和「 ...

  2. GitChat·前端 | 从软件工程角度看大前端技术栈

    GitChat 作者:韩亦乐 前言 我们都知道,大学几乎是没有 Web 前端课的.以我所在的大学为例,唯一引导我们了解 JavaScript 的也只是'人机界面'和'Web应用开发'选修课.再者,由于 ...

  3. 回顾与展望:从软硬角度看 VR 开发技术难点

    内容来源:知乎讨论 整理:屠敏,CSDN 编辑,关注 VR/AR 等领域,寻求报道或投稿请发邮件tumin@csdn.net.同时运营"CSDN VR 开发群",面向 VR/AR ...

  4. 旧文重发:IP 库的那些事儿之 2013 - 2014 流水帐版~

    重发前言:这篇文章是我在开始做 IP 库后的第一篇相关的文章,是我到现在为止,阅读量最大的文章,也是让这个事情直接上了一个台阶的文章,在这个文章发布之后的一个月内,我们增加了 60 多个客户.其实拿现 ...

  5. 旧文重发 | 爬虫工程师必须知道的几个法律案例

    专业干货!超长文,想看结论直接看文末!!! 爬虫究竟是合法还是违法的? 随着大数据的火热,数据相关行业竞争不仅"蒸蒸日上",爬虫之间的战争也越发地激烈.一篇<你的爬虫会送老板 ...

  6. 旧文重发:剑走偏锋:非主流的程序员

    这篇文章发表于<程序员>2007.06期. 剑走偏锋:非主流的程序员 引子 在冷兵器时代,大概刀剑算是主流的武器,在军营中,则以长枪.弓箭为主.然而我前两天看了一篇文章,说短棍成为现代实战 ...

  7. 旧文重发:做人、做事,做架构师——架构师能力模型解析

    这篇文章发表于<程序员>2008.04期.其中有关模型图参见: http://blog.csdn.net/aimingoo/archive/2007/06/26/1667508.aspx ...

  8. 旧文重发:苹果是怎么吃到的?

    这篇文章发表于<程序员>2008.03期. 苹果是怎么吃到的?--职业规划,从了解自己开始 克里希拉穆提有一本著作,名为<重新认识你自己>,我每每读起,都汗如雨下.克氏的每一句 ...

  9. 旧文重发:程序员的七种武器

    这篇文章发表在<程序员>杂志2007.03期的专辑"程序员的武器大家谈"中. <程序员>:请谈谈您所定位的优秀程序员应该有哪些技能?您是怎样理解程序员七种武 ...

  10. soar系统搭建_【旧文重发】Soar简介

    不飞则已,一飞冲天,这是我对学习Soar时的最初宣言.事实证明我还没到冲天的地步,只是向上稍微跳了一下.下面把我起跳的心得体会记录下来,顺便总结一下Soar的基本思路. Soar是一种通用的认知架构, ...

最新文章

  1. 逻辑回归,朴素贝叶斯,KMeans,决策树的不足和优势
  2. spring整合mybatis(入门级简单教程5)--使用mybatis的API
  3. 内存的分配方式有几种? 动态内存的的传递注意事项!
  4. Javascript中计算脚本运行的时间
  5. MVC、MVP、MVVM,我到底该怎么选?
  6. iwpriv工具通过ioctl动态获取相应无线网卡驱动的private_args所有扩展参数
  7. python recv_[Python]关于socket.recv()的非阻塞用法
  8. linux下绘图工具dia,功能强劲直逼visio - 潜入技术的海洋 - 51CTO技术博客
  9. cubemx配置usb
  10. 前端基础知识--Document的常用属性和常用函数
  11. 三十九级台阶java_蓝桥杯 -- 第三十九级台阶
  12. 在HTTPS网站安装百度分享按钮代码及其SEO外链作用
  13. Python视频处理(3)——提取视频字幕
  14. 【双卡尔曼滤波】基于simulink仿真的双卡尔曼滤波
  15. nodejs 查看下载文件路径_如何查看知网下载的caj文件
  16. java libjli.so_解决setcap导致Java加载libjli.so 失败问题
  17. 从SQLserver中导出表数据到Access
  18. java多线程(4) ----- Lock的使用
  19. 穷人靠学,富人靠抄!
  20. Redis的各种用途以及使用场景

热门文章

  1. DICOM世界观·第二章:[2]像素操作
  2. raspberry pi系统安装
  3. 企业信息化互联网转型“生死劫”
  4. Android系统应用---SystemUI之三:状态栏电池图标的显示和Android电池管理的探讨
  5. 王之泰201771010131《面向对象程序设计(java)》第十七周学习总结
  6. 网络信息安全工程师的职业优势分析
  7. ModbusRTU协议数据格式
  8. swift学习之数组、字典和字符串
  9. 字体下面有背景颜色css,CSS 颜色 字体 背景 文本 边框 列表 display属性
  10. CentOS7安装DockerCentOS7安装DockerCompose