信息搜索是利用“互联网大脑”来学习的必备技能。

本文主要内容如下:

  1. 搜什么,即搜索的主题确认(clarify the target);

  2. 在哪搜,选择合适的资源库(match the source);

  3. 选信息,使用筛选规则和排序规则挑选有效信息(pick valuable info)。

1 搜什么

1.1 分解目标

搜索是为了解决一个问题,但解决问题可能不是通过一次提问就能搞定的,搜索也是如此,可能需要进行一系列搜索才能发现答案。

e.g. 2012年考研复试的时候,我想知道复试面试大概会考察哪些内容,提出的问题如下

  • 谁会提前知道面试的内容?保研的同学大概率是知道的,保研的人会提前批,也会提前面试

  • 到哪里找保研的同学信息呢?学院网站应该有公布

  • 怎么联系上这些人?人人网啊(那会人人网还没有倒闭)

就一样一步步顺藤摸瓜找到了保研学生的姓名以及先前的学校、院系,然后就根据这些信息到人人网搜索。

注:可能会有重名的情况,不过加上好友可以向对方确认是否是保研到XX学校的即可。

盲目地“直接搜”索很可能徒劳无功,对要所搜的问题要细化拆分成分步骤的小问题可能更加高效,尤其是要搜索的目标是一个复杂或者不清晰的问题时。

1.2 精确描述

精确描述你要搜索的问题,不管你提问的对象是人还是“互联网大脑”,提问的技巧也是快速获得信息的关键点之一。

这里非常推荐一篇文章:提问的智慧

https://github.com/ruby-china/How-To-Ask-Questions-The-Smart-Way/blob/master/README-zh_CN.md

不管你是否关注技术,这篇文章都有参考价值,一个聪明的提问可能就意味着发现一个机会。

提问的时候应该像回答医生的问题那样:当前症状有哪些,症状持续几天了,发病前有没有哪些疑似致病因素,以前有没有类似的情况等等。

精确描述问题时,需要注意:

  • 说清问题的场景信息,在什么场景下遇到什么问题,以及期望得到什么样的结果,e.g. 在win7 32位系统上安装xx软件,报了xx错误;

  • 专业术语要用对,英文要全拼而不是用缩写。e.g. 刚入职那会,别人提到ROI这个词,我脑袋中闪现的第一个单词是 Regin of Interest(感兴趣区域,认知神经科学研究中的一个术语),后来慢慢的ROI这个词的在工作中的场景才切换到Return on Investment(投资回报率),如果你要查关于“投资回报率”的英文资料,那就需要用全拼写,说不定还有其他缩写是ROI但含义大相径庭的名词;

  • 小心限定词带来有偏结果,这就像你看评论的时候只筛选“差评”一样,如果你要获得全面的无偏信息,那就要注意限定词,比如评价好坏的词语,相对较好的方式可以参考知乎体“如何评价xxx”;

1.3 用对关键词

给本文找封面图的时候,发现图片关联了一篇新闻,新闻摘要截图如下:

新闻来源:http://www.sohu.com/a/260267997_118792

我一看,这产品不错啊,想找官网看看,使用关键字“Journal”先百度一下,预料中地呵呵了,然后用Bing国际版搜索发现也不行,这个单词太宽泛了(搜出来全是各类期刊),然后开始扩展关键字来缩小搜索范围(后面都是用Bing搜索):

  • "social capital",这个是投资公司的名字,国外应该也有报导吧,报导的时候可能会提到官网;

  • "search engine", 这个产品本质还是搜索引擎,加上这个关键字应该可以;

不过,即使加了上面两个关键字还是“然并卵”。

继续回来读新浪新闻的报道,发现文章有提到CEO的名字(Samiur Rahman),太好了,名字的特异性非常强,于是重新用“Journal Samiur Rahman”关键字搜索,找到了这位CEO的Linkedin信息,上面正好有公司的信息——UseJournal,再搜索该产品名称,这个产品的官网终于出现了。

CEO大哥的Linkedin简介

上面这个例子说明,关键词的特异性很重要,特异性强的关键词直接可以过滤掉大部分的无用信息。

当然,有时候关键字不是这么好找的。

e.g. 面试中遇到一个问题,我把这个问题抽象为“对一群对象的多个维度评估,并计算综合得分,以此得分来评价这群对象中每个个体的好坏”,比如网易云音乐推出的”音乐人指数“。

注1:音乐人指数可参见:https://music.163.com/nmusician/web/faq/level#/

注2:刚开始考虑信用评分卡属于这类”评分“方法,不过后面想来综合评分的场景是没有标签的,不像信用评估要区分好和坏的标签,也就是说评分卡技术是”有监督方法“,综合评分更类似于”无监督方法“

我想搜索的信息是,这种计算综合评分的方法论是什么?

第一次搜索关键字:“多维度 综合评分”,无果;

第二次关键字扩展:“多维度 综合评分 方法”,浏览结果发现一条重要信息

截图来自百度搜索结果

文章点进去发现,果然和我想要的内容有关,这个时候的关键字可以调整为“模糊综合评价法”,然后分词拆解,“模糊”是修饰词,有可能意味着“模糊综合评价法”只是”综合评价法“的一种。然后用百度搜索“综合评价法”这个关键字,果然找到了相关信息。一般方法论都有著作论述,然后就在当当网上用”综合评价法“搜下看有没有相关的书,还真有,查看书的目录,再次验证这类方法名称就叫“综合评价方法”,模糊综合评价只是其中一种方法。

注:想深入了解”综合评价方法“,可以参考以下书籍:

  • 综合评价基础方法及应用,张发明,科学出版社

  • 现代综合评价方法与案例精选,杜栋 等,清华大学出版社

  • 层次分析法及其应用案例,张炳江,电子工业出版社

”动态调整关键词“时,除了从已知信息和搜索结果中提取扩展信息外,还需要注意”备选关键词“,常用的方法:

  • 横向拓展,e.g. 同义词转换、中英互译等;

  • 纵向拓展,向上找群体特征(更抽象),e.g. 各种指数的本质是多维度综合评分;向下找具体案例或者细分领域,e.g. 综合评分不同方法的案例。

2 在哪搜

2.1 匹配合适的资源库

最常见的搜索引擎是百度、Google、Bing这3家,这些属于”全网”搜索引擎(常见的问题基本都能搜到)。垂直搜索引擎也很常用,比如电商网站里面搜索商品、搜狗微信搜索等、网盘资源搜索等。

如果把搜索引擎比作管道,那么管道对接的就是“资源池”。

这里不谈搜索引擎这个管道,而是谈资源池,要根据搜索的信息来选择合适的资源池。这个有点类似“精准营销”,在“目标信息”高度集中的地方搜索,才能省时省力,事半功倍。

e.g. 我想看某个关于数据分析专题的文章,那么我会到两个地方搜,一个是微信公众号,另一个就是知乎,因为从我的经验来看这两个地方的文章质量整体都还可以(或者说找到好文章的概率更大)。

e.g. 如果我想看一本英文书有没有中文版,就用英文书名在亚马逊上搜索即可,如果有中文译本,那么搜索结果也会一并列举。

e.g. 如果发现某个作者的作品很好,想看作者的其他作品,怎么办?如果这个作者是中国人,那么直接用百度百科、豆瓣读书搜索作者名即可;如果是外国人,那么找到作者的英文姓名,然后用找到这个作者的Wikipedia词条,一般都有Bibliography记录的。

2.2 建立自己的资源库

简单理解,建立资源库就是搜集资源网站和文章。在头脑中建立索引——”要找XX信息可以去XX网站“。

因为个人的专业、职业、兴趣爱好不一样,资源库的建立要看自己的具体需要。

以下列举个人常用的资源库,仅供参考:

  • 找轮子:GitHub,oschina

  • 找教程:runoob,tutorialspoint,wikihow,知乎

  • 找电子书:libgen,鸠摩,书格(古籍)

  • 看书评:豆瓣,当当,微信读书

  • 找租房:58同城、咸鱼、微博、公司论坛(对,你没看错,咸鱼和微博上也是可以找租房信息的)

  • 找图片:Unsplash,Pexels,Hippopox

  • 找菜谱:王刚视频,香哈菜谱

如果你要找书单或者其他清单、资源网站等,网上一搜一大把,要试用并挑选适合自己的,如果是专业性强的资源,还可以找同行、同事交流推荐。

看评价的时候要记得“仅供参考”原则,不要被他人的评价误导,适合别人的不一定适合你,反过来不适合别人的可能恰恰适合你。

这里还要提一下”关联推荐“:

e.g. 看读者评论时发现推荐了另一本很好的书,看书的时候作者引用了很好的一篇文献等;

e.g. 在当当、京东、亚马逊搜索图书的时候会在搜索结果或者商品详情页”推荐“书,这些书也可能有用;

e.g. 搜索到一篇很好的文章,顺便可以浏览下该网站的其他文章,如果文章质量都很好,那么该网站可以纳入资源库(该方法同样可以用于筛选微信公众号)。

注:如果初涉某个领域,最好读一下综述性的文章或者教材,综述资料通常都会覆盖该领域的主要论题或者方法、流派等,同时还会给到文献指引,从这个意义上讲某个领域的综述文章也属于”资源库“。

有时候你可能只是对某一篇文章感兴趣,而不是整个网站,那么就需要收藏文章,可以使用在线笔记软件来管理收藏的文章(这样便于检索),此外,还要避免“只收藏不阅读”的习惯,定期阅读收藏的文章,然后进行笔记整合或者分类保存。

3 选信息

不是所有搜索的结果都是你要的,铺天盖地的广告、制造“怪力乱神”的无良媒体等,总会遇到一些乱七八糟的东西想来骗取你的注意、浪费你的时间。

选择信息时需要有两个规则:

  • 筛选规则,也就是那些东西要剔除、哪些东西要留下,选出和你搜索的主题相关的内容;

  • 排序规则,信息质量参差不齐,要选择那些价值高的文章。

3.1 筛选规则

分成两部分,第一部分涉及到搜索引擎的技巧,使用得当的技巧,搜索引擎能“自动”过滤一部分不相关的信息。

e.g. 以前在天猫上搜东西,总是会出现很多韩版的款式(但是我很不喜欢”韩版“这个标签),然后搜索的时候可以这样“男 短袖 T恤 - 韩版”,这里的“-”号就是“剔除的”

更多搜索引擎使用技巧可以参考如下文章:

  • https://jingyan.baidu.com/article/925f8cb8c78839c0dde056a8.html

  • https://www.zhihu.com/question/28013848 

但是,有时候我们对要搜索的对象没法做到精确描述(你都不知道那是啥),甚至不知道搜索对应的资源池(比如我找“综合评价方法”的那个案例),那就需要你来“手动”筛选了,挨个点开那些疑似目标的文章链接,看看是不是你要的东西,一般浏览搜索结果的前两页就行,手动排查一遍还没有要找的东西,那就需要调整搜索的关键词了。

不管是“自动”还是“手动”,以下都是可以参考的“剔除”规则:

  • 搜索结果中带有“广告”标签,参考百度搜索

  • 主题和搜索目标无关的,e.g. 你想要找馒头的做法,却出现了馒头机的介绍

  • 点链接进去,发现广告满天飞的

  • 标题情绪色彩非常重的,e.g. 震惊体文章

  • 信息源不靠谱的,e.g. 早先已经上过当,干脆拉进黑名单

  • 更多可以参考如何识别虚假信息

3.2 排序规则

排序规则有点类似上文提到的“综合评价方法”了,要从多个维度考察文章的质量。排序规则就是对文章的质量进行排序,文章的质量主要考察3个维度:

  • 关联度,即和搜索的目标是否高度相关,“离题太远”的就不要看了;

  • 可信度,信息可不可靠,是否是一手信息,发布者的专业度、权威性,文章的目的、数据、逻辑、推论等是否可靠;

  • 完整度,就是信息的广度和深度,有的是浅尝辄止,甚至只是写了个开头,然后就开始卖广告……

也可以通过外部评价信息来判断文章的好坏,比如文章的阅读数、转发量、点赞量等。不过这些“仅供参考”,还是要看自己的具体需求。

最后,用思维导图总结下全文。

每天进步一点点:数据分析1480

长按扫码关注我

教你如何高效地实现信息搜索相关推荐

  1. 手把手教你如何高效落地单项目管理 | 一看既会

    手把手教你如何高效落地单项目管理,云效Projex是新一代企业级研发协作平台,集成了敏捷研发项目管理的最佳实践,提供了针对项目.迭代.需求.缺陷等多个维度的协同管理以及相关的统计报告,让研发团队高效协 ...

  2. 高效工作的信息搜集及管理术

    转自:http://heidixie.blog.sohu.com/247551250.html 图1:信息搜集及整理术循环图 本文经授权刊载于<程序员>杂志2012年12月期刊.请勿转载作 ...

  3. 【转载】高效工作的信息搜集及管理术

    [align=center][img]http://dl2.iteye.com/upload/attachment/0087/8386/25e753a4-9112-3ec2-a9ef-742bdca5 ...

  4. [转]高效工作的信息搜集及管理术

    图1:信息搜集及整理术循环图 本文经授权刊载于<程序员>杂志2012年12月期刊.请勿转载作为商业用途. 写在前面 几个月前,团队邀我做次内部的分享,主题是如何有效搜索信息.这是因为平时工 ...

  5. 教你5分钟实现百度首页搜索框,2分钟即时上线

    做前端的,薪资真的那么高吗? 我们用数据了解一下. (数据来自:职友集) 从表中可以看出,有94.7%的前端工程师月薪可达到10k,将近30%的人能够达到20k-30k,更优秀的工程师月薪可达到30- ...

  6. 最新综述:从多个角度介绍多模态对话信息搜索(MMCIS)任务

    ©PaperWeekly 原创 · 作者 | 金金 单位 | 阿里巴巴研究实习生 研究方向 | 推荐系统 简介 交互性是信息搜索任务的核心,人类对话是最自然的交流工具.几十年来,这一直激励研究人员和从 ...

  7. 朱丹老师课程学习笔记:1、信息搜索-全面快速查找全网中你想要的任何信息

    在这个信息量爆炸.知识量剧增的时代,我们都有这样的体会,用搜索引擎搜索任何的关键词都会有上百万的信息量,而其中对我们有价值的信息却是寥寥无几.但我们每个人的时间和经历都是有限的,在这种情况下,如果想要 ...

  8. 如何更高效地使用Google搜索

    实用的搜索技巧和学习在一堆结果中快速地找到最好的信息 这个搜索过程还包括决定何时依赖谷歌,何时使用学术数据库,但在基本层面上,似乎很多人都不知道如何最好地找到他们使用谷歌搜索的信息. 教你如何用先进的 ...

  9. 人工智能学习笔记(三)有信息搜索

    问题求解agent 背景介绍 一.问题描述 二.A星算法和启发式函数(heuristic function) 三.可采纳性和一致性 1.可采纳性(admissible) 2.一致性(consisten ...

最新文章

  1. APIO2019解题报告
  2. 开源代码维护人员大诉苦水,超半正考虑或已经决定放弃
  3. PHP垃圾回收机制防止内存溢出
  4. Windows下nginx-http-flv-module服务部署
  5. 图文解说:Nginx+tomcat配置集群负载均衡
  6. 初步认识Volatile-CPU高速缓存
  7. android studio gradle 打出jar,同时将依赖的第三方jar打包在一起
  8. .Net Core应用框架Util介绍(五)
  9. 预售┃连锁反应装置积木好玩到尖叫!
  10. apache camel_Apache Camel –从头开始开发应用程序(第1部分/第2部分)
  11. 吴恩达作业8:三层神经网络实现手势数字的识别(基于tensorflow)
  12. 洛谷P2734 游戏 A Game
  13. Java Web之基于注解的Spring MVC环境配置
  14. sqlserver 备份脚本
  15. 20162313苑洪铭第四周学习小结
  16. asp.net身份验证
  17. 一图读懂5G定位(提供完整思维导图下载)
  18. java工作流引擎(j-roadflow)快速入门教程
  19. 职场心理学-心理学第一天(非原创)
  20. 平淡中,一直追梦的人 ----访济南市城市规划设计院副总工程师田洁

热门文章

  1. dup2函数功能详解
  2. C++ 格式化字符串方式总结
  3. Excel中换行符替换,非常简单
  4. VBA去除Excel中换行符
  5. BAT程序员 最强面试技巧
  6. 什么是JWT? Token? 如何基于Token进行身份验证?
  7. 手机ttl刷机linux,求助,TTl刷机遇到的问题
  8. 关于STM32串口接收中断中只能接收一个字节()
  9. 如何取出一个字节的高4位和低4位
  10. Mac音乐增强播放器——“Amarra 4”