PMCAFF(pmcaff.com)是在中国非常流行的产品经理社区。汇集160000+会员,8000+业界大咖,致力于为产品人提供专业的产品沙龙、课程培训、求职招聘等服务。

本文由PMCAFF会员凯撒撰写,未经许可,禁止转载。

● ● ●

PMCAFF产品经理社区的咖友提问:怎么做才能做出一款类似Google这样全球性的搜索产品?

你眼里的360搜索和百度搜索体验效果是怎样的?

1.单纯做独立搜索引擎产品来说,如果360搜索没有其他360子产品的引流,能否比现在更好?

2.百度搜索是否就真的没有优点可提?

3.综合以上,在符合国内网络环境下,如果给你足够的技术、资金、政策支持,怎么做才能做出一款类似google这样全球性的搜索产品?【不是在国内一家独大】

 凯撒  知名第三方支付公司 营销

第三个问题有意思,想要做出和Google一样的搜索产品,先想清楚Google比百度好在哪儿?

1、Google有可开关的“安全搜索”

什么意思?这是让用户根据自己喜好和可接受度来打开或关闭的。而百度,什么都不说,先主动帮你和谐了一些内容,遇到某些敏感词的时候,再和谐一些内容,然后这样告诉你:根据相关法律法规和政策,部分搜索结果未予显示。但从来不会告诉你是哪个法律和政策。而Google 移除有版权问题的搜索结果的时候,会告诉你所以的法律,移除了多少结果,申诉渠道

2、两者所抓取的网页数量差距比较大

Google是可以搜到几乎整个互联网的网站,而百度大多是局限于国内(至于为啥,你们都懂的)。其他的搜索,诸如繁体内容、外文内容、视频、图片、学术等,两个差距相差也比较大。

比如,可以试试Google的以图搜图比百度要精准得多,返回的结果也更多。这个比的就是抓取的网页数量的能力问题了。

由于抓取的内容具有多样性,所以Google这点上真的是用心,加上也有能力,去针对不同文化不同内容做出更细致的筛选。例如,Google可筛选不同地区不同文字的网页,百度这点弱了。

还有,Google也可以对图片设置安全搜索、使用权限搜索,选项更多(如:视频按不同画质搜索等)。

3、Google够专注

除了 YouTube,哥不去做别的内容。而百度有百度百科、百度知道、百度文库、百度贴吧等生产或搬运的服务。这些网站在百度搜索中权重很高,百度既在做裁判,又在做运动员,是原创内容的恶梦,同时这也是百度搜索质量差的原因。

4、强行推广哪家强

百度给我的感觉是,它总想让人停留在百度所提供的内容上面,不想跳转到第三方网站,即使内容是搬运第三方的。

举个例子,我们在百度搜索APP,显示的是百度应用的内容,首页经常没有Google play和苹果商店,而谷歌的搜索页面有Google play和苹果商店(并有打分),也有豌豆荚等第三方商店页面。

这告诉我们什么?似乎百度是有这一套“停留在百度所提供的内容上面,不跳转到第三方网站”的潜规则,以方便用户之名,其实都是在硬推自己的东西。例如,搜文字内容,经常是百度百科而不是维基百科,互动百科等其他来源。

不要一说到百度的时候就开始嘴炮!其实搜索引擎的搜索质量是有量化标准

我还在搞SEO的时候,有简单学过一个叫Cranfield评论体系的东西,这里简单的聊一下

Cranfield评价体系有3个环节组成

  • 抽取代表性的查询词,组成一个集合

  • 针对查询样例的集合,从检索系统的语料库中寻找对应的结果,进行标注(这块依旧是人工来完成的,也难怪养活了不少做SEO的人- -)

  • 把查询词和带有标注信息的语料库输入检索系统,对系统反馈的检索结果,使用预定义好的评价计算公式,用数值化的方法来评价:检索系统结果和标注的理想结果的接近程度有多少

Cranfield评价系统在各大搜索引擎公司内有广泛的应用。

首先需要解决的问题是如何建一个查询词集合。我了解过,查询词可分为3类:寻址类查询(Navigational)、信息类查询(Informational)、事务类查询(Transactional)

而这三块查询内容好像是有比例的,这个具体是多少,好像各大搜索都不一样对应的比例分别为

  • Navigational : ≈12%

  • Informational: ≈60%

  • Transactional : ≈28%

通常,这是从线上用户的Query Log文件中自动抽取的。除了上述查询类型外,还可以考虑Query的频次,对热门query(高频查询)、长尾query(中低频)分别占特定的比例。搜索在抽取Query时,往往Query的长短也是一个待考虑的因素。

因为短query(单term的查询)和长Query(多Term的查询)排序算法往往会有一些不同。构成查询集合后,使用这些查询词,在不同系统(例如对比百度和Google)或不同技术间(新旧两套Ranking算法的环境)进行搜索,并对结果进行评分,以决定优劣。当然还有MAP, DCG法, P@N方法, 等等等。

说了这么多,其实做搜索的在网页检索结果进行评估,主要是围绕精确率和召回率来做的,涉及的是这么几点:

  • 相关性:query与结果说的是否一致?

  • 需求强度:关键词匹配

  • 丰富度:是否详细

  • 时效性

  • 便捷性:时间成本

  • 权威度

这6个方面在不同特征的query下,关注的重点有不一样,不同维度适用的query范围有所不同。

本文来自PMCAFF产品经理社区(www.pmcaff.com),不代表PMCAFF观点和立场,未经许可,禁止转载。

● ● ●

最酷的产品经理都在读

20个顶尖产品经理都在用的APP

微信充值页面为啥长这样?(多图)

知乎真的一天不如一天了吗?

百度VS谷歌?搜索质量评判也要讲基本法相关推荐

  1. 如何在百度、谷歌搜索到我的网站?

    http://www.faisco.com/sys/view.jsp?k=1&id=103 在百度.谷歌等主流搜索引擎上找到自己的网站,让客户找上门,是企业主和网站建设人员建网站所必须解决的问 ...

  2. 常用的百度和谷歌搜索语法

    百度搜索语法 网页标题: intitle:限定网站:不带http://site:特定链接或url中的关键词:inurl:精确匹配:不拆分词"" ; -- <>不包含特定 ...

  3. elasticsearch模仿淘宝、京东、百度、谷歌搜索,自动补全、自动完成

    Elasticsearch(简称es)是一款功能强大的开源分布式实时搜索引擎,在日志分析.企业级搜索.时序分析等领域有广泛应用,几乎是各大公司搜索分析引擎的开源首选方案.本文不讲废话,不谈理论,目的在 ...

  4. 百度与谷歌搜索结果差异

    在谷歌中搜索互联网的收入模式时,发现谷歌的处理更人性化,"懂"我要搜索的实际上是"盈利模式".然后又在百度上进行了搜索,结果分别如下: 从个人角度来说,我觉得谷 ...

  5. 程序员如何查资料(百度、谷歌搜索技巧汇总)

    百度搜索技巧 intitle--把搜索范围限定在网页标题中 使用方法: intitle:查询内容 例如百度输入:关键词 intitle:oschina inurl--把搜索范围限定在url链接中 使用 ...

  6. 用谷歌搜索技术问题一定比用百度好?也未必...

    在我们程序员圈子里,存在着各种鄙视链,其中对于搜索引擎的选择,存在着谷歌 > 百度的观点.很多开发者认为,百度上的搜索质量不高,而谷歌搜索更能帮助我们解决开发中的问题. 那么实际情况真的是这样吗 ...

  7. python google 搜索结果爬取_python爬取百度谷歌搜索结果

    使用requests模块爬取百度或者谷歌搜索结果,,如下代码示例是百度的,修改为谷歌的话研究下谷歌url的格式替换下即可, 把要搜索的字段写入一个文件中,每行写一个,运行的第一个参数为文件路径,按代码 ...

  8. 百度和谷歌:局域网战胜互联网

    5年前,也就是2006年04月,百度李彦宏曾经预言 ,"5年以后,Google和百度之间的关系是百度一枝独秀,从市场份额来说,大家很难看到Google了." 5年后的今天,CNZZ ...

  9. [转贴]百度和谷歌:局域网战胜互联网

    2011-4-18 23:13:8 百度和谷歌:局域网战胜互联网 http://www.williamlong.info/archives/2624.html 猜到了结果,却没有猜到过程 百度于200 ...

最新文章

  1. Request对象 --web浏览器向web服务端的请求
  2. 函数式编程语言python-用Python进行基础的函数式编程的教程
  3. 【AI初识境】如何增加深度学习模型的泛化能力
  4. python医学图像读取_对python读取CT医学图像的实例详解
  5. python init函数可以外部调用么,如何从python类中调用外部函数
  6. 利用Python爬取网易上证所有股票数据(代码
  7. 推荐系统遇上深度学习(七)--NFM模型理论和实践
  8. kafka redis vs 发布订阅_发布订阅的消息系统 Kafka的深度解析
  9. 合伙和合作的区别是什么?
  10. 全球及中国差旅费管理系统行业趋势分析与投资前景建议研究报告2022-2028年版
  11. Visio 安装后提示 Dos 共享冲突
  12. win10 系统下‘javac‘ 不是内部或外部命令,
  13. win10系统盘清理彻底的方法
  14. php ftp 远程上传文件类
  15. 识别不同域名访问不同主页
  16. 计算机强制退出程序键,电脑强制关闭程序按哪三个键
  17. burntest Linux参数,限拷机软件IntelBurnTest 2.0
  18. MySQL数据库——基本操作
  19. cad修改快捷键_CAD教程:CAD建筑户型图纸还能这么画?
  20. 【网络安全】细分领域总览

热门文章

  1. 参与 Apache 顶级开源项目的 N 种方式,Apache Dubbo Samples SIG 成立!
  2. Service Mesh 从“趋势”走向“无聊”
  3. 利用 Arthas 解决启动 StandbyNameNode 加载 EditLog 慢的问题
  4. 是谁在调用我?使用 arthas+jprofiler 做复杂链路分析
  5. 用HTML制作一个漂亮的成绩表,JS-结合html综合练习js的对象——班级成绩表制作...
  6. ewebeditor 图片上传中 请等待_AC米兰客场3-1那不勒斯,博内拉透露:伊布伤势情况需要等待...
  7. linux deb文件安装_如何在 Ubuntu 上安装 VirtualBox | Linux 中国
  8. php获取谷歌地图api接口,谷歌地图 API 开发之信息窗口
  9. dva处理_umi项目中dvaeffects异常统一处理
  10. c++批量重命名_文件批量重命名?这个方法百试百灵