XEIM这是 Google 工程师 Amit Singhal 发表在 Google 官方博客的一篇文章,讲述了 Google 搜索排名背后的一些技术,涉及到 Google 对网页,对语义,对用户意图的理解。
Google 搜索排名的核心技术源自已有50年历史的学术课题 Information Retrieval (IR),IR 技术使用统计学原理对文字的使用频率等属性进行研究并对结果进行排名。建立在 IR 理论上的 Google 搜索同时借助链接,网页结构等等技术形成独特的搜索技术。

理解网页:

Google 多年来在网络爬虫与索引系统上投入巨资,因此,Google 拥有非常庞大并且是最新的网页索引,除此之外,Google 还使用一些最新技术提高索引质量,比如,他们开发了一种技术,可以在字面意思之外理解一个网页所表达的重要概念,人们使用意大利语言搜索 "galleria sprovieri londra",会找到伦敦的 Sprovieri Gallery,尽管 Sprovieri Gallery 主页上既没有 London,也没有 Londra 字样。在美国,人们搜索 "cool tech pc vancouver, wa",会找到 www.cooltechpc.com,然而 www.cooltechpc.com 的主页上没有任何文字表明他们位于 Vancouver。其它技术包括,区分一个网页中的重要或非重要文字,以及网页内容的新鲜度。

理解语义:

Google 可以通过用户提供的几个搜索关键词,理解用户的真实意图。他们在拼写纠正,词义,以及概念分析方面处于非常领先的位置。很多人都或多或少体验过 Google 的拼写纠正功能,比如搜索 "kofee annan",Google 会问你搜索的是否 "kofi annan",然而,当有人搜索 "kofee beans",Google 会纠正成 "coffee beans"。(Google 事实上已经在尝试语义技术 - 译者)

词义是 Google 尝试理解查询语义的基础,也是 Google 遇到的最大难题。一些在人看来显而易见的东西,机器却很难自动处理。用户并不想对使用什么词汇进行查询而费神,人们甚至压根不知道该使用什么进行查询。在这种时候,Google 的词义系统便可以发挥作用,词义系统可以对查询语句进行非常复杂的修正,比如,查询 "Dr Zhivago" 的时候,Google 知道 Dr 代表 Doctor ,而查询 "Rodeo Dr" 的时候,Dr 代表 Drive。用户搜索 "back bumper repair" 的时候,结果是 rear bumper repair,而搜索 "Ramstein ab",Google 能够将 ab 理解成 Air Base,"b&b ab" 会理解为 Alberta 的 Bed and Breakfasts 。Google 将这种词义理解系统发展到上百种不同语言。

Google 在搜索排名中使用的另一项技术是概念识别,该技术可以对查询的内容进行概念识别,比如,我们查询 "new york times square church",Google 知道我们实际上查询的是纽约时代广场上的那座著名教堂,而不是纽约时报中的某篇文章。概念识别技术并不止这些,Google 还对其进行加强以正确地识别语义,比如,搜索 "PC and its impact on people",事实上是搜索计算机对社会的影响。Google 的搜索分析算法中这类技术比比皆是,而且面向几乎所有语言。

理解用户:

Google 尝试理解用户的目的是为用户返回他们真正需要的结果,而不是他们在搜索语句中所说的东西。该技术基于一个世界级的本地化系统,外加先进的个性化技术,以及各种用户意图识别技术。

Google 对本地结果的重视体现在他们的本地化工作中。同样一个查询语句在不同国家会返回不同结果,比如,查询 "bank]",在美国返回的是银行,而英国则可能是 Bank Fashion 的服装连锁店,或者英国的银行,而在其它英语国家,如澳大利亚,加拿大,新西兰,南非,返回的则应仍旧是当地的银行。如果你在一些非英语国家查询这个词,象埃及,以色列,日本,俄罗斯,沙特,瑞士,返回的结果将更有趣。就象 Football 在美国和英国表示不同的运动项目一样,同一个词在不同国家查询的结果可能截然不同。

个性化查询是 Google 另一项先进搜索技术,一个已经登录的用户,如果开通了 Web History 服务,随着他查询时间的增长,Google 会根据他的查询历史,自动调整返回的结果,比如,一个经常查询 Football 相关话题的人,会逐渐从 Google 得到更多足球相关的结果。如果你青睐某个购物站返回的结果,在以后的查询中,会从那个购物站得到更多结果。

Google 在返回用户真正想要的结果方面的另一个例子是,假如你搜索 "chevrolet magnum",我们知道 Magnum 不是 Chevrolet 产的,是 Dodge 产的,Google 会自动返回 dodge magnum 的结果。还有一个例子,有人搜索 "bangalore",不仅返回 Bangalore 这个城市的主页,而且返回 Bangalore 的地图,以及一些与 Bangalore  市景,交通相关的视频,这些视频会让你有身临其境的感觉。

本文国际来源:http://googleblog.blogspot.com/2008/07/technologies-behind-google-ranking.html
中文翻译:COMSHARP CMS

这是 Google 工程师 Amit Singhal 发表在 Google 官方博客的一篇文章,讲述了 Google 搜索排名背后的一些技术,涉及到 Google 对网页,对语义,对用户意图的理解。相关推荐

  1. 谷歌官方博客发表的 手机的未来趋势

    北京时间9月21日消息,谷歌官方博客最近发表的一篇文章分析了手机的未来趋势,以下是博客全文. 自从十年前谷歌创立以来,互联网已经给全世界人们的生活带来了巨大的影响.它已经改变了政治.娱乐.文化.商业. ...

  2. 爬取CSDN官方博客粉丝中码龄20年以上的用户数量

    文章目录 序 正文开始 IP代理 请求头 cookie 接口分析 爬虫数据保存 重点,爬取数据方法 多线程爬取 完整代码 爬取结果 序 又是一周周末了,闲暇无事,很有精神, 准备看一下csdn社区中码 ...

  3. 最新进展概述:澄清式提问辅助理解信息检索中的用户意图

    ©PaperWeekly 原创 · 作者|金金 单位|阿里巴巴研究实习生 研究方向|推荐系统 用户使用搜索引擎的过程中,通常很难用单一的查询表达复杂的信息需求.在真实应用的过程中,用户需要根据当前搜索 ...

  4. 曝iPhone15或换用USB-C接口;Google将下架第三方Android通话录音APP|极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  5. 爆 ChatGPT 大规模封号亚洲节点,并停止注册;Google 否认 Bard 窃取 ChatGPT 数据进行训练|极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  6. 上周技术关注:Google会不会做操作系统?

    [Google; 操作系统; 微软] Google会不会做操作系统? # "我们必须观察这些家伙,看上去他们在做些能跟我们竞争的东西",盖茨这么跟自己说,也这么跟Fortune的F ...

  7. 搜索引擎——用户搜索意图的理解及其难点解析,本质是利用机器学习用户的意图分类...

    用户搜索意图的理解及其难点解析 搜索引擎涉及的技术非常的繁复,既有工程架构方面的,又有算法策略方面的.综合来讲,一个搜索引擎的技术构建主要包含三大部分: 对 query 的理解 对内容(文档)的理解 ...

  8. 《SEO的艺术(原书第2版)》——3.3 理解搜索引擎流量和用户意图

    3.3 理解搜索引擎流量和用户意图 正如1.1节所讨论的,搜索者会输入许多不同种类的查询.这些查询通常可以分为3个大类. 导航型查询 这种查询的意图是访问一个特定的网站或者网页(例如,有人输入你的公司 ...

  9. 比 GPT-3 更擅长理解用户意图,OpenAI发布 InstructGPT

    作者 | 青苹果 来源 | 数据实战派 近日,OpenAI 发布了一项令人瞩目的研究-- InstructGPT. 在这项研究中,相比 GPT-3 而言,OpenAI 采用对齐研究(alignment ...

最新文章

  1. HttpClient ||GET请求||带参数的GET请求
  2. HTML5新属性 Canves的整体学习
  3. Java Exe生成工具 JSmooth
  4. 软件构架师之路[转帖]
  5. 《Python密码学编程》——2.6 本书的文本换行
  6. lnmp mysql 哪个好_[LNMP]Mysql生产环境配置
  7. mysql 测试数据生成器_ApexSQL Generate(SQL测试数据生成器)
  8. visio2019 专业版,两种方法
  9. Mysql CPU占用100%查询
  10. 一台计算机连接两个投影,一台电脑两个投影仪要如何连接
  11. Linux 添加网卡
  12. Entry name ‘classes.dex‘ collided
  13. BTC EmbeddedPlatform安装手记
  14. 机器学习【吴恩达|周志华|李宏毅|算法】清单
  15. ubuntu上传文件到百度网盘
  16. [转载] 暗潮涌动:警惕IBM温情脉脉背后的垄断野心
  17. 水至清则无鱼,人至贱则无敌
  18. 命运2服务器维护2021,命运2 2021年3月17日更新内容详解 冰影系列削弱一览[多图]...
  19. 富兰克林自传 - 笔记
  20. 让PyQt5更加美观

热门文章

  1. Spring 3 MVC深入研究
  2. 互联网日报 | 7月4日 星期日 | 高途回应招聘团队被裁传闻;恒大半年劲销3568亿领跑行业;吉利发布共同富裕计划行动纲领...
  3. 2020年8月小程序互联网发展研究报告
  4. 二叉树知识点最详细最全讲解
  5. servlet为什么要别名呢_servlet --2
  6. 大规模异构数据并行处理系统的设计、实现与实践
  7. 【Java】猜数字小游戏设计由浅入深
  8. Linux 系统中 Redis 的安装及其使用
  9. 从M2M迁移到IIoT工业物联网
  10. 【静态页面架构】CSS之颜色与单位