Searching the Web   (Arvind Arasu etc.)

1. 概述

2000年,23%网页每天更新,.com域内网页40%每天更新。网页生存半衰期是10天。描述方法可用Poisson过程。

28%的网页构成强连通核心,22%处于核心的上游,22%处于核心的下游,其他的部分无法互联。

2. 抓取

优先抓高质量网页。综合三者:按需要(和query匹配度),按热度(链入度),按区域(比如.com优先)

做法:先抓K个网页,后续使用队列缓存待抓取url和质量分。

在stanford内网所有网页上试验,目标是快速获取高质量网页,质量策略PageRank>backlink>breadth>random。

循环抓取同时度量网页新鲜度(age),优先抓取较快更新的网页,过慢或过快更新优先级都不高。更新越快越频繁抓取。

3. 存储

分布式存储,增删改查功能,支持随机读(在线查询)和顺序读(离线索引)。

分布式存储:hash分桶

批量跟新(一月一批量写),部分更新(部分site)

主副本设计:利于读写分离

url规范化,生成id和签名(checksum/crc)

4. 索引

多个索引库:链接库(决定网页质量),文本库(决定查询匹配度),定制库(site包含关系)

倒排索引:标题和加粗的term权重更高

词典:所有term

增量构建

索引格式需谨慎设计

分布式索引:doc划分(单机失败易恢复,负载分摊均匀,较理想),term划分

doc划分方法下:分发器把网页分发给索引器,排序后生成临时索引,然后合并临时索引写硬盘并生成词典

实际经验:对正排表选择适中的buffer,使用并行流水线(loading, processing, flushing)

适时全局计算统计量(比如idf)并写入索引:本地聚合,能适合放入内存时发给统计器

总结:扩展性很重要

5. 排序和链接分析

现代搜索引擎的必要性:

大量的网页,大量低质量、低相关性网页

网页缺少正式编辑和属性描述

网页链接结构对评估网页质量很有利:PageRank和HITS算法

PageRank:随机冲浪模型,缓解非连通情况引入随机访问。收敛性在实际中不是瓶颈(约100次迭代足够@Google)

HITS:Hub节点和Authority节点

其他:聚合社区;通过结构(比如cocitation)发现相似网页;利用相邻网页类别做网页分类

未来:结合用户点击数据;语义分析(LSI:Latent Semantic Indexing)

6. 总结

多媒体信息带来的挑战

转载于:https://www.cnblogs.com/yaoyaohust/p/9291390.html

Searching the Web论文阅读相关推荐

  1. 搜索引擎早期重要论文推荐系列【7】《Searching the Web》

    搜索引擎早期重要论文推荐系列[7]<Searching the Web> - pennyliang的专栏 - 博客频道 - CSDN.NET 搜索引擎早期重要论文推荐系列[7]<Se ...

  2. [论文阅读] (17)CCS2019 针对PowerShell脚本的轻量级去混淆和语义感知攻击检测(经典)

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  3. [论文阅读] (06) 万字详解什么是生成对抗网络GAN?经典论文及案例普及

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  4. 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](2)

    [论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](2) Graphs and where to find them 图以及在 ...

  5. YOLOv4论文阅读(附原文翻译)

    YOLOv4论文阅读(附原文翻译) 论文阅读 论文翻译 Abstract摘要 1.Introduction 引言 2.Related work相关工作 2.1.Object detection mod ...

  6. 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey

    文章目录 一.介绍 二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机 三.NLP领域的核心概念 ...

  7. Quasi-globally Optimal and Near/True Real-time Vanishing Point Estimation in Manhattan World 论文阅读学习

    论文阅读整理笔记 Quasi-globally Optimal and Near/True Real-time Vanishing Point Estimation in Manhattan Worl ...

  8. [论文阅读] (08) NDSS2020 UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  9. 深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4《Optimal Speed and Accuracy of Object Detection》

    深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4<Optimal Speed and Accuracy of Object Detection> Abstract 摘要 1. In ...

最新文章

  1. TensorRT 基于Yolov3的开发
  2. mgr未同步 mysql_MySQL Group Replication(多主同步复制MGR)
  3. MYSQL 加密函数的用法
  4. oracle end backup,oracle-backup-hot backup
  5. Codeforces 365C - Matrix(hash + yy)
  6. matplotlib安装失败_Python | 安装中遇到“0x80072f7d 未指定的错误”
  7. IDEA中启动tomcat
  8. python实现编辑距离,最长公共子序列,最长公共子串
  9. bzoj 3625(CF 438E)The Child and Binary Tree——多项式开方
  10. 增删改查oracle sql,oracle sql增删改查
  11. python画图设置字体_python Matplotlib画图之调整字体大小的示例
  12. 网吧母盘的制作(2007详细)
  13. THREE.JS中常用的3种材质
  14. Python-IO编程和异常
  15. LSB低位隐写(菜鸡理解)
  16. 通过百度地图实现定位并获取本地当日天气信息
  17. 既生list何生tuple
  18. 代码是如何控制硬件的
  19. 《权威指南》笔记 - 8.8函数式编程
  20. linux 小企鹅输入法 方块乱码

热门文章

  1. 实现一个行内三个div等分_css 实现等分布局
  2. 两个pv挂一个vg_SKT前教练结婚,发布婚前感言,SKT和VG队员发来祝福
  3. winform的picturebox如何设置背景颜色为无背景颜色
  4. shell win10 改成cmd_win10系统必做优化,让你的电脑告别卡顿,运行速度至少提升20%...
  5. jquery操作文档节点的属性
  6. 最短路径和最小生成树的区别
  7. ZOJ 3985 2017CCPC秦皇岛 E:String of CCPC
  8. [Python] np.array() 创建ndarray类型的数组
  9. jquery可见性过滤选择器:hidden、:visible
  10. 使用python简单分析个人微信好友