Searching the Web论文阅读
Searching the Web (Arvind Arasu etc.)
1. 概述
2000年,23%网页每天更新,.com域内网页40%每天更新。网页生存半衰期是10天。描述方法可用Poisson过程。
28%的网页构成强连通核心,22%处于核心的上游,22%处于核心的下游,其他的部分无法互联。
2. 抓取
优先抓高质量网页。综合三者:按需要(和query匹配度),按热度(链入度),按区域(比如.com优先)
做法:先抓K个网页,后续使用队列缓存待抓取url和质量分。
在stanford内网所有网页上试验,目标是快速获取高质量网页,质量策略PageRank>backlink>breadth>random。
循环抓取同时度量网页新鲜度(age),优先抓取较快更新的网页,过慢或过快更新优先级都不高。更新越快越频繁抓取。
3. 存储
分布式存储,增删改查功能,支持随机读(在线查询)和顺序读(离线索引)。
分布式存储:hash分桶
批量跟新(一月一批量写),部分更新(部分site)
主副本设计:利于读写分离
url规范化,生成id和签名(checksum/crc)
4. 索引
多个索引库:链接库(决定网页质量),文本库(决定查询匹配度),定制库(site包含关系)
倒排索引:标题和加粗的term权重更高
词典:所有term
增量构建
索引格式需谨慎设计
分布式索引:doc划分(单机失败易恢复,负载分摊均匀,较理想),term划分
doc划分方法下:分发器把网页分发给索引器,排序后生成临时索引,然后合并临时索引写硬盘并生成词典
实际经验:对正排表选择适中的buffer,使用并行流水线(loading, processing, flushing)
适时全局计算统计量(比如idf)并写入索引:本地聚合,能适合放入内存时发给统计器
总结:扩展性很重要
5. 排序和链接分析
现代搜索引擎的必要性:
大量的网页,大量低质量、低相关性网页
网页缺少正式编辑和属性描述
网页链接结构对评估网页质量很有利:PageRank和HITS算法
PageRank:随机冲浪模型,缓解非连通情况引入随机访问。收敛性在实际中不是瓶颈(约100次迭代足够@Google)
HITS:Hub节点和Authority节点
其他:聚合社区;通过结构(比如cocitation)发现相似网页;利用相邻网页类别做网页分类
未来:结合用户点击数据;语义分析(LSI:Latent Semantic Indexing)
6. 总结
多媒体信息带来的挑战
转载于:https://www.cnblogs.com/yaoyaohust/p/9291390.html
Searching the Web论文阅读相关推荐
- 搜索引擎早期重要论文推荐系列【7】《Searching the Web》
搜索引擎早期重要论文推荐系列[7]<Searching the Web> - pennyliang的专栏 - 博客频道 - CSDN.NET 搜索引擎早期重要论文推荐系列[7]<Se ...
- [论文阅读] (17)CCS2019 针对PowerShell脚本的轻量级去混淆和语义感知攻击检测(经典)
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- [论文阅读] (06) 万字详解什么是生成对抗网络GAN?经典论文及案例普及
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](2)
[论文阅读]A Gentle Introduction to Graph Neural Networks [图神经网络入门](2) Graphs and where to find them 图以及在 ...
- YOLOv4论文阅读(附原文翻译)
YOLOv4论文阅读(附原文翻译) 论文阅读 论文翻译 Abstract摘要 1.Introduction 引言 2.Related work相关工作 2.1.Object detection mod ...
- 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey
文章目录 一.介绍 二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机 三.NLP领域的核心概念 ...
- Quasi-globally Optimal and Near/True Real-time Vanishing Point Estimation in Manhattan World 论文阅读学习
论文阅读整理笔记 Quasi-globally Optimal and Near/True Real-time Vanishing Point Estimation in Manhattan Worl ...
- [论文阅读] (08) NDSS2020 UNICORN: Runtime Provenance-Based Detector for Advanced Persistent Threats
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
- 深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4《Optimal Speed and Accuracy of Object Detection》
深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4<Optimal Speed and Accuracy of Object Detection> Abstract 摘要 1. In ...
最新文章
- TensorRT 基于Yolov3的开发
- mgr未同步 mysql_MySQL Group Replication(多主同步复制MGR)
- MYSQL 加密函数的用法
- oracle end backup,oracle-backup-hot backup
- Codeforces 365C - Matrix(hash + yy)
- matplotlib安装失败_Python | 安装中遇到“0x80072f7d 未指定的错误”
- IDEA中启动tomcat
- python实现编辑距离,最长公共子序列,最长公共子串
- bzoj 3625(CF 438E)The Child and Binary Tree——多项式开方
- 增删改查oracle sql,oracle sql增删改查
- python画图设置字体_python Matplotlib画图之调整字体大小的示例
- 网吧母盘的制作(2007详细)
- THREE.JS中常用的3种材质
- Python-IO编程和异常
- LSB低位隐写(菜鸡理解)
- 通过百度地图实现定位并获取本地当日天气信息
- 既生list何生tuple
- 代码是如何控制硬件的
- 《权威指南》笔记 - 8.8函数式编程
- linux 小企鹅输入法 方块乱码
热门文章
- 实现一个行内三个div等分_css 实现等分布局
- 两个pv挂一个vg_SKT前教练结婚,发布婚前感言,SKT和VG队员发来祝福
- winform的picturebox如何设置背景颜色为无背景颜色
- shell win10 改成cmd_win10系统必做优化,让你的电脑告别卡顿,运行速度至少提升20%...
- jquery操作文档节点的属性
- 最短路径和最小生成树的区别
- ZOJ 3985 2017CCPC秦皇岛 E:String of CCPC
- [Python] np.array() 创建ndarray类型的数组
- jquery可见性过滤选择器:hidden、:visible
- 使用python简单分析个人微信好友