解决SharePoint 2003的爬网性能问题- 之四

继续扩展我们的计数器子集.

Search Gatherer\Performance Level
- 这是一个非常重要的指标, 反映出可以被和将要被crawler使用的资源的数量. 该计数器的值的范围是1到5, 默认值是3。
- 这个数值影响着将要启动的单线程的和多线程的daemons(mssdmn.exe)的数量. 如果这个值是1或者2，那么启动的daemons的数量就会显著地减少. 这样的话, 爬网就不会对服务器的整体性能产生较大的影响了. 另一个需要在这里指出的重点是这个数值还对filtering threads的线程优先级(thread priority)有影响. 当filtering threads的这项计数器为1~3时, 则线程是以低于普通线程优先级的等级启动的. 这就意味着filtering thread可能不会得到你想要的那么多的CPU处理时间了.
- 它还会通过调整可供IFilter调用的线程的数目来影响多线程的守护进程(daemon). 如果Performance Level下降得越多, 那么可供IFilters调用的线程就越少.
Search Gatherer\Server Objects
- 这个计数器反映了gatherer在一次爬网中同时访问的服务器的数目. 当一个而服务器被首次访问的时候, 一个server object就会被创建出来. 你配置的被爬网的每一台主机都会有一个对应的server object. 这个计数器就是监视这些server objects的. 比如说, 如果你配置了爬网http://mysharepoint 和http://www.microsoft.com这两个站点, 那么你就至少有两个server objects被创建了出来. 如果这些服务器更多地链接到了其他服务器的话, 那么还会有更多的server objects会被创建出来的.
- Server object会保存很多有关这台被访问的服务器的信息. 其中之一是这台服务器允许的并发连接的数量. 在稍后的一篇文章中, 我们会讨论Site Hit Frequency规则以及这项规则如何影响对连接的限制.
Search Gatherer\Threads Accessing Network
- 这个计数器展现了正在当前访问网络的可用的filtering threads的数量. 当一个filtering thread接收到下一个要crawl的item时, 这个线程就会负责加载用于连接到目标item的protocol handler. 如果目标item是在一个文件共享上的话, 那么我们就会加载可以连接到文件服务器的protocol handler.
- 目标item是否会被拷贝到服务器场的本地服务器(特指请求该item的索引服务器indexer)取决于文件的类型.
- 目标Item会被存储在索引服务器的临时文件夹中. 典型地, 该文件夹为<drive>:\Program Files\SharePoint Portal Server\Data\temp. 这个文件夹可以在管理中心站点中配置, Manage Server Settings-> Search Server Settings页面. 其中的File Location就允许你配置这个临时文件夹的路径. 注意! 不要让防毒软件扫描这个路径, 这非常重要! 如果你让杀毒软件扫描这个路径的话, 会严重地增加爬网时间. 你需要确保SharePoint站点中没有感染病毒的文件, 但这可以在上传文件时通过防毒软件与SharePoint的集成来做到. 很多软件可以做到这一点, 你需要找到一款适合你的杀毒软件.
- 在目标item被拷贝的时候, 这个计数器就会增加. 当拷贝结束, 我们不再需要访问网络的时候, 那么这个计数器就会减少.
- 目标item拷贝到本地的临时目录后, 这个线程就会加载IFilter, 然后开始调用GetChunk 方法来萃取出目标item的内容. 这项工作是由守护进程(deamon)完成的, 然后数据会被喂回给MSSearch进程, 用以执行最后的处理, 这项计数器在这里还会再次增长. 所以, 它的意思是在数据源源不断地通过网络从守护进程送回来的时候, 以及数据被喂给MSSearch进程的时候, 该计数器都会反映出来. 所以, 简单来说, 它会展现出来还在访问网络的, 还有实际上并没有在使用网络的但还在喂数据给MSSearch的线程总数.
Search Gatherer\Threads In Plug-ins
- 这项计数器展现了某时刻在Plug-in中的线程数. Search的设计者做了两个非常酷的选择, 第一, 让守护进程负责IFilter的错误; 第二, 让MSSearch可以通过plug-in方式进行扩展以处理多样的功能.
- 这些plug-in的其中之一是Subscription Plug-in (SUBPI). 当数据从守护进程送回来的时候, 针对gatherer的某些动作是一定要完成的, 这样才能让gatherer完成所有的工作. 其中之一的功能就是创建SPS Alerts(注意, 不是WSS alerts, 它们是通过非常不同的机制来完成的). 这些一定要完成的动作就是plug-in的功能.
- 这项计数器如果过高的话, 说明plug-in占用的时间太多, 可能意味着对后台SQL Server的连接缓慢. 爬网过程中这项计数器的频繁增长, 下降是正常的.
Search Gatherer Projects\Crawls in Progress
- 这个计数器指示出一个爬网正在进行. 它并不会告诉你进行的是哪一种爬网, 但是至少它告诉你有一个爬网正在运行.
- 当查看该项计数器的历史数据的时候, 你可以确定出爬网开始和结束的时间.
- 很多时候, 客户来询问说他们知道一个爬网正在运行, 但是他们不知道哪一种index正在爬网, 因为他们有太多的index了. 这项计数器可以帮助我们集中在究竟在爬哪一个.
- 在查看历史数据的时候, 我使用这个计数器来限制view. 比如说, 在一分perfmon的日志中当我有3到4个爬网在运行的时候, 我可以修改开始标记和结束标记, 让perfmon的日志仅显示某一个爬网的时间段.
Search Gatherer Projects\Incremental Crawls
- 这个计数器展示出当前正在爬网的是否是一个incremental crawl. 当这个计数器是1的时候, 那么这就是一个incremental crawl, 当这个计数器是0，那么就是一次full crawl, 或者是一次自适应crawl. 我没见过什么人运行自适应的crawl(adaptive crawl), 所以从这个计数器中估计你也会很少见到这种crawl.
- 再次说明, 这个计数器可以用来在看历史数据时鉴别爬网使用, 在实时数据中查看当前爬网是否是incremental crawl的时候也是明智的.

后续的文章中, 我们还会讨论更多的计数器和它们的意义.

资料来源:

SharePoint Portal Server 2003 Crawl Performance Part 4

http://blogs.msdn.com/b/tonymcin/archive/2007/05/07/sharepoint-portal-server-2003-crawl-performance-part-4.aspx

解决SharePoint 2003的爬网性能问题- 之四相关推荐

SHAREPOINT爬网设置
F:\2009年\MOSS档案 http://share:30088/default.aspx 进入管理中心共享服务管理-SharedServices1-搜索设置-内容源和爬网计划-本地 Offi ...
sharepoint2013用场管理员进行文档库的爬网提示没有权限,拒绝的解决方法
爬网提示被拒绝,场管理员明明可以打开那个站点的,我初步怀疑是:环回请求(LoopbackRequest)导致的解决方法就是修改环回问题.修改注册表具体操作方法: http://www.c-shar ...
一步一步SharePoint 2007之四十一：实现Search(4)——设定爬网Schedule
下面将记录每一步的操作过程. 1.首先进入Document Center中的Documents列表页面,并上传一个名为"[url]www.eallies.com.doc[/url]" ...
SharePoint 2013 对二进制大型对象(BLOB)进行爬网
本文是参考MSDN文档做的示例,SharePoint 2013搜索二进制对象(BLOB),通过外部内容类型的方式将外部数据与SharePoint相关联,修改BCD模型,使SharePoint能够爬网外 ...
新工具：表单/Cookie 验证网站爬网设置工具
在今年3月份的blog里面,我曾经说过SharePoint Team将会发布一个补丁来让SharePoint Server 2007的搜索引擎支持对基于表单/Cookie验证的网站进行爬网.今天,Sh ...
vs azure web_在Azure中迁移和自动化Chrome Web爬网程序的指南。
vs azure web Webscraping as a required skill for many data-science related jobs is becoming increasi ...
python爬网易云音乐评论最多的歌_使用Python爬一爬网易云音乐上那些评论火爆的歌曲...
网易云音乐这款音乐APP本人比较喜欢,用户量也比较大,而网易云音乐之所以用户众多和它的歌曲评论功能密不可分,很多歌曲的评论非常有意思,其中也不乏很多感人的评论.但是,网易云音乐并没有提供热评排行榜和按 ...
华为路由器q2虚拟服务器,华为路由器Q2 Pro分布式子母路由，解决WIFI信号弱以及网速为龟速...
华为路由器Q2 Pro分布式子母路由,解决WIFI信号弱以及网速为龟速 2019-08-03 10:30:00 3点赞 11收藏 3评论就目前市场上的单个家用无线路由器而言,很难实现家里WIFI信号 ...
解决 WIDOWS 2003 SERVER 玩不了3D游戏
解决 WIDOWS 2003 SERVER 玩不了3D游戏现在最新的微软操作系统是Win Server 2003.它是对应服务器的,现在有越来越多有朋友都升级到Windows 2003,安装之后大家 ...
python爬虫网易云音乐评论最多的歌_使用Python爬一爬网易云音乐上那些评论火爆的歌曲...
网易云音乐这款音乐APP本人比较喜欢,用户量也比较大,而网易云音乐之所以用户众多和它的歌曲评论功能密不可分,很多歌曲的评论非常有意思,其中也不乏很多感人的评论.但是,网易云音乐并没有提供热评排行榜和按 ...

解决SharePoint 2003的爬网性能问题- 之四

解决SharePoint 2003的爬网性能问题- 之四相关推荐

最新文章

热门文章