继续扩展我们的计数器子集.

  • Search Gatherer\Performance Level

    • 这是一个非常重要的指标, 反映出可以被和将要被crawler使用的资源的数量. 该计数器的值的范围是1到5, 默认值是3。
    • 这个数值影响着将要启动的单线程的和多线程的daemons(mssdmn.exe)的数量. 如果这个值是1或者2, 那么启动的daemons的数量就会显著地减少. 这样的话, 爬网就不会对服务器的整体性能产生较大的影响了. 另一个需要在这里指出的重点是这个数值还对filtering threads的线程优先级(thread priority)有影响. 当filtering threads的这项计数器为1~3时, 则线程是以低于普通线程优先级的等级启动的. 这就意味着filtering thread可能不会得到你想要的那么多的CPU处理时间了.
    • 它还会通过调整可供IFilter调用的线程的数目来影响多线程的守护进程(daemon). 如果Performance Level下降得越多, 那么可供IFilters调用的线程就越少.
  • Search Gatherer\Server Objects
    • 这个计数器反映了gatherer在一次爬网中同时访问的服务器的数目. 当一个而服务器被首次访问的时候, 一个server object就会被创建出来. 你配置的被爬网的每一台主机都会有一个对应的server object. 这个计数器就是监视这些server objects的. 比如说, 如果你配置了爬网http://mysharepoint 和http://www.microsoft.com这两个站点, 那么你就至少有两个server objects被创建了出来. 如果这些服务器更多地链接到了其他服务器的话, 那么还会有更多的server objects会被创建出来的.
    • Server object会保存很多有关这台被访问的服务器的信息. 其中之一是这台服务器允许的并发连接的数量. 在稍后的一篇文章中, 我们会讨论Site Hit Frequency规则以及这项规则如何影响对连接的限制.
  • Search Gatherer\Threads Accessing Network
    • 这个计数器展现了正在当前访问网络的可用的filtering threads的数量. 当一个filtering thread接收到下一个要crawl的item时, 这个线程就会负责加载用于连接到目标item的protocol handler. 如果目标item是在一个文件共享上的话, 那么我们就会加载可以连接到文件服务器的protocol handler.
    • 目标item是否会被拷贝到服务器场的本地服务器(特指请求该item的索引服务器indexer)取决于文件的类型.
    • 目标Item会被存储在索引服务器的临时文件夹中. 典型地, 该文件夹为<drive>:\Program Files\SharePoint Portal Server\Data\temp. 这个文件夹可以在管理中心站点中配置, Manage Server Settings-> Search Server Settings页面. 其中的File Location就允许你配置这个临时文件夹的路径. 注意! 不要让防毒软件扫描这个路径, 这非常重要! 如果你让杀毒软件扫描这个路径的话, 会严重地增加爬网时间. 你需要确保SharePoint站点中没有感染病毒的文件, 但这可以在上传文件时通过防毒软件与SharePoint的集成来做到. 很多软件可以做到这一点, 你需要找到一款适合你的杀毒软件.
    • 在目标item被拷贝的时候, 这个计数器就会增加. 当拷贝结束, 我们不再需要访问网络的时候, 那么这个计数器就会减少.
    • 目标item拷贝到本地的临时目录后, 这个线程就会加载IFilter, 然后开始调用GetChunk 方法来萃取出目标item的内容. 这项工作是由守护进程(deamon)完成的, 然后数据会被喂回给MSSearch进程, 用以执行最后的处理, 这项计数器在这里还会再次增长. 所以, 它的意思是在数据源源不断地通过网络从守护进程送回来的时候, 以及数据被喂给MSSearch进程的时候, 该计数器都会反映出来. 所以, 简单来说, 它会展现出来还在访问网络的, 还有实际上并没有在使用网络的但还在喂数据给MSSearch的线程总数.
  • Search Gatherer\Threads In Plug-ins
    • 这项计数器展现了某时刻在Plug-in中的线程数. Search的设计者做了两个非常酷的选择, 第一, 让守护进程负责IFilter的错误; 第二, 让MSSearch可以通过plug-in方式进行扩展以处理多样的功能.
    • 这些plug-in的其中之一是Subscription Plug-in (SUBPI). 当数据从守护进程送回来的时候, 针对gatherer的某些动作是一定要完成的, 这样才能让gatherer完成所有的工作. 其中之一的功能就是创建SPS Alerts(注意, 不是WSS alerts, 它们是通过非常不同的机制来完成的). 这些一定要完成的动作就是plug-in的功能.
    • 这项计数器如果过高的话, 说明plug-in占用的时间太多, 可能意味着对后台SQL Server的连接缓慢. 爬网过程中这项计数器的频繁增长, 下降是正常的.
  • Search Gatherer Projects\Crawls in Progress
    • 这个计数器指示出一个爬网正在进行. 它并不会告诉你进行的是哪一种爬网, 但是至少它告诉你有一个爬网正在运行.
    • 当查看该项计数器的历史数据的时候, 你可以确定出爬网开始和结束的时间.
    • 很多时候, 客户来询问说他们知道一个爬网正在运行, 但是他们不知道哪一种index正在爬网, 因为他们有太多的index了. 这项计数器可以帮助我们集中在究竟在爬哪一个.
    • 在查看历史数据的时候, 我使用这个计数器来限制view. 比如说, 在一分perfmon的日志中当我有3到4个爬网在运行的时候, 我可以修改开始标记和结束标记, 让perfmon的日志仅显示某一个爬网的时间段.
  • Search Gatherer Projects\Incremental Crawls
    • 这个计数器展示出当前正在爬网的是否是一个incremental crawl. 当这个计数器是1的时候, 那么这就是一个incremental crawl, 当这个计数器是0, 那么就是一次full crawl, 或者是一次自适应crawl. 我没见过什么人运行自适应的crawl(adaptive crawl), 所以从这个计数器中估计你也会很少见到这种crawl.
    • 再次说明, 这个计数器可以用来在看历史数据时鉴别爬网使用, 在实时数据中查看当前爬网是否是incremental crawl的时候也是明智的.

后续的文章中, 我们还会讨论更多的计数器和它们的意义.

资料来源:

SharePoint Portal Server 2003 Crawl Performance Part 4

http://blogs.msdn.com/b/tonymcin/archive/2007/05/07/sharepoint-portal-server-2003-crawl-performance-part-4.aspx

解决SharePoint 2003的爬网性能问题- 之四相关推荐

  1. SHAREPOINT爬网设置

    F:\2009年\MOSS档案 http://share:30088/default.aspx  进入管理中心 共享服务管理-SharedServices1-搜索设置-内容源和爬网计划-本地 Offi ...

  2. sharepoint2013用场管理员进行文档库的爬网提示没有权限,拒绝的解决方法

    爬网提示被拒绝,场管理员明明可以打开那个站点的,我初步怀疑是:环回请求(LoopbackRequest)导致的 解决方法就是修改环回问题.修改注册表 具体操作方法: http://www.c-shar ...

  3. 一步一步SharePoint 2007之四十一:实现Search(4)——设定爬网Schedule

    下面将记录每一步的操作过程. 1.首先进入Document Center中的Documents列表页面,并上传一个名为"[url]www.eallies.com.doc[/url]" ...

  4. SharePoint 2013 对二进制大型对象(BLOB)进行爬网

    本文是参考MSDN文档做的示例,SharePoint 2013搜索二进制对象(BLOB),通过外部内容类型的方式将外部数据与SharePoint相关联,修改BCD模型,使SharePoint能够爬网外 ...

  5. 新工具:表单/Cookie 验证网站爬网设置工具

    在今年3月份的blog里面,我曾经说过SharePoint Team将会发布一个补丁来让SharePoint Server 2007的搜索引擎支持对基于表单/Cookie验证的网站进行爬网.今天,Sh ...

  6. vs azure web_在Azure中迁移和自动化Chrome Web爬网程序的指南。

    vs azure web Webscraping as a required skill for many data-science related jobs is becoming increasi ...

  7. python爬网易云音乐评论最多的歌_使用Python爬一爬网易云音乐上那些评论火爆的歌曲...

    网易云音乐这款音乐APP本人比较喜欢,用户量也比较大,而网易云音乐之所以用户众多和它的歌曲评论功能密不可分,很多歌曲的评论非常有意思,其中也不乏很多感人的评论.但是,网易云音乐并没有提供热评排行榜和按 ...

  8. 华为路由器q2虚拟服务器,华为路由器Q2 Pro分布式子母路由,解决WIFI信号弱以及网速为龟速...

    华为路由器Q2 Pro分布式子母路由,解决WIFI信号弱以及网速为龟速 2019-08-03 10:30:00 3点赞 11收藏 3评论 就目前市场上的单个家用无线路由器而言,很难实现家里WIFI信号 ...

  9. 解决 WIDOWS 2003 SERVER 玩不了3D游戏

    解决 WIDOWS 2003 SERVER 玩不了3D游戏 现在最新的微软操作系统是Win Server 2003.它是对应服务器的,现在有越来越多有朋友都升级到Windows 2003,安装之后大家 ...

  10. python爬虫网易云音乐评论最多的歌_使用Python爬一爬网易云音乐上那些评论火爆的歌曲...

    网易云音乐这款音乐APP本人比较喜欢,用户量也比较大,而网易云音乐之所以用户众多和它的歌曲评论功能密不可分,很多歌曲的评论非常有意思,其中也不乏很多感人的评论.但是,网易云音乐并没有提供热评排行榜和按 ...

最新文章

  1. ios 开发中 动态库 与静态库的区别
  2. 聚集索引和非聚集索引- -
  3. 【数据挖掘】决策树算法简介 ( 决策树模型 | 模型示例 | 决策树算法性能要求 | 递归创建决策树 | 树根属性选择 )
  4. 圆柱属于能滚动的物体吗_中班科学活动教案:滚动的物体教案(附教学反思)
  5. 成功解决基于VS2015(Visual Studio2015)编写C++程序调试时弹出窗口一闪而过的问题
  6. 机器学习:支持向量机SVM和人工神经网络ANN的比较
  7. 如何设置一个严格30分钟过期的Session 1
  8. C#的变迁史 - C# 5.0 之其他增强篇
  9. VLC相关参数中文说明!
  10. MySQL增删改查及备份恢复
  11. 闲来笔记一《心心念念,引日成岁》
  12. Speedoffice(excel)如何快捷隐藏表格内所有空行
  13. SpringBoot 全局事务配置
  14. 泰山OFFICE技术讲座:为字体调整字间距的研究,设置值何时生效
  15. pulsar分析以及各消息队列对比
  16. charles安装证书并信任证书,仍然无法获取手机上的请求
  17. 【Java】第7章 Java 类和对象 头歌Educoder实训作业(七)
  18. 6-7 十进制转换二进制 (15分)
  19. 【Android Gradle 插件】自定义 Gradle 插件优化图片 ① ( Android 中的 WebP 图片格式使用 | WebP 格式转换 | WebP 参考文档 )
  20. 多普达838发信息乱码问题解决

热门文章

  1. shopex4.8.5 php5.6,shopex v4.8.5 漏洞
  2. eclipse 搭建ARM开发环境
  3. Python selenium 实现大麦网自动购票过程
  4. 网桥 网卡网桥有什么区别
  5. 繁凡的ACM模板(满注释模板)
  6. 图片验证码的逻辑实现
  7. 2019年云计算发展趋势如何 怎么加入云计算行业
  8. 计算机如何进入ping,电脑怎么ping网络,教你电脑怎么ping网络
  9. 图片默认底部3px缝隙
  10. 用matlab画阻尼振动包络线,matlab阻尼振动模拟.doc