今天无事查看了一下网站的访问日志,发现日志中有不少神马搜索引擎的来访记录。就写了一段php代码,用来统计一下神马搜索访问的数据,以便做出合理的优化方案。

神马搜索来源记录以及User Agent42.156.137.14 - "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36"

106.11.156.57 - "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36"

42.156.137.33 - "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36"

42.156.137.44 - "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3 like Mac OS X) AppleWebKit/602.1.50 (KHTML, like Gecko) CriOS/56.0.2924.75 Mobile/14E5239e YisouSpider/5.0 Safari/602.1"

106.11.153.124 - "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36"

php判断搜索引擎是否为神马搜索

通过上面的三条 User Agent 信息,可以发现它们都有一个共同的 YisouSpider 字段,也就是说 User Agent 中含有 YisouSpider 字段的来访者即为神马搜索引擎的蜘蛛。

php代码

函数调用:

神马搜索引擎蜘蛛IP地址

以下为神马搜索引擎蜘蛛的来访IP地址,

42.156.136.0/24:表示IP段,42.156.136.1 到 42.156.136.254

42.156.136.0/24

42.156.137.0/24

42.156.138.0/24

42.156.139.0/24

42.120.160.0/24

42.120.161.0/24

42.156.254.0/24

42.120.234.0/24

42.120.235.0/24

42.120.236.0/24

106.11.152.0/24

106.11.153.0/24

106.11.154.0/24

106.11.155.0/24

106.11.156.0/24

106.11.157.0/24

106.11.158.0/24

106.11.159.0/24

php抓取神马搜索结果,php判断神马搜索引擎蜘蛛蜘蛛的方法相关推荐

  1. 神马搜索php,php判断神马搜索引擎蜘蛛的方法

    今天无事查看了一下网站的访问日志,发现日志中有不少神马搜索引擎的来访记录.就写了一段php代码,用来统计一下神马搜索访问的数据,以便做出合理的优化方案. 神马搜索来源记录以及User Agent 以下 ...

  2. Python + PySpider 抓取百度图片搜索的图片

    说明 1.PySpider 是一个方便并且功能强大的Python爬虫框架 2.PySpider 依赖于PhantomJS 3.windows平台,PySpider 与64位的Python兼容不太好,需 ...

  3. 用rvest包来抓取Google学术搜索数据

    2019独角兽企业重金招聘Python工程师标准>>> 在这篇文章,主要展示的是如何抓取Google学术网页.示例展示的是用rvest包来抓取作者博士指导老师的个人学术数据.我们可以 ...

  4. HTML开发者工具抓取所有图片,利用Chrome开发者工具功能进行网页整页截图的方法...

    说起要截取整个网站页面,很多朋友第一时间想到的都是用哪款chrome扩展,确实,我们网站之前也有介绍过一些截图插件比如: 但其实现在不少浏览器都自带截屏功能了.尤其是像chrome如此强大的浏览器,比 ...

  5. php 邮编正则,php抓取百度邮编搜索结果,应改如何写正则表达式?

    本人小白,想通过百度邮编搜索截取一个地址的邮编,在自己的网站空间里放了个php脚本. 因为要求不是很高,试图通过正则匹配找到第一组"首位不为0的六位数字",作为结果输出,但是不管怎 ...

  6. selenium+chrome抓取淘宝搜索抓娃娃关键页面

    最近迷上了抓娃娃,去富国海底世界抓了不少,完全停不下来,还下各种抓娃娃的软件,梦想着有一天买个抓娃娃的机器存家里~.~ 今天顺便抓了下马爸爸家抓娃娃机器的信息,晚辈只是觉得翻得手酸,本来100页的数据 ...

  7. C#winform抓取百度,Google搜索关键词结果

    基于网站seo,做了一采集百度和Google搜索关键字结果的采集.在这里与大家分享一下 先看先效果图 代码附加: View Code  1   private void baidu_Click(obj ...

  8. php 原生抓取关键词,php获取从百度、谷歌等搜索引擎进入网站关键词的方法

    本文实例讲述了php获取从百度.谷歌等搜索引擎进入网站关键词的方法.分享给大家供大家参考.具体实现方法如下: function search_word_from() { $referer = isse ...

  9. python抓取qq群消息_Python获取统计自己的qq群成员信息的方法

    首先说明一下需要使用的工具以及技术:python3 + selenium selenium安装方法:pip install selenium 前提:获取自己的qq群成员信息,自己必须是群主或者管理员, ...

  10. 抓取猫眼电影top100的正则、bs4、pyquery、xpath实现方法

    import requests import re import json import time from bs4 import BeautifulSoup from pyquery import ...

最新文章

  1. 英特尔大地震!解雇首席工程官,7纳米延期,或面临集体诉讼……
  2. Java知多少(25)再谈Java包
  3. # 20175213 2018-2019-2 《Java程序设计》第1周学习总结
  4. python解释器调用_python入门-python解释器执行
  5. (1)解锁MongoDB replica set核心姿势
  6. hive 语句总结_Hive常用命令总结
  7. 【九】Git 可视化GUI管理工具 - SourceTree
  8. composer笔记
  9. Synchronized与ReentrantLock的区别
  10. Git-第五篇廖雪峰Git教程学习笔记(4)分支
  11. Ruckus 7372 Multimedia Hotzone Wireless AP 配置
  12. 大气压力换算公式_常用压力单位换算表
  13. speedoffice(Word)文档中如何插入图片
  14. 二阶系统动态响应特性与阻尼比的关系
  15. 爱上python系列------python上下文管理器(二):对suppress进行装饰器重新实现
  16. 使用Fluxion搭建钓鱼热点破解WiFi密码
  17. 浅谈JAVA设计模式之——责任链模式(COR)
  18. 微软 文档转换服务器,文档转换器
  19. MSTAR软件框架!
  20. Flask框架的第一个“Hello Flask”

热门文章

  1. Linux驱动学习--初识PCI驱动(一)
  2. HDU 5855 Less Time, More profit 最大权闭合子图
  3. 中国一共有多少神仙!今天让大家开开眼!
  4. 中国关系型社会的环境如何生存发展------总结程序员如何做人做事
  5. 前沿探索:腾讯云数据库自治服务最佳实现
  6. sql统计各部门的的男女员工数
  7. CSS - 让整个页面变成灰色(一行代码)
  8. 国内多家视频下载网站关闭:或为暂避风头
  9. Idea主菜单栏不见了怎么找回
  10. OMA DRM代理安全性思考