php抓取神马搜索结果,php判断神马搜索引擎蜘蛛蜘蛛的方法
今天无事查看了一下网站的访问日志,发现日志中有不少神马搜索引擎的来访记录。就写了一段php代码,用来统计一下神马搜索访问的数据,以便做出合理的优化方案。
神马搜索来源记录以及User Agent42.156.137.14 - "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36"
106.11.156.57 - "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36"
42.156.137.33 - "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36"
42.156.137.44 - "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3 like Mac OS X) AppleWebKit/602.1.50 (KHTML, like Gecko) CriOS/56.0.2924.75 Mobile/14E5239e YisouSpider/5.0 Safari/602.1"
106.11.153.124 - "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 YisouSpider/5.0 Safari/537.36"
php判断搜索引擎是否为神马搜索
通过上面的三条 User Agent 信息,可以发现它们都有一个共同的 YisouSpider 字段,也就是说 User Agent 中含有 YisouSpider 字段的来访者即为神马搜索引擎的蜘蛛。
php代码
函数调用:
神马搜索引擎蜘蛛IP地址
以下为神马搜索引擎蜘蛛的来访IP地址,
42.156.136.0/24:表示IP段,42.156.136.1 到 42.156.136.254
42.156.136.0/24
42.156.137.0/24
42.156.138.0/24
42.156.139.0/24
42.120.160.0/24
42.120.161.0/24
42.156.254.0/24
42.120.234.0/24
42.120.235.0/24
42.120.236.0/24
106.11.152.0/24
106.11.153.0/24
106.11.154.0/24
106.11.155.0/24
106.11.156.0/24
106.11.157.0/24
106.11.158.0/24
106.11.159.0/24
php抓取神马搜索结果,php判断神马搜索引擎蜘蛛蜘蛛的方法相关推荐
- 神马搜索php,php判断神马搜索引擎蜘蛛的方法
今天无事查看了一下网站的访问日志,发现日志中有不少神马搜索引擎的来访记录.就写了一段php代码,用来统计一下神马搜索访问的数据,以便做出合理的优化方案. 神马搜索来源记录以及User Agent 以下 ...
- Python + PySpider 抓取百度图片搜索的图片
说明 1.PySpider 是一个方便并且功能强大的Python爬虫框架 2.PySpider 依赖于PhantomJS 3.windows平台,PySpider 与64位的Python兼容不太好,需 ...
- 用rvest包来抓取Google学术搜索数据
2019独角兽企业重金招聘Python工程师标准>>> 在这篇文章,主要展示的是如何抓取Google学术网页.示例展示的是用rvest包来抓取作者博士指导老师的个人学术数据.我们可以 ...
- HTML开发者工具抓取所有图片,利用Chrome开发者工具功能进行网页整页截图的方法...
说起要截取整个网站页面,很多朋友第一时间想到的都是用哪款chrome扩展,确实,我们网站之前也有介绍过一些截图插件比如: 但其实现在不少浏览器都自带截屏功能了.尤其是像chrome如此强大的浏览器,比 ...
- php 邮编正则,php抓取百度邮编搜索结果,应改如何写正则表达式?
本人小白,想通过百度邮编搜索截取一个地址的邮编,在自己的网站空间里放了个php脚本. 因为要求不是很高,试图通过正则匹配找到第一组"首位不为0的六位数字",作为结果输出,但是不管怎 ...
- selenium+chrome抓取淘宝搜索抓娃娃关键页面
最近迷上了抓娃娃,去富国海底世界抓了不少,完全停不下来,还下各种抓娃娃的软件,梦想着有一天买个抓娃娃的机器存家里~.~ 今天顺便抓了下马爸爸家抓娃娃机器的信息,晚辈只是觉得翻得手酸,本来100页的数据 ...
- C#winform抓取百度,Google搜索关键词结果
基于网站seo,做了一采集百度和Google搜索关键字结果的采集.在这里与大家分享一下 先看先效果图 代码附加: View Code 1 private void baidu_Click(obj ...
- php 原生抓取关键词,php获取从百度、谷歌等搜索引擎进入网站关键词的方法
本文实例讲述了php获取从百度.谷歌等搜索引擎进入网站关键词的方法.分享给大家供大家参考.具体实现方法如下: function search_word_from() { $referer = isse ...
- python抓取qq群消息_Python获取统计自己的qq群成员信息的方法
首先说明一下需要使用的工具以及技术:python3 + selenium selenium安装方法:pip install selenium 前提:获取自己的qq群成员信息,自己必须是群主或者管理员, ...
- 抓取猫眼电影top100的正则、bs4、pyquery、xpath实现方法
import requests import re import json import time from bs4 import BeautifulSoup from pyquery import ...
最新文章
- 英特尔大地震!解雇首席工程官,7纳米延期,或面临集体诉讼……
- Java知多少(25)再谈Java包
- # 20175213 2018-2019-2 《Java程序设计》第1周学习总结
- python解释器调用_python入门-python解释器执行
- (1)解锁MongoDB replica set核心姿势
- hive 语句总结_Hive常用命令总结
- 【九】Git 可视化GUI管理工具 - SourceTree
- composer笔记
- Synchronized与ReentrantLock的区别
- Git-第五篇廖雪峰Git教程学习笔记(4)分支
- Ruckus 7372 Multimedia Hotzone Wireless AP 配置
- 大气压力换算公式_常用压力单位换算表
- speedoffice(Word)文档中如何插入图片
- 二阶系统动态响应特性与阻尼比的关系
- 爱上python系列------python上下文管理器(二):对suppress进行装饰器重新实现
- 使用Fluxion搭建钓鱼热点破解WiFi密码
- 浅谈JAVA设计模式之——责任链模式(COR)
- 微软 文档转换服务器,文档转换器
- MSTAR软件框架!
- Flask框架的第一个“Hello Flask”