解决GitHub Pages屏蔽百度爬虫的方法
Github屏蔽百度爬虫导致在Github Pages上托管的博客、网站都无法被百度索引到,但对于国内的小伙伴尤其是还在上学的未来的程序员们百度还是一个重要的检索渠道。已经有小伙伴在这方面做了尝试并且进行了全面的分析,这里我仅仅介绍一下个人的做法。这个博客也托管在Github Pages上,个人没有虚拟主机、域名也懒得备案,主要就是通过SAE的免费主机加智能DNS解决的。
可行性及原理分析
已经有小伙伴在这方面做了尝试,文章从原理到实践写的很详尽。其主要思路是,希望通过CDN的缓存拦截百度爬虫访问Github服务器,防止百度爬虫到Github服务器被暴揍。但是从CDN的角度,各个厂商还专门发展搜索引擎自动回源
所以人家本身就不是准备干这活的。最后小伙伴也采用了个人虚拟主机的方案而且提供了Github的Webhook自动部署实践的介绍。这位叫Jerry的小伙伴棒棒嗒!
另外也有一部分使用七牛存储的小伙伴,尝试通过在七牛上保存网站的静态文件镜像来服务百度爬虫。主要的优势是七牛的流量和空间很足,只要充值10元就可以绑定自定义域名;但是死穴在于像我这种懒得备案的域名七牛不允许绑定。
小站最后采用了新浪云主机(SAE)+智能DNS(本人万网)+百度云CDN解决。思路上还是智能DNS针对来自百度解析线路的请求指向SAE服务器,SAE服务器保存Jekyll生成的静态文件当镜像。使用百度CDN的原因并不是为了加速,而是因为百度爬虫机器好像几乎不鸟万网的智能DNS,也就是说万网经常错误返回给百度默认的结果,但所幸对百度CDN的DNS同步做的很好所以加了这个中间层。
如果万网智能DNS很好用理想的路径如下:
添加了百度CDN以后的路径如下:
有趣的是百度云CDN有两个而且两个都是真的,一个是我用的免费的百度云加速另一个是百度云CDN。
操作手册
- 注册SAE的账号并创建一个
PHP空应用
;因为PHP的应用收费最低基本每天几个云豆,点我的连接注册送1000云豆够用好久了,我们只拿它当是一个Nginx服务器用。》》》点我注册啊《《《
从应用后台获取代码管理地址,我选用的是git仓库方式。用Github Pages的朋友没有不会的吧,注意因为SAE支持多版本部署所以push的时候要指定。
git remote add sae https://git.sinacloud.com/应用名
git push sae master:1
jekyll clean
jekyll build
拷贝_site
到SAE的git然后push- 通过SAE的提供的应测试你的站点 http://应用名.applinzi.com/
- 到百度云加速添加自己的网站
- 配置你的DNS服务并测试
- 手工同步部分:因为我做了文章和Jekyll源码的分离发布文章总要执行命令所以写了脚本
限于个人技术能力、见识限制,还望各位看官不吝赐教。
转载请保留:http://blog.beanmr.com/2015/01/08/Export-Jar-Gracefully/
解决GitHub Pages屏蔽百度爬虫的方法相关推荐
- 解决Github Pages加载慢的问题
hello,大家好,我是智能黑客谢佳宇,今天我们来讲讲如何解决解决Github Pages加载慢的问题. 首先声明一下,我的个人主页就是用gitlab(主要为了解决github偶尔连不上的问题,当然g ...
- 解决GitHub下载速度太慢问题的方法汇总(持续更新,建议收藏)
文章目录 前言 一.使用 git clone --depth=1 来下载 二.修改host文件解决 三.谷歌浏览器插件加速 四.油猴插件和脚本 五.gitclone.com 六.Github 加速下载 ...
- 【开发工具】解决GitHub Pages制作的个人博客无法访问的问题
推荐阅读 CSDN主页 GitHub开源地址 Unity3D插件分享 简书地址 我的个人博客 QQ群:1040082875 大家好,我是佛系工程师☆恬静的小魔龙☆,不定时更新Unity开发技巧,觉得有 ...
- 解决Github下载慢的两种方法,亲测!
News: 我的编程学习笔记仓库已经出炉,正在快速维护中-- 地址:https://github.com/Github-Programer/LeetCode-Notes 欢迎大家光临,大家可以配合着博 ...
- Windows下使用GitHub Pages搭建hexo博客详细教程以及Next主题超全配置
根据下面的教程搭建的博客见这里 前言 马上要进入研究生了,不能再过浑浑噩噩的日子了,搭建一个小网站,用于记录自己所学的东西.其实,之前在腾讯云1元乞丐版上也搭建过博客,但是呢,只用来扯淡了.这次使用 ...
- 解决百度爬虫无法爬取 Github Pages 个人博客的问题
据 marketmechina 统计,去年12月份中国市场全平台 (桌面+手机客户端)搜索引擎市场份额: 百度: 67.09% 搜狗: 18.75% 神马: 6.84% 谷歌: 2.64% 必应: 2 ...
- 屏蔽百度蜘蛛或某一爬虫的四种方法
今天打开自己的网站发现很卡,但是检查网站的访问量并不高,登陆服务器发现流量很高,于是查看访问日志,发现网站日志中开头的某一ip段大量频繁访问,来自一个叫Bytespider的爬虫,就在网上查找方法想屏 ...
- github pages无法访问的解决方法
github pages无法访问的解决方法 github pages无法访问的解决方法 github pages无法访问的解决方法 你的github.pages还能正常访问吗? 最近很多人反馈我的gi ...
- 百度无法爬取Github Pages静态网站解决方案
在Github Pages上面托管了自己的静态博客,经过一段时间的运行发现自己网站的流量基本都是来自与谷歌.必应.搜狗等等搜索引擎,确没有百度的搜索引擎的流量,最后谷歌一下发现原因是: 百度爬取Git ...
最新文章
- 美智库发布报告:《美国在人工智能时代的行动蓝图》
- Kong APIGW — Plugins — Traffic Control
- bo a1 蓝牙音箱 中文说明
- 编程软件python下载-Python 2.7.6编程软件免费下载
- 人人商城v2获取头像出错多出132132
- 双向dcdc变换器simulink仿真_台达_OBC双向充电_HighEfficiency HighDensity GaNBased 6.6kW
- C语言中sizeof和strlen的区别是什么
- dataguard 下主备 online redo 与 standby redo log resize 重建
- BBS论坛(二十三)
- 查询用户表(按照依赖对象排序)
- Atitit.导出excel功能的设计 与解决方案
- 转 oracle 监控执行计划突然变化
- 了解下Bit,Byte,KB,MB,GB的换算关系
- 通用型免疫(共)沉淀(IP/Co-IP)工具箱(磁珠)实验
- 并行计算(三):并行计算效能的评估
- Linux中如何查看命令帮助手册
- Linux 查看查找文件
- Mac OS 使用双屏时程序坞(菜单栏)调整展示位置
- matlab中如何判断能控能关性,线性系统能观性能控性判定详解.ppt
- 用前缀树实现中文敏感词过滤器