经发现,虽然wget遵循robots.txt规则,但是那个还是可以绕过去,现在方法如下:

1. 屏蔽下载任何文件

.htaccess

SetEnvIfNoCase User-Agent "^wget" bad_bot
<Limit GET POST>Order Allow,DenyAllow from allDeny from env=bad_bot
</Limit>

2. 屏蔽下载部分文件

.htaccess

SetEnvIfNoCase User-Agent "^Wget" bad_bot
SetEnvIfNoCase User-Agent "^Wget/1.5.3" bad_bot
SetEnvIfNoCase User-Agent "^Wget/1.6" bad_bot
<Files ~ "\.(html|pdf|mp3|zip|rar|exe|gif|jpe?g|png|php|jsp) $">
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</files>

来源:http://www.webhostingtalk.com/showthread.php?t=437549

屏蔽wget下载网站内容相关推荐

  1. 用wget下载网站,实现离线浏览

    资料来源:http://www.truevue.org/linux/wget-download-website 想下一些LSF的文档,windows下的离线浏览有teleport等软件可以选择,Lin ...

  2. 怎么在python下载网站内容-分析某网站,并利用python自动登陆该网站,下载网站内容...

    本帖最后由 愤怒的小车 于 2019-5-8 09:41 编辑 一:本代码是我研究了好久才写出来,七功能主要有自动登陆.自动识别验证码.以及自动识别下载格式进行判断下载! 首先,搬上我们的主角网址,h ...

  3. 怎么在python下载网站内容-Python下载网页的几种方法

    get和post方式总结 get方式:以URL字串本身传递数据参数,在服务器端可以从'QUERY_STRING'这个变量中直接读取,效率较高,但缺乏安全性,也无法来处理复杂的数据(只能是字符串,比如在 ...

  4. python 自动登录网站_分析某网站,并利用python自动登陆该网站,下载网站内容...

    本帖最后由 愤怒的小车 于 2019-5-8 09:41 编辑 一:本代码是我研究了好久才写出来,七功能主要有自动登陆.自动识别验证码.以及自动识别下载格式进行判断下载! 首先,搬上我们的主角网址,h ...

  5. wget下载网站的目录

    $ wget -c -r -nd -np -k -L -p -A c,h www.xxx.org/pub/path/ -c  断点续传 -r  递归下载,下载指定网页某一目录下(包括子目录)的所有文件 ...

  6. 怎么在python下载网站内容-用Python下载一个网页保存为本地的HTML文件实例

    我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库. 比如我们要下载山东大学新闻网的一个页面,该网页如下: 实现代码如下: import urllib.request ...

  7. 怎么在python下载网站内容-python从网站上下载东西

    import requests res=requests.get('http://www.gutenberg.org/cache/epub/112/pg112.txt')#requests返回一个re ...

  8. Wget下载整个网站(包含图片/JS/CSS)

    我会向你展示10个 Wget 命令的实际案例. Wget 是一个用于下载文件的免费工具,它支持大多数常用的Internet协议,包括 HTTP, HTTPS, 以及 FTP. Wget这个名字来源于 ...

  9. 使用wget下载需要用户名和密码访问的网站资源

    wget是在Linux下开发的开放源代码的软件,作者是Hrvoje Niksic,后来被移植到包括Windows在内的各个平台上.它有以下功能和特点: (1)支持断点下传功能:这一点,也是网络蚂蚁和F ...

最新文章

  1. 使用AI画一个冠状病毒
  2. 让DJANGO里的get_success_url定义的reverse_lazy带参数跳转
  3. python appium 并行多设备_学会使用python启动多个appium server,然后获取多台设备的driver...
  4. HDFS读写过程解析
  5. (剑指Offer)面试题22:栈的压入、弹出序列
  6. 企业如何测试邮件系统反垃圾反病毒的实际效果
  7. 关于ES6的10个最佳特性
  8. jvm 宕机 打印jvm_通过入侵JVM打印阵列
  9. linux 环境变量导出,关于Linux:如何删除导出的环境变量?
  10. Cesium入门-2-增加地形
  11. python进阶装饰器_Python进阶: 通过实例详解装饰器(附代码)
  12. NetSet:一款功能强大的自动化网络流量安全增强工具
  13. Windows Phone(wp7)系统长按的秘密
  14. CTF__(1)web之Cookie
  15. 川大scu显示无法连接认证服务器,win10锐捷客户端无法认证服务器怎么办?-处理win10锐捷客户端认证失败的方法 - 河东软件园...
  16. LOGO语言初学指南(一)下载LOGO
  17. win10修改计算机物理地址,两种方法教您修改Win10 Professional MAC物理地址
  18. Ubuntu18.04中cURL 77 错误:error setting certificate verify locations
  19. 网卡的HWADDR和MACADDR的区别?
  20. word 文档密码 html,Word文档密码解决打开方法

热门文章

  1. 46 SD配置-销售凭证设置-分配状态参数文件到项目类型
  2. 10.2 SQ02维护信息集
  3. python执行shell命令行_python执行命令行:python中执行shell命令行read结果
  4. mpython掌控板_用mpython x玩转掌控板——微信小程序 遇上掌控板
  5. Harbor的安装部署
  6. linux内核那些事之struct page
  7. 百度统计:网站统计实时访客报告
  8. PHPCMS商城:模块_购物车+订单模块(资源合集)
  9. js对象(Object)和字符串(String)互转 - 代码篇
  10. phpcmsV9导航栏目点击跳转始终是localhost首页 bug - 分析篇