写爬虫的小伙伴要注意,爬虫一时爽,但不是一直爬一直爽

如果你的爬虫触犯了法律,可是要承担责任的哦,那么什么样的爬虫才算是安全的爬虫呢?

法律条文,咱也研究不明白,结合实际情况,给几点建议吧

1、爬虫访问频次要控制,别把对方服务器搞崩溃了

虽然你爬取的信息都是公开的,也不涉及公民隐私,爬取的数据也不用于违法获利,只是自己弄着玩,但是如果你的爬虫太疯狂了,一分钟请求1万次,导致对方服务器应接不暇,不能处理正常业务了,对不起,你这种属于违法行为,这种爬虫等同于进行黑客攻击了,你让人家不能正常工作了,损害了对方的利益

2、 涉及到个人隐私的信息你不能爬

其实这很好理解,你希望你自己的电话号,身份证号,家庭住址,工作单位,行踪轨迹这些隐私信息被别人用爬虫抓取么?当然不希望,别人抓了你的这些信息,你肯定想去报警对不对,让警察去抓那个坏蛋,ok,你不要去做那个坏蛋。

3、 突破网站的反爬措施,后果很严重

正规的网站都会在根目录下放置 robots.txt,这里就规定了哪些能爬,哪些不能爬,谁可以爬,比如知乎的robots.txt

  • https://www.zhihu.com/robots.txt​www.zhihu.com/robots.txt

人家希望搜索引擎来爬它,其他的,一概不接受

User-Agent: *
Disallow: /

不过呢,知乎并没有做特别严厉的反爬措施,这就是说,如果你偷偷的爬一点东西,不影响它的正常服务,它也懒得找你麻烦,但对于那种反爬特别严重的,例如淘宝,你最好别去爬,如果你真的利用你的高智商突破了淘宝的反爬措施,那么恭喜你,你已经违法了

4、 不要用爬取的数据做不正当竞争

比如你把大众点评的评论数据都爬下来了,然后自己搞了一个xx点评,这肯定不行,人家辛辛苦苦的积累的数据,你轻轻松松的弄下来,直接拿来主义,跟人家搞竞争,你不违法谁违法。

5、 付费内容,你不要抓

既然是付费内容,说明这东西价值很高,付费才能看,你弄下来了,你想干啥?你私自传播,就对网站造成了潜在损失。

6、最后一条,突破网站反爬措施的代码,最好不要上传到网上

你技术很牛逼,能突破网站的反爬措施,你把这些代码发布到网上,比如github,你自己没做啥坏事,可是想做坏事的人利用了你的代码,入侵了网站,那么,这种情况下,你也是有责任的,这个听起来有点冤,但确实存在这样的风险,所以,最好还是不要这么干。

程序人生 - 不要触犯法律,编写安全爬虫的几点建议相关推荐

  1. 使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站

    使用PyCharm编写Scrapy爬虫程序,爬取古诗词网站 本次测试案例参考厦门大学数据库实验室 链接: https://dblab.xmu.edu.cn/blog/3937/ 在PyCharm中新建 ...

  2. 【Books】推荐书单(算法、JavaWeb、Python爬虫、机器学习、程序人生、人文社科)

    回想我的大学四年,看了很多有价值的书(总计300多本),很感谢这些书及其作者,所以我写了这样一个书籍推荐列表-这些书籍都是我都认真看过并觉得值得推荐的-希望能对你们有一些帮助- PS:有些书可能出了最 ...

  3. 程序人生 | (7) “新一五计划”(博客导航)

    NLP顶会截稿时间 去年9月底,我大四的时候,曾写了一篇题为"一五计划"的博文,这也是我正式写博客以来的第一篇,其中粗浅的表达了我对入门深度学习和自然语言处理的一些看法和学习路线. ...

  4. python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...

    原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...

  5. python网络爬虫的基本步骤-黑客基础 编写Python爬虫入门步骤

    原标题:黑客基础 编写Python爬虫入门步骤 信息时代,数据就是宝藏.数据的背后隐含着无穷的宝藏,这些宝藏也许就是信息量所带来的商业价值,而大数据本身也将成为桌面上的筹码. 黑客花无涯 带你走进黑客 ...

  6. 畅谈程序人生暨孙鑫老师与读者交流会

    博文视点大讲堂第4期 "畅谈程序人生暨孙鑫老师与读者交流会"与您相约12月7日 已日趋成熟和完善的博文视点大讲堂,12月7日即将推出它的第四期--"畅谈程序人生暨孙鑫老师 ...

  7. 雷军:如果程序人生的话,这条路太漫长

    点击上方"大鱼机器人",选择"置顶/星标公众号" 福利干货,第一时间送达! 这篇文章是在雷总个人博客看到的,里面聊到了他作为程序员的一些经历.初衷以及思考.写的 ...

  8. 无心剑随感《程序人生乐无穷》

    程序人生乐无穷 写文章讲究义理和词章,义理为骨,词章为肉,一篇文章有义理而缺乏文采,当然是不能打动人的,孔子好像说过:言而无文,行之不远,足见文采对于一篇文章的重要性.反之,一篇文章有文采而缺乏义理, ...

  9. python爬虫步骤-黑客基础 编写Python爬虫入门步骤

    原标题:黑客基础 编写Python爬虫入门步骤 信息时代,数据就是宝藏.数据的背后隐含着无穷的宝藏,这些宝藏也许就是信息量所带来的商业价值,而大数据本身也将成为桌面上的筹码. 黑客花无涯 带你走进黑客 ...

最新文章

  1. nginx安装-添加MP4播放模块
  2. css颜色rgba代码对照表_改善 CSS 的 10 个最佳实践
  3. ASP.NET MVC WebAPI 资源整理
  4. VTK:可视化算法之DecimateHawaii
  5. 全面理解Java中的String数据类型
  6. python之操作系统介绍,进程的创建
  7. SpringMVC的请求-文件上传-单文件上传的代码实现2
  8. android .9编译,在Ubuntu 9.04下编译Android源码
  9. InterruptedException的学习
  10. python sum_Python sum()
  11. MPAndroidChart绘制图形表
  12. 计算机英语词汇_通信人必备英语词汇大全
  13. three.js视频教程2022最新
  14. 条码打印软件如何在二维码中间添加logo图片
  15. 基于FPGA的中值滤波器设计
  16. 写SQL的21个好习惯
  17. <van-list> </van-list>列表组件的使用
  18. C语言学习(三)数据-浮点类型
  19. C#中 out 参数的使用
  20. 商品列表页面 html,商品列表模板

热门文章

  1. QT子类调用父类的ui
  2. nginx报错worker_processes directive is duplicate
  3. 用R语言进行KM生存分析
  4. Cadence17.4打开低版本.brd文件提示The design was last saved using version 15 and must be updated using DC Doct
  5. 嵌入式开发ARM Cortex-M33处理器详解
  6. 2021年山东省安全员C证考试报名及山东省安全员C证证考试
  7. Node.js在携程的落地和最佳实践
  8. 计算机任务无法结束,电脑无法通过任务管理器结束一些卡死的程序怎么解决
  9. Java 通过 Socket 实现小票打印
  10. jsw管理tomcat