爬虫可以从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

难道爬虫真的只是这样么?

小编特地询问很多网友Python有什么用,大家给出答案也是五花八门。

@冰蓝

之前在北京买房,谁想房价开始疯长,链家的房价等数据分析只给了一小部分,远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫,爬下了北京所有的小区信息及北京所有小区的所有历史成交记录。

@陈乐群

上次发现Android QQ和iOS QQ可以显示网络状态(2G/WiFi)之后,突然想到,这样子好像可以监视某人的出行和作息规律。简单的来说,在家里或者工作的地方,一般是有WiFi的,然后出门了,WiFi就断掉了。如果监测频率足够频繁,那么结合一定的推理,可以大致推测出一个人的行动。如果长期监视,那么可以大致推出一个人的作息时间。

因为只有Android QQ和iOS QQ有这个功能,所以要得到一个人的网络状态比较麻烦。我的做法是跑 Android 模拟器。然后用按键精灵模拟,并把网络状态截图,用 curl post到服务器上。服务器会把每次发送的时间、截图保存下来。因为是用程序截图的,所以只要网络状态是一样的,那么截图就是一样的,这样服务器就只会保存23张图片而已,其余的发现是相同的图片,数据库做个标记就好了。然后人工做OCR,还是注意到只有23张图片,所以工作量很少。

得到数据后,要做各种统计就可以自己搞了……

@森羴

在用Python写网页爬虫之前,我只用来写过了一个驾校约车的脚本,让当时的我不惧上万的学车同僚,在约车环节没有输在起跑线上。

接着那段时间,我女朋友的领导每天下班都会下任务,要收集100条有招聘需求的信息,第二天检查。看到她熬夜百度+复制粘贴到半夜,心疼死了。

想到了某个牛人说:一切重复性的工作都可以用程序来完成。于是偷偷花了些时间研究了下她经常查的某些同类业务网站的页面数据,培育了这只爬虫。主要技能就是爬这些网站的招聘公司信息及联系方式,保存到Excel中。

在我将战斗成果----1000多个客户资料的Excel表格发给她的时候,先惊喜,后审问,再感慨!依稀记得那天她发了一条朋友圈,内容是:“有个程序员男朋友,感觉好幸福啊!!”成就感走直线啊,都能让她感到幸福,你说这只爬虫是不是做了很酷很有趣的事情呢?

@柳易寒

我用爬虫爬了我爱白菜网、超值分享汇、发现值得买、惠惠购物、今日聚超值、留住你、买手党、没得比、慢慢买、牛杂网、买个便宜货、什么值得买、天上掉馅饼、一分网、折800值得买、值值值等网站的折扣信息。

这些网站都是提供的一些及时的、性价比较高的商品,很多时候要一个一个网站的看(重度用户),很容易就会错过一些很划算的商品。

@小白

大二学生一枚,前段时间中期考试,成绩一直不出来,又不想每次都登录,突然就像用以下所学的东西来干点事情。

说干就干,花了我将近4个小时完成成绩提醒功能。主要是用Python定时抓取数据(定时用Ubuntu的crontab),分析数据是否变化,然后发送短信。其实大部分时间是花在分析学校模拟登陆那一块了,毕竟要提取各种值,还有url重定向,本来就才学Python,对一些东西也不是很熟悉。

运行起来之后还是效果还不错,10分钟抓一次,第一时间知道了我的概率论。。。

@顾旻玮

在学校的时候做过一个项目,通过爬微博的文字,分析国内各个地区的用户收听虾米的热度和最受欢迎的歌手。当然也没有用什么很复杂的技术,就是写基本的TF-IDF。

做完的时候觉得自己好有想法啊,能实现这么有意思的东西。后来发现早就有公司做过了。当然别人做的是美国版的。

于是现在,我就在这家公司工作。

@晨晨
朋友交易了一套房子,手机号流落到了各种中介手里,隔几天就有中介电话骚扰,不胜其烦。每接一个电话都加黑名单,但还是有新号码打过来,so⋯⋯问我咋办!

Android 手机的拦截倒不是问题,但需要房产经纪人的号码数据库,就只能去网上爬了!

各个房产站的广州站点加上58什么的,一个多小时爬了快两万个号码,去重之后还有一万五千多⋯⋯

一时兴起,又去爬了深圳、北京和上海,现在都不知道拿这些号码去干嘛了⋯⋯

PS:貌似活跃房产经纪的数量能反应市场活跃度?

@孟德超

非计算机系。所以我做的比起其他人来说要简单的多,但是却解决了一些很实用的问题,也让我认识到各行各业的人都需要学一点编程。

我一个同学做数学建模,需要57个城市两两之间的距离。他们本来想在百度查,可是57*56/2=1596,也就是说他们光查数据就要百度1596次。刚好我那个时候接触了一点爬虫,就找到一个可以查询距离的网站,大概写了几十行代码,两分钟就解决问题了。

@余生梦

说个简单实用的例子吧。昨晚突然发现我在某培训网站的的会员马上就要过期了,于是赶紧写了个爬虫,把没看完的教学视频全下载下来了……

@ animalize

用爬虫技术做了个个人信息收集系统,部署在卡片式电脑(如树莓派、Cubieboard)上。

为什么Python更适合爬虫

  • C,C++。高效率,快速,适合通用搜索引擎做全网爬取。缺点,开发慢,写起来又臭又长

  • 脚本语言:Perl, Python, Java, Ruby。简单,易学,良好的文本处理能方便网页内容的细致提取,但效率往往不高,适合对少量网站的聚焦爬取

  • C#?(貌似信息管理的人比较喜欢的语言)

  1. 因为写爬虫是一边写,一边测试。测试不过再改改。这个过程用 python 写起来最方便。

  2. Python 有 scrapy 这样成熟的框架,我们大可不必自己从0开始

  3. 即使从0开始,以 Python 简洁的语法和一大波成熟的库,写起来相当的快。

学习爬虫的原因

  • 学习爬虫,可以私人订制一个搜索引擎,并且可以对搜索引擎的数据采集工作原理进行更深层次地理解。

  • 学习爬虫可以获取更多的数据源。这些数据源可以按我们的目的进行采集,去掉很多无关数据。

  • 对于很多SEO从业者来说,学习爬虫,可以更深层次地理解搜索引擎爬虫的工作原理,从而可以更好地进行搜索引擎优化。

  • 学习爬虫更有钱景。爬虫工程师是当前紧缺人才,并且薪资待遇普遍较高,所以,深层次地掌握这门技术,对于就业来说,是非常有利的。

除了以上为大家总结的4种常见的学习爬虫的原因,在下方留言评论说说你学习Python爬虫的原因

*声明:本文于网络整理,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权事宜。

Python爬虫有什么用,网友纷纷给出自己的答案,爬虫能做的还是很多的相关推荐

  1. 【Python合集系列】爬虫有什么用,网友纷纷给出自己的答案,王老师,我..我想学那个..爬虫。可以嘛?“(代码免费分享)

    导语 Hello,大家好呀!我是木木子吖- 一个集美貌幽默风趣善良可爱并努力码代码的程序媛一枚. 听说关注我的人会一夜暴富发大财哦~ (哇哇哇 这真的爱

  2. python强制结束函数_为什么Python没有 main 函数?终于有人给出了正确答案!

    毫无疑问,Python中没有所谓的 main 入口函数,但在网上经常有文章提到"Python中的main函数"和"建议编写main函数"等. 他们的目的可能是模 ...

  3. python简单好看的代码_Python新手写出漂亮的爬虫代码1

    初到大数据学习圈子的同学可能对爬虫都有所耳闻,会觉得是一个高大上的东西,仿佛九阳神功和乾坤大挪移一样,和别人说"老子会爬虫",就感觉特别有逼格,但是又不知从何入手,这里,博主给大家 ...

  4. python爬取网页防止重复内容_python解决网站的反爬虫策略总结

    本文详细介绍了网站的反爬虫策略,在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下. 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分.这里我们只讨论数据采集部分. 一般网站从三个方面 ...

  5. python简单爬虫代码-python爬虫超简单攻略,带你写入门级的爬虫,抓取上万条信息...

    原标题:python爬虫超简单攻略,带你写入门级的爬虫,抓取上万条信息 最近经常有人问我,明明看着教程写个爬虫很简单,但是自己上手的时候就麻爪了...那么今天就给刚开始学习爬虫的同学,分享一下怎么一步 ...

  6. python 仪表盘实现_Python实现数据可视化看如何监控你的爬虫状态【推荐】

    今天主要是来说一下怎么可视化来监控你的爬虫的状态. 相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样.今天我来讲一种可视化的方法. 关于爬虫数据 ...

  7. python爬取软件内数据_各种数据爬取工具爬虫合集整理

    却道天凉好个秋~ 不用编程敲代码的爬取数据的工具合集,简单上手易用的爬虫脚本工具软件汇总 1.工具软件类: Microsoft Excel excel也可以爬一些规整的表格数据等,没想到吧! 八爪鱼 ...

  8. python爬虫爬取新闻实战01:小白如何迅速学会爬虫爬取上千条新闻

    爬虫爬取新闻实战01:小白如何迅速学会爬虫爬取千条新闻 文章目录 爬虫爬取新闻实战01:小白如何迅速学会爬虫爬取千条新闻 1.前言 2 .爬虫原理介绍 2.1.图片爬虫 2.2 文字爬虫 3.用八爪鱼 ...

  9. python爬虫,记录爬取全球所有国家-首都的简单爬虫

    python爬虫,记录爬取全球所有国家-首都的简单爬虫 本来以为简单至极,没想到获取数据还是花费了大把功夫.先上图 <table> <tr> <td> <st ...

最新文章

  1. 记一次升级Oracle驱动引发的死锁
  2. VirtualBox使用技巧
  3. LeetCode 951. 翻转等价二叉树(递归)
  4. 大脑使用书全6册有用吗_常锻炼“人体第二大脑”的孩子,不仅智商高,记忆力也很强...
  5. 让机器也拥有品味!时尚图像补全网络FiNet| ICCV 2019 Oral
  6. 【FLink】Flink SQL代码生成与UDF重复调用的优化
  7. 论文笔记_S2D.44_自监督的从稀疏到稠密:用激光雷达和单目摄像机进行自监督深度补全
  8. 最新ECSHOP解闷商城系统+休闲娱乐EC购物商城源码
  9. 暗黑3 外挂开发资料
  10. java如何让源码加密还能运行_如何有效防止Java程序源码被人偷窥?
  11. 如何将ape转换mp3格式
  12. 服务器建网站要数据库,云服务器建网站需要数据库
  13. Cobbler批量安装操作系统配置实战
  14. Myshare.cc 图床对接ShareX自定义图片上传
  15. 小程序源码《表情包多样版》
  16. 可以EI检索的国际会议论文,对学术研究和资历积累有用吗?
  17. 亚马逊运营关于卖家收到侵权邮件怎么办?
  18. MonoRail和WebForm,谁是瑞士军刀
  19. 【历史上的今天】9 月 18 日:McAfee 创始人出生;ICANN 成立;QQ 宠物正式下线
  20. pdf中如何更改文字的颜色

热门文章

  1. golang map合并_Golang之流式编程
  2. 公众号里面套页面_微信公众号页面模板有什么用?开通的方法是什么?
  3. java se 1335,1335.逼退法王
  4. java jtextarea滚动条下滑,关于JTextArea的滚动条问题
  5. centos更改默认python_CentOS系统python默认版本由python2改为python3
  6. 【script】python多线程模块threading的使用
  7. shell查询年月日(可以作为crontab判断年月日)
  8. python 测试mysql数据库_Python MySQL 数据库之测试索引
  9. java 1是flase_Java这段代码为什么会返回 false?传入的是字符串[1,1]
  10. c语言中的数据变量类型,大小