爬虫可以从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

那么Python爬虫有什么用?网友纷纷给出自己的答案,爬虫能做的还是很多…

冰蓝:

北京买房时链家的房价只给了一小部分数据,远远不能满足需求。花了几个小时写了一个爬虫,爬下北京所有的小区信息及北京所有小区的历史成交记录,这样是不是很酷的爬虫。

森羴:

在用Python写网页爬虫之前,我只用来写过了一个驾校约车的脚本,让当时的我不惧上万的学车同僚,在约车环节没有输在起跑线上。

接着那段时间,我女朋友的领导每天下班都会下任务,要收集100条有招聘需求的信息,第二天检查。看到她每天熬夜百度+复制粘贴到半夜,心疼死了。

想到了某个牛人说:一切重复性的工作都可以用程序来完成。于是偷偷花了些时间研究了下她经常查的某些同类业务网站的页面数据,培育了这只爬虫。主要技能就是爬这些网站的招聘公司信息及联系方式,保存到Excel中。

在我将战斗成果----1000多个客户资料的Excel表格发给她的时候,先惊喜,后审问,再感慨!依稀记得那天她发了一条朋友圈,内容是:“有个程序员男朋友,感觉好幸福啊!!”成就感走直线啊,都能让她感到幸福,你说这只爬虫是不是做了很酷很有趣的事情呢?

柳易寒:

我用爬虫爬了我爱白菜网、超值分享汇、发现值得买、惠惠购物、今日聚超值、留住你、买手党、没得比、慢慢买、牛杂网、买个便宜货、什么值得买、天上掉馅饼、一分网、折800值得买、值值值等网站的折扣信息。

这些网站都是提供的一些及时的、性价比较高的商品,很多时候要一个一个网站的看(重度用户),很容易就会错过一些很划算的商品。

小白:

大二学生一枚,前段时间中期考试,成绩一直不出来,又不想每次都登录,突然就像用以下所学的东西来干点事情。

说干就干,花了我将近4个小时完成成绩提醒功能。主要是用Python定时抓取数据(定时用Ubuntu的crontab),分析数据是否变化,然后发送短信。其实大部分时间是花在分析学校模拟登陆那一块了,毕竟要提取各种值,还有url重定向,本来就才学Python,对一些东西也不是很熟悉。

运行起来之后还是效果还不错,10分钟抓一次,第一时间知道了我的概率论。。。

顾旻玮:

在学校的时候做过一个项目,通过爬微博的文字,分析国内各个地区的用户收听虾米的热度和最受欢迎的歌手。当然也没有用什么很复杂的技术,就是写基本的TF-IDF。

做完的时候觉得自己好有想法啊,能实现这么有意思的东西。后来发现早就有公司做过了。当然别人做的是美国版的。

于是现在,我就在这家公司工作。

陈乐群:

上次发现Android QQ和iOS QQ可以显示网络状态(2G/WiFi)之后,突然想到,这样子好像可以监视某人的出行和作息规律。简单的来说,在家里或者工作的地方,一般是有WiFi的,然后出门了,WiFi就断掉了。如果监测频率足够频繁,那么结合一定的推理,可以大致推测出一个人的行动。如果长期监视,那么可以大致推出一个人的作息时间。

因为只有Android QQ和iOS QQ有这个功能,所以要得到一个人的网络状态比较麻烦。我的做法是跑Android模拟器。然后用按键精灵模拟,并把网络状态截图,用curl post到服务器上。服务器会把每次发送的时间、截图保存下来。因为是用程序截图的,所以只要网络状态是一样的,那么截图就是一样的,这样服务器就只会保存23张图片而已,其余的发现是相同的图片,数据库做个标记就好了。然后人工做OCR,还是注意到只有23张图片,所以工作量很少。

得到数据后,要做各种统计就可以自己搞了……

晨晨:

朋友交易了一套房子,手机号流落到了各种中介手里,隔几天就有中介电话骚扰,不胜其烦。每接一个电话都加黑名单,但还是有新号码打过来,so⋯⋯问我咋办!

Android手机的拦截倒不是问题,但需要房产经纪人的号码数据库,就只能去网上爬了!

各个房产站的广州站点加上58什么的,一个多小时爬了快两万个号码,去重之后还有一万五千多⋯⋯

一时兴起,又去爬了深圳、北京和上海,现在都不知道拿这些号码去干嘛了⋯⋯

PS:貌似活跃房产经纪的数量能反应市场活跃度?

PS:我觉得我可以把全国城市的都爬下来。

孟德超:

非计算机系。所以我做的比起其他人来说要简单的多,但是却解决了一些很实用的问题,也让我认识到各行各业的人都需要学一点编程。

我一个同学做数学建模,需要57个城市两两之间的距离。他们本来想在百度查,可是57*56/2=1596,也就是说他们光查数据就要百度1596次。刚好我那个时候接触了一点爬虫,就找到一个可以查询距离的网站,大概写了几十行代码,两分钟就解决问题了。

余生梦:

说个简单实用的例子吧。昨晚突然发现我在某培训网站的的会员马上就要过期了,于是赶紧写了个爬虫,把没看完的教学视频全下载下来了……

学习爬虫的原因

学习爬虫,可以私人订制一个搜索引擎,并且可以对搜索引擎的数据采集工作原理进行更深层次地理解。

学习爬虫可以获取更多的数据源。这些数据源可以按我们的目的进行采集,去掉很多无关数据。

对于很多SEO从业者来说,学习爬虫,可以更深层次地理解搜索引擎爬虫的工作原理,从而可以更好地进行搜索引擎优化。

学习爬虫更有钱景。爬虫工程师是当前紧缺人才,并且薪资待遇普遍较高,所以,深层次地掌握这门技术,对于就业来说,是非常有利的。

以上就是六星教育Python培训为大家分享的“六星教育:Python爬虫有什么用?”谢谢大家观看,如果对Python感兴趣的话,想学Python培训的,可以搜索六星教育Python培训,我们将竭诚为你解答。

《Python高薪VIP体验课-百度可视化开源框架入门实战【六星教育】》 Python高薪VIP体验课,主要讲解百度可视化开源框架入门,零基础VIP体验班,包括了预习视频、学习资料代码包。

讲师分享多年宝贵开发经验,全程项目实战贯穿,由浅入深通俗易懂。

Python爬虫有什么用?相关推荐

  1. 关于Python爬虫原理和数据抓取1.1

    为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...

  2. python爬虫之Scrapy框架的post请求和核心组件的工作 流程

    python爬虫之Scrapy框架的post请求和核心组件的工作 流程 一 Scrapy的post请求的实现 在爬虫文件中的爬虫类继承了Spider父类中的start_urls,该方法就可以对star ...

  3. python爬虫抓取信息_python爬虫爬取网上药品信息并且存入数据库

    我最近在学习python爬虫,然后正好碰上数据库课设,我就选了一个连锁药店的,所以就把网上的药品信息爬取了下来. 1,首先分析网页 2,我想要的是评论数比较多的,毕竟好东西大概是买的人多才好.然后你会 ...

  4. python爬虫案例_推荐上百个github上Python爬虫案例

    现在学生都对爬虫感兴趣,这里发现一些好的github开源的代码,分享给各位 1.awesome-spider 该网站提供了近上百个爬虫案例代码,这是ID为facert的一个知乎工程师开源的,star6 ...

  5. Python培训分享:python爬虫可以用来做什么?

    爬虫又被称为网络蜘蛛,它可以抓取我们页面的一些相关数据,近几年Python技术的到来,让我们对爬虫有了一个新的认知,那就是Python爬虫,下面我们就来看看python爬虫可以用来做什么? Pytho ...

  6. 玩转 Python 爬虫,需要先知道这些

    作者 | 叶庭云 来源 | 修炼Python 头图 | 下载于视觉中国 爬虫基本原理 1. URI 和 URL URI 的全称为 Uniform Resource Identifier,即统一资源标志 ...

  7. 买不到口罩怎么办?Python爬虫帮你时刻盯着自动下单!| 原力计划

    作者 | 菜园子哇 编辑 | 唐小引 来源 | CSDN 博客 马上上班了,回来的路上,上班地铁上都是非常急需口罩的. 目前也非常难买到正品.发货快的口罩,许多药店都售完了. 并且,淘宝上一些新店口罩 ...

  8. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

  9. Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!

    Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...

  10. Python爬虫破解有道翻译

    有道翻译是以异步方式实现数据加载的,要实现对此类网站的数据抓取,其过程相对繁琐,本节我以有道翻译为例进行详细讲解. 通过控制台抓包,我们得知了 POST 请求的参数以及相应的参数值,如下所示: 图1: ...

最新文章

  1. HIVE QL 杂记
  2. python 断点下载_python多进程断点续传分片下载器
  3. 【编程之美】24点游戏
  4. 六面 Google,失败经验分享…
  5. Multidex实现简要分析
  6. jquery 插件闭包
  7. 开源linux_15本书(适合(希望)喜欢Linux和开源的孩子)
  8. Android 进阶第二篇——性能优化
  9. 2017-06-27
  10. LinkedListArrayList
  11. 内存测试软件 ddr4,DDR4内存芯片测试工具;DDR4内存检测仪
  12. (附源码)springboot火车票订票系统 毕业设计 171538
  13. 软件测试工程师薪酬水平,软件测试工程师工资怎么样?高吗?
  14. 第十二届全国大学生信息安全竞赛-RE部分WP(目前前两题,待更)
  15. 初学DSP(2)-TMS320F280049C代码探究
  16. 数据可视化学习笔记一——概述
  17. [vue][面试]谈一谈对vue组件化的理解?
  18. 2020CCFBDCI训练赛之通用音频分类baseline
  19. 亚马逊、ebay、沃尔玛测评自养号大额,退款的卖家需要解决的那些技术原理
  20. 字符串转成GB2312 十六进制转换为字符串

热门文章

  1. 闲话 - 终于明白HP为什么只有ATI 低端卡了
  2. 服务器上怎样开启sql远程,如何开启SqlServer 远程访问详解(图文并茂)
  3. mysql csv格式导入
  4. 基本概念学习(8005)---北桥
  5. 饿了么手机版-VUE2
  6. 全球区块链应用十大趋势
  7. ArcGIS中如何用栅格裁剪栅格
  8. 最新通知 | 5G+智慧灯杆融合发展论坛即将开启,欲报从速!
  9. 多级分销模块 java_java B2B2C 源码 多级分销Springcloud多租户电子商城系统- 整合企业架构的技术点(二)...
  10. 服务器能够自动解决的故障,巧妙设置让故障服务器自动报警的小技巧