整站下载器:siteSucker

https://blog.csdn.net/l_215851356/article/details/54377582

http://python.jobbole.com/89209/

https://blog.csdn.net/qzc70919700/article/details/73309117/

@冰蓝

之前在北京买房,谁想房价开始疯长,链家的房价等数据分析只给了一小部分,远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫,爬下了北京所有的小区信息及北京所有小区的所有历史成交记录。

@陈乐群

上次发现Android QQ和iOS QQ可以显示网络状态(2G/WiFi)之后,突然想到,这样子好像可以监视某人的出行和作息规律。简单的来说,在家里或者工作的地方,一般是有WiFi的,然后出门了,WiFi就断掉了。如果监测频率足够频繁,那么结合一定的推理,可以大致推测出一个人的行动。如果长期监视,那么可以大致推出一个人的作息时间。

因为只有Android QQ和iOS QQ有这个功能,所以要得到一个人的网络状态比较麻烦。我的做法是跑 Android 模拟器。然后用按键精灵模拟,并把网络状态截图,用 curl post到服务器上。服务器会把每次发送的时间、截图保存下来。因为是用程序截图的,所以只要网络状态是一样的,那么截图就是一样的,这样服务器就只会保存2~3张图片而已,其余的发现是相同的图片,数据库做个标记就好了。然后人工做OCR,还是注意到只有2~3张图片,所以工作量很少。

得到数据后,要做各种统计就可以自己搞了……

@森羴

在用Python写网页爬虫之前,我只用来写过了一个驾校约车的脚本,让当时的我不惧上万的学车同僚,在约车环节没有输在起跑线上。

接着那段时间,我女朋友的领导每天下班都会下任务,要收集100条有招聘需求的信息,第二天检查。看到她熬夜百度+复制粘贴到半夜,心疼死了。

想到了某个牛人说:一切重复性的工作都可以用程序来完成。于是偷偷花了些时间研究了下她经常查的某些同类业务网站的页面数据,培育了这只爬虫。主要技能就是爬这些网站的招聘公司信息及联系方式,保存到Excel中。

在我将战斗成果----1000多个客户资料的Excel表格发给她的时候,先惊喜,后审问,再感慨!依稀记得那天她发了一条朋友圈,内容是:“有个程序员男朋友,感觉好幸福啊!!”成就感走直线啊,都能让她感到幸福,你说这只爬虫是不是做了很酷很有趣的事情呢?

@柳易寒

我用爬虫爬了我爱白菜网、超值分享汇、发现值得买、惠惠购物、今日聚超值、留住你、买手党、没得比、慢慢买、牛杂网、买个便宜货、什么值得买、天上掉馅饼、一分网、折800值得买、值值值等网站的折扣信息。

这些网站都是提供的一些及时的、性价比较高的商品,很多时候要一个一个网站的看(重度用户),很容易就会错过一些很划算的商品。

@小白

大二学生一枚,前段时间中期考试,成绩一直不出来,又不想每次都登录,突然就像用以下所学的东西来干点事情。

说干就干,花了我将近4个小时完成成绩提醒功能。主要是用Python定时抓取数据(定时用Ubuntu的crontab),分析数据是否变化,然后发送短信。其实大部分时间是花在分析学校模拟登陆那一块了,毕竟要提取各种值,还有url重定向,本来就才学Python,对一些东西也不是很熟悉。

运行起来之后还是效果还不错,10分钟抓一次,第一时间知道了我的概率论。。。

@顾旻玮

在学校的时候做过一个项目,通过爬微博的文字,分析国内各个地区的用户收听虾米的热度和最受欢迎的歌手。当然也没有用什么很复杂的技术,就是写基本的TF-IDF。

做完的时候觉得自己好有想法啊,能实现这么有意思的东西。后来发现早就有公司做过了。当然别人做的是美国版的。

于是现在,我就在这家公司工作。

@晨晨

朋友交易了一套房子,手机号流落到了各种中介手里,隔几天就有中介电话骚扰,不胜其烦。每接一个电话都加黑名单,但还是有新号码打过来,so⋯⋯问我咋办!

Android 手机的拦截倒不是问题,但需要房产经纪人的号码数据库,就只能去网上爬了!

各个房产站的广州站点加上58什么的,一个多小时爬了快两万个号码,去重之后还有一万五千多⋯⋯

一时兴起,又去爬了深圳、北京和上海,现在都不知道拿这些号码去干嘛了⋯⋯

PS:貌似活跃房产经纪的数量能反应市场活跃度?

PS:我觉得我可以把全国城市的都爬下来。

@孟德超

非计算机系。所以我做的比起其他人来说要简单的多,但是却解决了一些很实用的问题,也让我认识到各行各业的人都需要学一点编程。

我一个同学做数学建模,需要57个城市两两之间的距离。他们本来想在百度查,可是57*56/2=1596,也就是说他们光查数据就要百度1596次。刚好我那个时候接触了一点爬虫,就找到一个可以查询距离的网站,大概写了几十行代码,两分钟就解决问题了。

@余生梦

说个简单实用的例子吧。昨晚突然发现我在某培训网站的的会员马上就要过期了,于是赶紧写了个爬虫,把没看完的教学视频全下载下来了……

@ animalize

用爬虫技术做了个个人信息收集系统,部署在卡片式电脑(如树莓派、Cubieboard)上。

python爬虫技术可以干什么-Python实战:网络爬虫都能干什么?相关推荐

  1. python爬虫技术可以干什么-python除了爬虫还能干嘛

    Python 的应用领域主要有如下几个. Web应用开发 Python 经常被用于 Web 开发.例如,通过 mod_wsgi 模块,Apache 可以运行用 Python 编写的 Web 程序.Py ...

  2. python爬虫技术可以干什么-Python除了爬虫,还能干啥?

    最近有不少朋友还在疑问 Python 除了爬虫之外,还能应用到什么地方,那么小编,接下来就来说说我知道的可以使用 Python 做的事情,让你发现更多的方向. 1.爬虫 这玩意不用我多说了,最近分享的 ...

  3. python爬虫技术如何挣钱?教你爬虫月入三万

    爬虫技术挣钱方法1:接外包爬虫项目 这是网络爬虫最通常的的挣钱方式,通过外包网站,熟人关系接一个个中小规模的爬虫项目,一般向甲方提供数据抓取,数据结构化,数据清洗等服务. python爬虫技术如何挣钱 ...

  4. python爬虫技术如何挣钱?教你爬虫月入三万!

    爬虫技术挣钱方法1:接外包爬虫项目 这是网络爬虫最通常的的挣钱方式,通过外包网站,熟人关系接一个个中小规模的爬虫项目,一般向甲方提供数据抓取,数据结构化,数据清洗等服务. 各位新入行的猿人看官大多都会 ...

  5. python 爬虫解决登录验证问题_python网络爬虫的简单实践——解决无验证模拟登陆问题...

    正文开始以前先唠叨几句,一直以来都是自己在网络各大论坛上向大佬们学习东西,如今因为疫情困在家里写毕设,闲余之时也瞎捣鼓了一下,于是想在这里写一点东西,算是自己学习的一个笔记,再一个就是发现网上的教程质 ...

  6. Python爬虫工程师 3个月成为网络爬虫工程师

    攻城狮整理网易云课堂<Python爬虫工程师 3个月成为网络爬虫工程师> 1.平均薪资高 入行爬虫工程师薪资可达15w 高级爬虫工程师薪资可达30w 2.入行门槛低 从事爬虫工程师职位最多 ...

  7. 网易微专业python爬虫工程师一期多久_微专业-Python爬虫工程师 – 3个月成为网络爬虫工程师...

    [2020最新]Python爬虫工程师 – 3个月成为网络爬虫工程师 课程简介 1.平均薪资高 入行爬虫工程师薪资可达15w高级爬虫工程师薪资可达30w

  8. Python之父强烈推荐,Python3网络爬虫开发实战,爬虫入门必看书籍,豆瓣评分9.2

    实操性很强的一本工具书,由浅入深,深入浅出.前面从环境配置到爬虫原理.基本库和解析库的使用再到数据存储,一步步把基础打好,然后再分门别类介绍了Ajax.动态页.验证码.App的爬取.识别等,还讲解了代 ...

  9. python爬虫技术源码_实战|手把手教你用Python爬虫(附详细源码)

    大家好,我是J哥,专注原创,致力于用浅显易懂的语言分享爬虫.数据分析及可视化等干货,希望人人都能学到新知识.最近J哥做了个爬虫小项目,感觉还挺适合新手入门的,于是迫不及待想分享给大家. 什么是爬虫? ...

最新文章

  1. linux shell 字符串查找
  2. oracle服务器环境建立,oracle 透明网关环境的建立
  3. 36篇博文带你学完opencv :python3+opencv学习笔记汇总目录(基础版)
  4. linux下运行lua,linux下配置Lua运行环境
  5. IB COM Read
  6. linux gcc 示例_最好的Linux示例
  7. [vue] vue变量名如果以_、$开头的属性会发生什么问题?怎么访问到它们的值?
  8. 深度 | 面向云原生数据湖的元数据管理技术解析
  9. assoc_Ruby assoc()函数
  10. 数据复制技术(三)---实践操作全过程图文并貌
  11. java 弹性碰撞_球体弹性碰撞位置和速度计算算法
  12. can总线短距离不用双绞线_汽车中的总线系统——以太网(2)博通出世
  13. hdu 3926 hands in hands
  14. Win10安装.msi文件出现问题
  15. 7.用户登陆,用户退出,记住用户名和密码
  16. 图书管理系统需求规格说明文档目录_一个已经超越普通设计素材管理范畴的文档管理软件—Eagle...
  17. 操作系统(一)—— 概论(1):导论
  18. 分析一个简单的汇编代码
  19. PrintWriter out=response.getWriter()的问题
  20. 数据分析 --- 收集数据的原则

热门文章

  1. php下关于Cannot use a scalar value as an array的解决办法
  2. [转载]TEQC命令集合
  3. Spring Hiernate整合
  4. T-SQL 控制流语句
  5. MFC软件工程架构模型-模式窗口-非模式窗口
  6. 【转】nagios 命令解释
  7. 【原创】再见,CVT----记搓人的第一次找实习
  8. Opne GL ES 学习心得!
  9. 推荐6个HTML5编辑器
  10. 5gnr帧结构特点有哪些_厂区隔离网有哪些特点?为什么普遍采用框架式结构?...