记得去年10月份那会儿,正是校招高峰期,北邮人和水木上的校招信息特别多,各种企业都在疯狂地刷屏。 
  
于是每天我都要经常打开北邮人和水木的招聘信息版块,一页一页地筛选我所关注的公司和职位的校招信息,却仍然会漏掉一些重要的校招信息。 
  
重复的事情做久了,就有了自动化的想法。 
  
于是当时我写了一个小爬虫给自己用,选择爬取北邮人和水木的招聘信息版块,爬虫会根据自定义关键字(如“应届”、“校招”、“Google”)先对校招信息进行过滤,然后存储到本机redis中。本机若搭有lamp环境,那么直接从redis读取信息到web页面上即可。 
  
这个小爬虫的目的,就是把各路校招信息聚合在一起并且过滤出自己感兴趣的校招信息如Google的校招、百度的校招等等。 
  
此外,这个小玩意还帮了我大忙,13届阿里补招的时候让我在单位时间内看到了补招信息,火速投出简历并最终抓住了机会。 
  
据我所知,后来投递的应届生简历都已经晚了。 
  
天下武功,唯快不破。 
  
这个小爬虫在我的机器上跑了快一年了,虽然对它挺有感情,但如今对我来说也没有什么用了。新的一轮校招快到了,我决定把它分享出来,有需要的童鞋直接拿去就可以用,有兴趣的同学也可以很容易地扩展它,满足自己的个性化需求。 
  
初步介绍可以见博文

抓取北邮人论坛和水木社区校招信息的爬虫程序, 直接运行main.py即可在本机(http://127.0.0.1:8888)访问,非常简洁,可以扩展。

此外,已经增加手机短信通知功能,移动、联通、电信都可以用。

Talk is cheap, show you the code:https://github.com/lizherui/spider_python.

Enjoy it.

Talk is cheap, show you the code.

代码托管在github:https://github.com/lizherui/spider_python

下载地址:http://download.csdn.net/detail/gshengod/5999879

感谢@mmoonzhu的patch。 
  
PS:已增加手机短信通知功能,利用了139邮箱短信通知的原理,移动联通电信都可以用。 
  
Enjoy it.

网络爬虫--之爬起校招信息代码相关推荐

  1. 网络爬虫:爬取段子信息

    1.说明:利用requests和正则表达式方法,爬取糗事百科网中"文字"专题的段子信息,并把爬取的数据存储在本地文件中. 2.爬虫分析: (1)网址信息及规律: https://w ...

  2. python 爬虫热搜_Python网络爬虫之爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 1.分析网页的源代码:右键--查看网页源代码. 从网页代码中可以获取到信息 (1)热搜的名字都在 的子节点里 (2)热搜的排名都在 ...

  3. lofter 爬虫_Python网络爬虫1 - 爬取网易LOFTER图片

    LOFTER是网易出品的优质轻博客,灵感源于国外的tumblr,但比之更加文艺,更加本地化.本人非常喜欢LOFTER的UI设计,以及其中的优质用户和内容,似乎网易并不擅长推广,所以受众并不广泛.这都是 ...

  4. python爬虫微博热搜_Python网络爬虫之爬取微博热搜

    微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&am ...

  5. 【网络爬虫】爬取神奇宝贝Pokemon图鉴图片大全

    [网络爬虫]爬取神奇宝贝Pokemon图鉴 前言: 最近心血来潮,想要一个Pokemon图鉴,无可奈何网上没有相关的博客:后来想了想不如自己动手丰衣足食,就写了一个爬虫,成功从神奇宝贝Wiki百科爬取 ...

  6. python古诗默写_Python网络爬虫:爬取古诗文中的某个制定诗句来实现搜索

    Python网络爬虫:爬取古诗文中的某个制定诗句来实现搜索 发布时间:2020-07-20 23:48:19 来源:51CTO 阅读:883 python编译练习,为了将自己学习过的知识用上,自己找了 ...

  7. python网络爬虫_爬图片

    python网络爬虫_爬图片 1.安装 Beautifulsoup4 #解析返回的html与json数据pip install Beautifulsoup4 使用 :           运行后输入要 ...

  8. CrawlScript语言轻松实现网络爬虫——轻松爬取整站信息

    CrawlScript语言在beta0.3版本中集成了整站爬虫的功能,只需要简单几句,就可以完成对整站的爬取. 首先下载CrawlScript beta 0.3: CrawlScript beta 0 ...

  9. python爬虫可以爬取个人信息吗_手把手教你利用Python网络爬虫获取旅游景点信息...

    爬虫系列: 当我们出去旅游时,会看这个地方有哪些旅游景点,景点价格.开放时间.用户的评论等. 本文基于Python网络爬虫技术,以hao123旅游网为例,获取旅游景点信息. 1.项目目标 获取网站的景 ...

最新文章

  1. 锁定计算机的事件日志,关闭并重新启动计算机后意外地在系统事件日志中记录了事件 ID 6008...
  2. 服务器如何开启远程控制,远程控制命令设置方法介绍
  3. 面向对象三大特性 -- 继承,封装,多态
  4. 正确理解hibernate的inverse属性
  5. linux之so文件、a文件、o文件的区别
  6. 终于知道以后该咋办了!
  7. 第一台电子计算机采用哪位科学家,计算机基础知识试题及答案解析
  8. 在请求目标中找到无效字符。有效字符在RFC 7230和RFC 3986中定义
  9. 值班 查看及重启系统
  10. 3D蓝光影碟的SSIF文件
  11. linux挖矿检测,详谈挖矿木马的检测和解决方案
  12. ArcGIS学习总结(六)——地形分析-DEM应用
  13. 项目微商城的抽奖活动小结
  14. EOS dice移到1.8版本的修改汇总
  15. 从浏览器沦为系统毒瘤:无法禁用的IE背后,是几百亿的家族生意。。。
  16. VS2017 -error LNK1104: 无法打开文件“msvcprtd.lib”
  17. Intel (Altera) LVDS
  18. 虚拟服务器 dmz区别,dmz主机和虚拟服务器区别(tp路由器虚拟服务器能干嘛)...
  19. 厦大博士学位论文抄袭案后续
  20. 调整系统时间,导致https站点无法访问,skype无法登陆等问题

热门文章

  1. Springboot验证表单数据和自定义验证
  2. IPv6扩展头部 (三) 路由头部 Routing Header for IPv6
  3. dockerfile构建镜像的命令_编写Dockerfile的最佳实践
  4. python中不同类型的数据不能相互运算_python数据类型和运算
  5. 计算机网络按定义分,计算机网络定义及其分类
  6. mac mysql 安装日志_Mac 安装 MySQL
  7. noip考python吗_青少年信奥联赛(NOIP)改名重推实锤!带着“不建议”硬刚到底?...
  8. Qt中的QPrintDialog
  9. android base64解密,android Base64 AES加密解密
  10. android基础(基本框架的构成)