今天星期六OJ的蛋疼,于是就找点其他的事情干,忽然在知乎上看到一个帖子说自己找工作各种受挫的,找工作?于是就看到回答的人的签名是招聘员工的,觉得这个是不错的主意。是的,有点想写那么个能爬知乎签名的爬虫,并把招聘类的刷选出来的工具的冲动。后来觉得这个相当于把整个知乎遍历了一边,知乎能同意吗?那就爬自己学校的就业信息网吧。

上学校的就业信息网站 点击打开链接看看了,打开与源码瞄了一下,我是本科生在南校区,相关的代码是这样的:

 <!--南校区招聘会安排--><div id="con_two_2" style="display:none;"><table border="1" cellpadding="0" bordercolor="#333333"><tr><td colspan="3"><font color="#ff0000">最新南校区招聘会安排(点公司名字查看详情)</font></td></tr><tr><td width="50%">公司</td>                      <td width="20%">地点</td><td width="30%">时间</td> </tr><tr><td><a href="/html/zpxx/nxqzph/2014/0924/25610.html" title="晶能光电(江西)有限公司" target="_blank">晶能光电(江西)有限公司</a> </td><td>就业中心116</td>                                              <td>14/10/25 9:00-12:00</td></tr></tr><tr><td><a href="/html/zpxx/nxqzph/2014/1015/26296.html" title="吉林华微电子股份有限公司" target="_blank">吉林华微电子股份有限公司</a> </td><td>D206</td>                                              <td>14/10/25 10:00-12:00</td></tr></tr>

我们的目标是把其中的公司名称,介绍链接,宣讲会时间和地点给爬出来。最后的目标是实现给定制的手机号码发送通知短信,截止到目前为止已经把公司名称,介绍链接提取出来来,后面会把其余的更新。

这里为了减少使用正则(其实爬虫的关键就是正则)使用了BeautifulSoup,相关的帮助文档可以看这里链接

下面上源码,由于中文容易出错,就用了英文注释,Python爬虫的入门教程可以看看这个博客链接,其实如果有Python和html等基础的话,写个爬虫就真的简单的不的了。

#!/usr/bin/python
# coding:utf-8
# FileName:Spider
# author:doodlesomething@163.com
# version:1.1
# date:10-24-2014import urllib2
import sys
import re
import os
import urllib
import bs4def Get_Page(GetUrl):# set header to hiddenMyHeaders = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6',  'Referer':GetUrl,    'X-Forwarded-For':'127.0.0.1'}req = urllib2.Request(url = GetUrl,headers = MyHeaders)# the following just to show what we have send#httpHandler = urllib2.HTTPHandler(debuglevel = 1)#httpsHandler = urllib2.HTTPSHandler(debuglevel = 1)#opener = urllib2.build_opener(httpHandler,httpsHandler)#urllib2.install_opener(opener)# handle the errortry:response  = urllib2.urlopen(req)except urllib2.URLError,e:return econtent = response.read()content = bs4.BeautifulSoup(content,from_encoding = 'GB18030')return contentdesUrl = 'http://job.xidian.edu.cn/index.html'
page_content = Get_Page(desUrl)
div =str(page_content.findAll('div',id='con_two_2')[0])# Get more info link
reg = r'href="(.+?\.html)"'
urlreg = re.compile(reg)
urllist = re.findall(urlreg,div)# Get company
reg_1 = r'title="(.+?)"'
treg = re.compile(reg_1)
tlist = re.findall(treg,div)# output
i = 0
while i < len(tlist):print 'company:%s' % tlist[i] + ' url:http://job.xidian.edu.cn%s'%urllist[i]i += 1

上张效果图:

其实上面的代码就已经是简单爬虫的框架了,把相应的url和正则一改就可以用到其他地方了。之后有时间在相继的功能完善,其实还是我正则不过关,没把它写完整。

小小Python爬虫一相关推荐

  1. 小小Python爬虫(0)

    #目前问题:爬一会就报"RuntimeError: can't start new thread"错误 #Python的语法有些不太适应,这两天从网上搬了些代码组了个小爬虫,把糗事 ...

  2. python爬虫百科-python爬虫百科

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 专业点来说就是应用多台机器同时实现爬虫任务,这多台机器上的爬虫,就是称作分布式爬虫 ...

  3. python爬虫抓取图片-python网络爬虫源代码(可直接抓取图片)

    在开始制作爬虫前,我们应该做好前期准备工作,找到要爬的网站,然后查看它的源代码我们这次爬豆瓣美女网站,网址为:用到的工具:pycharm,这是它的图标 ...博文来自:zhang740000的博客 P ...

  4. 快速学python爬虫_Python爬虫丨应当如何快速高效学习

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:小小科 ( 想要学习Python?Python学习交流 ...

  5. python爬虫自学路线_python 爬虫学习路线:从入门到进阶

    大家好,我是凉拌 今天给大家详解一下我的爬虫学习路线. 对于小白来说,爬虫可能是一件非常复杂.技术门槛很高的事情.比如有的人则认为先要掌握网页的知识,遂开始 HTML\CSS,结果入了前端的坑,浪费了 ...

  6. python爬虫的用途_python爬虫用途

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 专业点来说就是应用多台机器同时实现爬虫任务,这多台机器上的爬虫,就是称作分布式爬 ...

  7. 外星人颜色python练习_在知乎上学Python爬虫

    有很多人正在入门Python爬虫,学习Python爬虫.在这个过程中,会遇到很多难题,许多小伙伴都会去寻找答案,但是因为答案的纷繁复杂和种类多样,往往要花上好些时间. 而码不理经常会在知乎上寻找学习问 ...

  8. python爬虫代码-python网络爬虫源代码(可直接抓取图片)

    在开始制作爬虫前,我们应该做好前期准备工作,找到要爬的网站,然后查看它的源代码我们这次爬豆瓣美女网站,网址为:用到的工具:pycharm,这是它的图标 ...博文来自:zhang740000的博客 P ...

  9. 实现Python爬虫的思路、原理

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云,作者:梧雨北辰 是在学习Python基础知识之后的一次小小尝 ...

最新文章

  1. 全景分割:CVPR2019论文解析
  2. jenkins php build,PHP+Jenkins 持续集成
  3. 【招聘(广州)】 招聘.NET程序员
  4. antd 表格树如何展开_如何分析工作,找出规律,使用excel大幅度提高工作效率...
  5. 国内ip信息库的组建
  6. linux文档查看器翻译,mdv – Linux终端下的 Markdown 文档查看器
  7. python知识总结os**
  8. 服务器控件的 ID, ClientID 和 UniqueID 属性
  9. java 生成二维码,并跟其他图合成新图 图片添加水印
  10. jsp 使用base标签 没有作用_tag标签的概念,如何设置使用,它对网站seo优化有何作用...
  11. Java调用db2cmd命令导出数据
  12. VC++实现标准型计算器步骤及源码
  13. Java面试:java简历包装医疗项目
  14. redis数据类型命令
  15. 2018高中计算机会考时间,2018年高中会考什么时候考哪些科目
  16. 数字化转型:为何数字化?如何数字化转型?
  17. ORA-01950: no privileges on tablespace ‘USERS‘
  18. 八十年代出生人的十大尴尬
  19. FreeLine 简明指南及注意事项
  20. SSL证书的工作原理是怎么样的?

热门文章

  1. windows系统下ip地址无法修改,亲测可用imdam博客之家
  2. 计算机网络--应用层(2)P2P应用
  3. 10个java调试技巧
  4. 2022年大数据产业规模已超1000亿,从ChatGPT的爆火看大数据行业发展
  5. 3-8 译码器,与4-16译码器
  6. Snapchat争先恐后地修复失败的重新设计,将故事转移到发现之中
  7. 深度学习中的Normalization总结(BN/LN/WN/IN/GN)
  8. Uniapp、Vue搭建浙里办微应用(单点登录、埋点)
  9. C++难学吗?为什么难学?如何去学?
  10. MEPR系列全页式多功能证件|电子护照阅读器功能与选型注意事项