案例:使用BeautifuSoup4的爬虫

我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a

使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出来。

# bs4_tencent.pyfrom bs4 import BeautifulSoup
import urllib2
import urllib
import json    # 使用了json格式存储def tencent():url = 'http://hr.tencent.com/'request = urllib2.Request(url + 'position.php?&start=10#a')response =urllib2.urlopen(request)resHtml = response.read()output =open('tencent.json','w')html = BeautifulSoup(resHtml,'lxml')# 创建CSS选择器result = html.select('tr[class="even"]')result2 = html.select('tr[class="odd"]')result += result2items = []for site in result:item = {}name = site.select('td a')[0].get_text()detailLink = site.select('td a')[0].attrs['href']catalog = site.select('td')[1].get_text()recruitNumber = site.select('td')[2].get_text()workLocation = site.select('td')[3].get_text()publishTime = site.select('td')[4].get_text()item['name'] = nameitem['detailLink'] = url + detailLinkitem['catalog'] = catalogitem['recruitNumber'] = recruitNumberitem['publishTime'] = publishTimeitems.append(item)# 禁用ascii编码,按utf-8编码line = json.dumps(items,ensure_ascii=False)output.write(line.encode('utf-8'))output.close()if __name__ == "__main__":tencent()

案例:使用BeautifuSoup4的爬虫相关推荐

  1. Python案例:使用BeautifuSoup4的爬虫

    我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器,将招聘网页上的职位名称.职位类别 ...

  2. 爬虫python创意_爬虫案例:利用python爬虫关键词批量下载高清大图

    环境: python3+pycharm+requests+re+BeatifulSoup+json 这个确实也属实有一些勉强,不少童鞋私信问我有木有 下载大图 的源码,我说可能会有,现在分享给大家. ...

  3. python爬虫(案例)——豆瓣读书爬虫

    文章目录 要爬取的内容 一级页面(分类中图书的列表) 二级页面(每本书的详情页) 本案例中的防封ip小技巧 多用几个user-agent(随机抽取) 设置间隔时间 完整代码 本篇文章为豆瓣读书爬虫的案 ...

  4. 值!一篇博客,容纳11个Python爬虫案例总结,《爬虫100例》专栏第6篇复盘文章

    文章目录 案例 29:手机 APP 数据采集 案例 30:高考派大学数据采集 案例 31:36 氪(36kr)数据抓取 scrapy 案例 32:B 站博人传评论数据抓取 scrapy 案例 33:& ...

  5. python编程入门与案例详解pdf-Python爬虫天气预报实例详解(小白入门)

    本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 这次要爬的站点是这个:http://www.weather.com.cn/forecast/ 要求是把你所在城市过去一年的历史数据爬 ...

  6. 爬虫案例:利用python爬虫关键词批量下载高清大图

    环境: python3+pycharm+requests+re+BeatifulSoup+json 这个确实也属实有一些勉强,不少童鞋私信问我有木有 下载大图 的源码,我说可能会有,现在分享给大家. ...

  7. Scrapy网络爬虫框架实际案例讲解,Python爬虫原来如此简单!

    创建项目 Scrapy爬虫框架提供一个工具来创建项目,生成的项目中预置了一些文件,用户需要在这些文件中添加python代码.最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你 ...

  8. python编程入门与案例详解-Python爬虫天气预报实例详解(小白入门)

    本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 这次要爬的站点是这个:http://www.weather.com.cn/forecast/ 要求是把你所在城市过去一年的历史数据爬 ...

  9. 爬虫案例——淘宝图片爬虫

    在淘宝网中搜索某种商品之后会跳转到新的网页,网页的底部有可以进行换页,爬虫之前我们需要找出不同页码之间是否存在某种规律. https://s.taobao.com/search?q=%E7%9F%AD ...

最新文章

  1. 百度高层巨震!陆奇卸任COO,王海峰晋升高级副总裁
  2. R语言单变量分析实战:汇总统计(Summary Statistics)、频率表(Frequency Table)、图表(charts: boxplot、histogram、density)
  3. luoguP2657 [SCOI2009]windy数
  4. 【Python-ML】SKlearn库感知器(perceptron) 使用
  5. 卡斯特罗的离去对古巴科技产业的未来有何影响?
  6. Basic Theory of Physically-Based Rendering
  7. python如何提高性能_python – 如何在这个短代码中提高numpy性能...
  8. DirectX9 3D 快速上手 1
  9. 从“童话脸”到Avatarify,AI换脸究竟带来了什么?
  10. 一些斗鱼TV Web API [Some DouyuTv API]
  11. 单片机测量脉宽c语言程序,51单片机hc-sr04超声波测距(脉宽测量)DEMO程序
  12. 英语词根词缀+联想法记忆单词
  13. 透明FLASH的插入方法
  14. AutoInteger中的incrementAndGet 和 getAndIncrement
  15. ps如何增加可撤回的步数
  16. MySQL--数据库基础知识点(一)
  17. VS Code工作区用法
  18. 2020-09-19《GNU Radio软件无线电技术》白勇 胡驻华编著 笔记(1)
  19. Python计算机视觉之全景图像拼接
  20. mysql zimbra_Zimbra重新设置LDAP和MySQL密码

热门文章

  1. 安装PostgreSQL单机版
  2. [转]DPM2012系列之十八:如何保护工作组计算机
  3. 区块链加密算法小探(一)
  4. 能让你开发效率翻倍的 sublime 插件配置
  5. codeforce 804B Minimum number of steps
  6. (转)使用异步Python 3.6和Redis编写快速应用程序
  7. AD本地域组和全局组的区别
  8. 2014 中华架构师大会 回想
  9. S5700日志查看与清空
  10. cannot restore segment prot after reloc: Permission denied