案例:使用BeautifuSoup4的爬虫
案例:使用BeautifuSoup4的爬虫
我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a
使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出来。
# bs4_tencent.pyfrom bs4 import BeautifulSoup
import urllib2
import urllib
import json # 使用了json格式存储def tencent():url = 'http://hr.tencent.com/'request = urllib2.Request(url + 'position.php?&start=10#a')response =urllib2.urlopen(request)resHtml = response.read()output =open('tencent.json','w')html = BeautifulSoup(resHtml,'lxml')# 创建CSS选择器result = html.select('tr[class="even"]')result2 = html.select('tr[class="odd"]')result += result2items = []for site in result:item = {}name = site.select('td a')[0].get_text()detailLink = site.select('td a')[0].attrs['href']catalog = site.select('td')[1].get_text()recruitNumber = site.select('td')[2].get_text()workLocation = site.select('td')[3].get_text()publishTime = site.select('td')[4].get_text()item['name'] = nameitem['detailLink'] = url + detailLinkitem['catalog'] = catalogitem['recruitNumber'] = recruitNumberitem['publishTime'] = publishTimeitems.append(item)# 禁用ascii编码,按utf-8编码line = json.dumps(items,ensure_ascii=False)output.write(line.encode('utf-8'))output.close()if __name__ == "__main__":tencent()
案例:使用BeautifuSoup4的爬虫相关推荐
- Python案例:使用BeautifuSoup4的爬虫
我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器,将招聘网页上的职位名称.职位类别 ...
- 爬虫python创意_爬虫案例:利用python爬虫关键词批量下载高清大图
环境: python3+pycharm+requests+re+BeatifulSoup+json 这个确实也属实有一些勉强,不少童鞋私信问我有木有 下载大图 的源码,我说可能会有,现在分享给大家. ...
- python爬虫(案例)——豆瓣读书爬虫
文章目录 要爬取的内容 一级页面(分类中图书的列表) 二级页面(每本书的详情页) 本案例中的防封ip小技巧 多用几个user-agent(随机抽取) 设置间隔时间 完整代码 本篇文章为豆瓣读书爬虫的案 ...
- 值!一篇博客,容纳11个Python爬虫案例总结,《爬虫100例》专栏第6篇复盘文章
文章目录 案例 29:手机 APP 数据采集 案例 30:高考派大学数据采集 案例 31:36 氪(36kr)数据抓取 scrapy 案例 32:B 站博人传评论数据抓取 scrapy 案例 33:& ...
- python编程入门与案例详解pdf-Python爬虫天气预报实例详解(小白入门)
本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 这次要爬的站点是这个:http://www.weather.com.cn/forecast/ 要求是把你所在城市过去一年的历史数据爬 ...
- 爬虫案例:利用python爬虫关键词批量下载高清大图
环境: python3+pycharm+requests+re+BeatifulSoup+json 这个确实也属实有一些勉强,不少童鞋私信问我有木有 下载大图 的源码,我说可能会有,现在分享给大家. ...
- Scrapy网络爬虫框架实际案例讲解,Python爬虫原来如此简单!
创建项目 Scrapy爬虫框架提供一个工具来创建项目,生成的项目中预置了一些文件,用户需要在这些文件中添加python代码.最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你 ...
- python编程入门与案例详解-Python爬虫天气预报实例详解(小白入门)
本文研究的主要是Python爬虫天气预报的相关内容,具体介绍如下. 这次要爬的站点是这个:http://www.weather.com.cn/forecast/ 要求是把你所在城市过去一年的历史数据爬 ...
- 爬虫案例——淘宝图片爬虫
在淘宝网中搜索某种商品之后会跳转到新的网页,网页的底部有可以进行换页,爬虫之前我们需要找出不同页码之间是否存在某种规律. https://s.taobao.com/search?q=%E7%9F%AD ...
最新文章
- 百度高层巨震!陆奇卸任COO,王海峰晋升高级副总裁
- R语言单变量分析实战:汇总统计(Summary Statistics)、频率表(Frequency Table)、图表(charts: boxplot、histogram、density)
- luoguP2657 [SCOI2009]windy数
- 【Python-ML】SKlearn库感知器(perceptron) 使用
- 卡斯特罗的离去对古巴科技产业的未来有何影响?
- Basic Theory of Physically-Based Rendering
- python如何提高性能_python – 如何在这个短代码中提高numpy性能...
- DirectX9 3D 快速上手 1
- 从“童话脸”到Avatarify,AI换脸究竟带来了什么?
- 一些斗鱼TV Web API [Some DouyuTv API]
- 单片机测量脉宽c语言程序,51单片机hc-sr04超声波测距(脉宽测量)DEMO程序
- 英语词根词缀+联想法记忆单词
- 透明FLASH的插入方法
- AutoInteger中的incrementAndGet 和 getAndIncrement
- ps如何增加可撤回的步数
- MySQL--数据库基础知识点(一)
- VS Code工作区用法
- 2020-09-19《GNU Radio软件无线电技术》白勇 胡驻华编著 笔记(1)
- Python计算机视觉之全景图像拼接
- mysql zimbra_Zimbra重新设置LDAP和MySQL密码