Python案例:使用BeautifuSoup4的爬虫
我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a
使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出来。
# bs4_tencent.pyfrom bs4 import BeautifulSoup
import urllib2
import urllib
import json # 使用了json格式存储def tencent():url = 'http://hr.tencent.com/'request = urllib2.Request(url + 'position.php?&start=10#a')response =urllib2.urlopen(request)resHtml = response.read()output =open('tencent.json','w')html = BeautifulSoup(resHtml,'lxml')# 创建CSS选择器result = html.select('tr[class="even"]')result2 = html.select('tr[class="odd"]')result += result2items = []for site in result:item = {}name = site.select('td a')[0].get_text()detailLink = site.select('td a')[0].attrs['href']catalog = site.select('td')[1].get_text()recruitNumber = site.select('td')[2].get_text()workLocation = site.select('td')[3].get_text()publishTime = site.select('td')[4].get_text()item['name'] = nameitem['detailLink'] = url + detailLinkitem['catalog'] = catalogitem['recruitNumber'] = recruitNumberitem['publishTime'] = publishTimeitems.append(item)# 禁用ascii编码,按utf-8编码line = json.dumps(items,ensure_ascii=False)output.write(line.encode('utf-8'))output.close()if __name__ == "__main__":tencent()
Python案例:使用BeautifuSoup4的爬虫相关推荐
- 案例:使用BeautifuSoup4的爬虫
案例:使用BeautifuSoup4的爬虫 我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSou ...
- Python案例:破译爬虫项目实践活动日期密码
Python案例:破译爬虫项目实践活动日期密码 一.下达编程任务 寒假期间,李铁有幸成为外星人教育Python爬虫项目实践活动的参与者.外星人教育给参加活动的同学都发了一条短信,告知了实践活动日期,但 ...
- 以下用于数据存储领域的python第三方库是-『爬虫四步走』手把手教你使用Python抓取并存储网页数据!...
第一步:尝试请求 首先进入b站首页,点击排行榜并复制链接 https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950 ...
- python窗口显示表格_Python爬虫之GUI图表
关于Python爬虫系列的这篇文章我很早就想写了,但由于我前两周一直在研究vscode插件开发方面,就没去写文章.所幸目前vscode插件开发的知识了解的差不多了,是时候写了,哈哈.需要说明的是,我并 ...
- 【Python自学】七大超强爬虫框架,你值得拥有!!
实现爬虫技术的编程环境有很多种,Java.Python.C++等都可以用来爬虫.但很多人选择Python来写爬虫,为什么呢?因为Python确实很适合做爬虫,丰富的第三方库十分强大,简单几行代码便可实 ...
- 我本科金融毕业,有基金,证券,期货的从业资格证,会python编程,会点爬虫,可我为什么还是不好找工作?
我本科金融毕业,有基金,证券,期货的从业资格证,会python编程,会点爬虫,和sql语言.在学习自己搭建量化交易系统,数据分析,人工智能和机器学习算法. 但我为什么感觉,我还是不好找工作. 这是我最 ...
- python网络爬虫不能赚钱?,今天我来告诉你,学会了Python可以挣钱,而且爬虫是能让Python挣钱最快的技术
大家发现没有,实际上Python早已经火起来了,而且越来越流行,但是,我们总是给自己找各种借口,迄今为止还没有开始学习这门语言,为什么呢? 我觉得是因为大家没有找到动力,学习新技术需要投入很多时间,本 ...
- Python实现信息自动配对爬虫排版程序(附下载)
授权自AI科技大本营(ID:rgznai100) 本文约2800字,建议阅读7分钟. 本文为你介绍Python实现信息自动配对爬虫排版程序. 公众号(DatapiTHU)后台回复"20200 ...
- 利用深度学习(Keras)进行癫痫分类-Python案例
目录 癫痫介绍 数据集 Keras深度学习案例 本分享为脑机学习者Rose整理发表于公众号:脑机接口社区 QQ交流群:903290195 癫痫介绍 癫痫,即俗称"羊癫风",是由多种 ...
- python爬虫图片-如何用Python来制作简单的爬虫,爬取到你想要的图片
原标题:如何用Python来制作简单的爬虫,爬取到你想要的图片 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我 ...
最新文章
- PyCharm 配置远程python解释器和在本地修改服务器代码
- PHP之preg_replace()与ereg_replace()正则匹配比较讲解
- MATLAB实现图像镜像变换的源代码
- word怎么设置图片编号(图片下标,图片标签,图片序号,图片注释,题注)(交叉引用)
- leetcode 378. Kth Smallest Element in a Sorted Matrix | 378. 有序矩阵中第 K 小的元素(小根堆)
- ThinkPHP多次重复提交问题的根源
- 诺奖奖金为何119年还没发完?
- python 读excel一列_Python读取Excel一列并计算所有对象出现次数的方法
- apache源码安装必须依赖的库apr----/etc/ld.so.conf 文件介绍
- Tomcat发布自己的一个web网站
- matlab画坐标系,Matlab如何绘制十字坐标系??
- 极品抓鸡教程36课笔记
- MyQQ project
- ue4换装系统 1.换装系统的基本原理
- 我的世界服务器自定义附魔外挂,我的世界怎么用命令方块刷自定义附魔神器
- C语言:goto循环语句
- 论《赢在中国》的五大收获与五大遗憾
- 中职教资计算机网络面试,2018下半年教师资格证面试:中学信息技术教案《计算机网络的组成》...
- 常常被问路吗?我今年一共 26 次!
- 案例:js实现关闭淘宝二维码