我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a

使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出来。

# bs4_tencent.pyfrom bs4 import BeautifulSoup
import urllib2
import urllib
import json    # 使用了json格式存储def tencent():url = 'http://hr.tencent.com/'request = urllib2.Request(url + 'position.php?&start=10#a')response =urllib2.urlopen(request)resHtml = response.read()output =open('tencent.json','w')html = BeautifulSoup(resHtml,'lxml')# 创建CSS选择器result = html.select('tr[class="even"]')result2 = html.select('tr[class="odd"]')result += result2items = []for site in result:item = {}name = site.select('td a')[0].get_text()detailLink = site.select('td a')[0].attrs['href']catalog = site.select('td')[1].get_text()recruitNumber = site.select('td')[2].get_text()workLocation = site.select('td')[3].get_text()publishTime = site.select('td')[4].get_text()item['name'] = nameitem['detailLink'] = url + detailLinkitem['catalog'] = catalogitem['recruitNumber'] = recruitNumberitem['publishTime'] = publishTimeitems.append(item)# 禁用ascii编码,按utf-8编码line = json.dumps(items,ensure_ascii=False)output.write(line.encode('utf-8'))output.close()if __name__ == "__main__":tencent()

Python案例:使用BeautifuSoup4的爬虫相关推荐

  1. 案例:使用BeautifuSoup4的爬虫

    案例:使用BeautifuSoup4的爬虫 我们以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSou ...

  2. Python案例:破译爬虫项目实践活动日期密码

    Python案例:破译爬虫项目实践活动日期密码 一.下达编程任务 寒假期间,李铁有幸成为外星人教育Python爬虫项目实践活动的参与者.外星人教育给参加活动的同学都发了一条短信,告知了实践活动日期,但 ...

  3. 以下用于数据存储领域的python第三方库是-『爬虫四步走』手把手教你使用Python抓取并存储网页数据!...

    第一步:尝试请求 首先进入b站首页,点击排行榜并复制链接 https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950 ...

  4. python窗口显示表格_Python爬虫之GUI图表

    关于Python爬虫系列的这篇文章我很早就想写了,但由于我前两周一直在研究vscode插件开发方面,就没去写文章.所幸目前vscode插件开发的知识了解的差不多了,是时候写了,哈哈.需要说明的是,我并 ...

  5. 【Python自学】七大超强爬虫框架,你值得拥有!!

    实现爬虫技术的编程环境有很多种,Java.Python.C++等都可以用来爬虫.但很多人选择Python来写爬虫,为什么呢?因为Python确实很适合做爬虫,丰富的第三方库十分强大,简单几行代码便可实 ...

  6. 我本科金融毕业,有基金,证券,期货的从业资格证,会python编程,会点爬虫,可我为什么还是不好找工作?

    我本科金融毕业,有基金,证券,期货的从业资格证,会python编程,会点爬虫,和sql语言.在学习自己搭建量化交易系统,数据分析,人工智能和机器学习算法. 但我为什么感觉,我还是不好找工作. 这是我最 ...

  7. python网络爬虫不能赚钱?,今天我来告诉你,学会了Python可以挣钱,而且爬虫是能让Python挣钱最快的技术

    大家发现没有,实际上Python早已经火起来了,而且越来越流行,但是,我们总是给自己找各种借口,迄今为止还没有开始学习这门语言,为什么呢? 我觉得是因为大家没有找到动力,学习新技术需要投入很多时间,本 ...

  8. Python实现信息自动配对爬虫排版程序(附下载)

    授权自AI科技大本营(ID:rgznai100) 本文约2800字,建议阅读7分钟. 本文为你介绍Python实现信息自动配对爬虫排版程序. 公众号(DatapiTHU)后台回复"20200 ...

  9. 利用深度学习(Keras)进行癫痫分类-Python案例

    目录 癫痫介绍 数据集 Keras深度学习案例 本分享为脑机学习者Rose整理发表于公众号:脑机接口社区 QQ交流群:903290195 癫痫介绍 癫痫,即俗称"羊癫风",是由多种 ...

  10. python爬虫图片-如何用Python来制作简单的爬虫,爬取到你想要的图片

    原标题:如何用Python来制作简单的爬虫,爬取到你想要的图片 在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我 ...

最新文章

  1. PyCharm 配置远程python解释器和在本地修改服务器代码
  2. PHP之preg_replace()与ereg_replace()正则匹配比较讲解
  3. MATLAB实现图像镜像变换的源代码
  4. word怎么设置图片编号(图片下标,图片标签,图片序号,图片注释,题注)(交叉引用)
  5. leetcode 378. Kth Smallest Element in a Sorted Matrix | 378. 有序矩阵中第 K 小的元素(小根堆)
  6. ThinkPHP多次重复提交问题的根源
  7. 诺奖奖金为何119年还没发完?
  8. python 读excel一列_Python读取Excel一列并计算所有对象出现次数的方法
  9. apache源码安装必须依赖的库apr----/etc/ld.so.conf 文件介绍
  10. Tomcat发布自己的一个web网站
  11. matlab画坐标系,Matlab如何绘制十字坐标系??
  12. 极品抓鸡教程36课笔记
  13. MyQQ project
  14. ue4换装系统 1.换装系统的基本原理
  15. 我的世界服务器自定义附魔外挂,我的世界怎么用命令方块刷自定义附魔神器
  16. C语言:goto循环语句
  17. 论《赢在中国》的五大收获与五大遗憾
  18. 中职教资计算机网络面试,2018下半年教师资格证面试:中学信息技术教案《计算机网络的组成》...
  19. 常常被问路吗?我今年一共 26 次!
  20. 案例:js实现关闭淘宝二维码

热门文章

  1. 中级实训第一天的自学报告
  2. VSCode 安装 Go 插件、gopls 是个什么东东
  3. Linux shell 学习笔记(3)— shell 父子关系及内建命令
  4. pandas如何读取一个文件夹下的所有文件
  5. 矩阵的卷积核运算(一个简单小例子的讲解)深度学习
  6. MySQL中锁详解(行锁、表锁、页锁、悲观锁、乐观锁等)
  7. TVM在ARM GPU上优化移动深度学习
  8. CodeGen融合核心扩展定制文件
  9. 2021年大数据ELK(二十三):Kibana简介
  10. Android 使用java 代码获取res 里面的value 定义的数组