python:爬虫初体验
最近帮老妈在58上找保姆的工作,无奈58上的中介服务太多 了,我想找一些私人发布的保姆招聘信息,所以倒腾了一个python的爬虫,将数据爬出来之后通过Excel进行过滤中介,因为代码实在是太简单,这里就不解释了
代码不多,如下:
#!/usr/bin/python #coding=utf-8import requests from bs4 import BeautifulSoup import xlwturl1 = "https://gz.58.com/job/pn" url2 = "/?key=%E4%BF%9D%E5%A7%86&final=1&jump=1&PGTID=0d302408-0000-3bd9-3b86-d29895d9ee5d&ClickID=3" book = xlwt.Workbook(encoding='utf-8') sheet = book.add_sheet(u'qingyuan',cell_overwrite_ok=True) kk = 0for i in range(1,54):print("*******************第"+str(i)+"页****************************")html = requests.get(url1+str(i)+url2)soup = BeautifulSoup(html.text, "lxml")address = soup.select('#list_con > li.job_item > div.job_title > div.job_name > a > span.address')jobTitle = soup.select('#list_con > li.job_item > div.job_title > div.job_name > a > span.name')salary = soup.select('#list_con > li.job_item > div.job_title > p.job_salary')company = soup.select('#list_con > li.job_item > div.job_comp > div.comp_name > a')link = soup.select("#list_con > li.job_item > div.job_title > div.job_name > a")if len(address)==0:print("*******************第" + i + "页被拦截****************************")breakfor j in range(len(address)):sheet.write(j+kk, 0, address[j].get_text())sheet.write(j+kk, 1, jobTitle[j].get_text())sheet.write(j+kk, 2, salary[j].get_text())sheet.write(j+kk, 3, company[j].get('title'))sheet.write(j+kk, 4, link[j].get('href'))kk = kk+len(address)path = 'E:/58广州保姆招聘信息爬虫结果.xls' book.save(path)
这是最后排出来的Excel的数据样子
转载于:https://www.cnblogs.com/baby-lijun/p/9889338.html
python:爬虫初体验相关推荐
- 一个课程,11个项目!爬虫初体验,快来!
<11 个案例开启 Python 爬虫初体验> <人人都能做的 Vue 3 记账本实战>
- 爬虫初体验-- 爬取当当书籍
爬虫初体验-- 爬取当当书籍 这是我从学习Python 开始,第4天写的爬虫,所以有很多地方写的不太好,还希望各位多多包涵,欢迎指正,互相学习. 我学习python就是为了玩爬虫的.第一次听说爬虫这个 ...
- 读《Hands-On Transfer Learning with Python》初体验
读<Hands-On Transfer Learning with Python>初体验 最近由于工作原因及个人兴趣,对迁移学习兴趣盎然,很想深入了解该领域知识,偶得该领域最新力作,现分享 ...
- 【Python3爬虫】学习分布式爬虫第一步--Redis分布式爬虫初体验
一.写在前面 之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
- bs4爬取的时候有两个标签相同_python爬虫初体验,爬取中国最好大学网大学名次...
程序员天天只顾写生活琐事的文章可就太对不起其他的程序员们了,某大佬给我在线寄了一张刀片的图片,催更技术分享,不得不动手了.从今年刚开始学习python,美妙的语法令人陶醉,好用的第三方库令人爱不释手. ...
- 【Python】爬虫初体验,40行代码爬取双色球2003年至今的开奖号码
爬虫爬取的双色球开奖号码 按我目前的理解,爬虫的工作原理大致是: 获取目标网页,在网页(html文件)中筛选目标数据,最后把数据导出 利用爬虫爬取数据看似很"高深莫测",只需几分钟 ...
- python android开发_Android与Python爱之初体验
独家授权码个蛋转载 * 前言 看到这个标题,大家可能会认为就是Android运行python脚本,或者用python写app,这些用QPython和P4A就可以实现了.我在想既然C可以调用Python ...
- Python数据分析初体验
一.数据分析三大神器 1.NumPy - Numerical Python - 提供了名为ndarray的数据类型,基于该类型我们可以实现对数据的存储和批量处理. 2.Pandas - Panel D ...
- python之初体验(一)
背景:又要做狗血的数据迁移.数据清洗,每次面对此类需求,心里都会把pm祖宗老老小小都问候个遍.解决办法,要么用java写一大堆支撑代码,要么在vm上写蹩脚的shell,都很不爽.最近尝试了下pytho ...
最新文章
- 【硬件基础】振荡(时钟)周期、状态周期、机械周期、指令周期
- 强化学习(三)用动态规划(DP)求解
- 当我们在谈深度学习时,到底在谈论什么(三)--转
- 机器学习算法加强——提升
- css案例学习之relative与absolute
- github api常用操作
- Python学习笔记之列表(一)
- outlook域用户名怎么填_家谱制作软件怎么做成电子版
- Oracle 11g数据库基础教程(第2版)-课后习题-第十三章
- UE4 图表插件使用文档
- jmeter-json提取器提取数据
- 适合练手的10个前端实战项目(附视频+源码)
- 无法连接outlook邮箱服务器,OUTlOOK最近登不上
- 服务器网站首页被被修改,web服务器被入侵修改内容后如何处理
- python实现对遥感影像经纬度获取并实现海陆分离
- 贝叶斯在计算机视觉中的应用,KNN与朴素贝叶斯在计算机视觉的鱼苗计数中的应用探索.doc...
- excel将一个工作表根据条件拆分成多个工作表,并将多个工作表怎么拆分成独立表格
- 一分钟之内搭建自己的直播服务器?
- 英语语音篇 - 特殊发音记录
- 11.22IG客户情绪报告: 黄金、原油、澳元、日元、欧元、英镑