闲来无事,就像看看现在各个行业找工作的情况,写了个简单的爬虫,爬取猎聘网的职位信息。
话不多说,直接上代码。

#-*- coding:utf-8 -*-
# 抓取猎聘的职位
import time
import threadingimport requests
import re
from bs4 import BeautifulSoup
def get_job_list(job):thread_name = threading.current_thread().nameprint(f'[{thread_name}]:{job}')page_num=0while True:url='https://www.liepin.com/city-bj/zhaopin/pn'+str(page_num)+'/?key='+job+'&d_sfrom=search_city&d_ckId=757adc2153c6034f3c9d7fc1970e617d&d_curPage=1&d_pageSize=40&d_headId=757adc2153c6034f3c9d7fc1970e617d'resp=requests.get(url)soup=BeautifulSoup(resp.text,'html.parser')try:for div in soup.find_all('div',class_='sojob-item-main clearfix'):print(div.find('a').text,end=' ')xinzi= div.find('span',class_='text-warning')print(xinzi.next,end=' ')area=div.find('a',class_='area')edu= div.find('span',class_='edu')print(area.text,end=' ')print(edu.next)except Exception as e:print(e)div=soup.find('a',string=re.compile('下一页'))if div:print(div.text)print(page_num)else:breaktime.sleep(1)page_num+=1
# 获取所有的职位类型
def get_all_job_type():url='https://www.liepin.com/city-bj/zhaogongzuo/?sfrom=click-pc_homepage-centre_keywordjobs-search_new'resp=requests.get(url)soup=BeautifulSoup(resp.text,'html.parser')all_list=[]for dd in soup.find_all('dd'):a_all=dd.find_all('a')for a in a_all:# print(a.text)all_list.append(a.text)job_list=all_list[:-21]return job_listjob_list=get_all_job_type()
for job in job_list:print(job)t=threading.Thread(target=get_job_list,args=(job,))t.start()

这里采用多线程爬取,每一类job一个线程。

爬取是非常快,但是运行一段时间后,就被猎聘把我的ip禁了,手机端也无法访问猎聘的app,说是过几天自动就解除了,真是悲剧。

所以建议还是老老实实的就用一个线程,慢慢爬取,然后再分析。

使用python爬取猎聘网的职位信息相关推荐

  1. python笔记-爬取猎聘网招聘信息

    目录 猎聘网信息爬取 爬取职位链接 1. 构建URL: 2. 获取网页 3. 解析网页 4. 保存数据到表格 爬取职位详情信息 1. 基本步骤 2. 获取表格链接 3. 获取职位详情信息网页 4. 解 ...

  2. python爬房源信息_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  3. python 爬取链家数据_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  4. python爬虫——使用requests库和xpath爬取猎聘网职位详情

    文章目录 前言 一.页面分析 1.职位列表页面分析 2.职位详情页面URL获取 3.职位详情页面分析 至此,所有页面解析完毕,开始写代码. 二.代码编写 1.导入相应库 2.设置代理和随机请求头 3. ...

  5. python3 scrapy实战:爬取猎聘网招聘数据至数据库(反爬虫)

    首先注明:感谢拉勾网提供的权威.质量的数据,本人抱着学习的态度,不愿增加其服务器负担,与dos攻击. 继前两篇爬取拉勾网.直聘网后的第三篇文章,同样是使用scrapy来获取网站的招聘信息,并且保存至M ...

  6. 【爬虫】用Python爬取去哪儿网热门旅游信息(并打包成旅游信息查询小工具)

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/article/det ...

  7. python 爬取链家网北京租房信息

    刚学习了python,中途遇到很多问题,查了很多资料,最关键的就是要善于调试,div信息一定不要找错,下面就是我爬取租房信息的代码和运行结果: 链家的房租网站 两个导入的包 1.requests 用来 ...

  8. 爬取猎聘网职位(requests+bs4)

    本人倾向于用bs4匹配,数据量不大,怎么简单怎么来了 url为关键词搜索,位置默认全国 最后写入json文件 import requests import json from bs4 import B ...

  9. python + selenium 爬取猎聘招聘网

    Selenium 本是一个用于Web应用程序测试的工具.Selenium测试直接运行在浏览器中,模拟用户操作.而这一特性为爬虫开发提供了一个选择及方向,由于其本身依赖于浏览器,所以使用Python的s ...

最新文章

  1. 【项目管理】ITTO-质量管理
  2. VTK:几何对象之PolyLine
  3. 勒索软件指向Flash与Silverlight漏洞
  4. 代码分析+原理图解——棋盘覆盖问题-分治法
  5. C语言逗号运算符和逗号表达式基础总结
  6. 深入理解softmax函数
  7. php mysql 统计_PHP和MySQL实现优化统计每天数据
  8. 错误:this is incompatible with sql_mode=only_full_group_by
  9. mysql 数据操作 单表查询 group by 注意
  10. 关于VC预定义常量_WIN32,WIN32,_WIN64等预定义宏的介绍(整理、转载)
  11. C#开发WPF/Silverlight动画及游戏系列教程(Game Tutorial):(四十九) 落雷!治疗!陷阱!连锁闪电!多段群伤!魔法之终极五重奏②...
  12. COJ 1079 树上的查询 (离线LCA)
  13. SAP恭贺德国国家足球队夺冠!
  14. div左对齐与里面的内容偏左但是距离左边有点儿距离
  15. SLAM领域的优秀作者与实验室汇总
  16. jeecms9.0常用标签
  17. 技术干货 | PACMOO:基于帕累托最优的公平性约束协同过滤算法
  18. OpenCV显示中文字体
  19. local_policy.jar和US_export_policy.jar资源免费下载
  20. 武汉大学计算机学院的博士后,武汉大学经济与管理学院

热门文章

  1. AtomicInteger类下的incrementAndGet
  2. 【读书笔记】《互联网企业安全高级指南(赵彦等)》
  3. 学python之前先掌握-成为黑客前,你首先应该掌握的Python技术
  4. 推特用户曝Win10版微信截图 微信或将回归Win系统
  5. UITextView 内边距设置
  6. 5G技术即将到来,5G网络的基本特点和应用你了解了多少
  7. POWER BI:SSAS表格建模(转自博客园,ps:部分已修改)
  8. [HDU - 2063] 过山车(二分图)
  9. TF卡里删掉文件后内存没变大_不用第三方,手机自带软件也能清扫内存!教你4个正确清理技巧...
  10. 图像拼接matlab