一、基本思路

目标url:https://www.lagou.com/

用selenium爬虫实现,输入任意关键字,比如 python 数据分析,点击搜索,得到的有关岗位信息,爬取下来保存到Excel。

有30页,每个页面有15条招聘信息。

二、selenium爬虫

from selenium import webdriver
import time
import logging
import random
import openpyxlwb = openpyxl.Workbook()
sheet = wb.active
sheet.append(['job_name', 'company_name', 'city','industry', 'salary', 'experience_edu','welfare','job_label'])
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')def search_product(key_word):browser.find_element_by_id('cboxClose').click()     # 关闭让你选城市的窗口time.sleep(2)browser.find_element_by_id('search_input').send_keys(key_word)  # 定位搜索框 输入关键字browser.find_element_by_class_name('search_button').click()     # 点击搜索browser.maximize_window()    # 最大化窗口time.sleep(2)browser.find_element_by_class_name('body-btn').click()    # 关闭弹窗  啥领取红包窗口time.sleep(random.randint(1, 3))browser.execute_script("scroll(0,3000)")      # 下拉滚动条get_data()           # 调用抓取数据的函数# 模拟点击下一页   翻页爬取数据  每爬取一页数据  休眠   控制抓取速度  防止被反爬 让输验证码for i in range(29):browser.find_element_by_class_name('pager_next ').click()time.sleep(1)browser.execute_script("scroll(0,3000)")get_data()time.sleep(random.randint(3, 5))def get_data():items = browser.find_elements_by_xpath('//*[@id="s_position_list"]/ul/li')for item in items:job_name = item.find_element_by_xpath('.//div[@class="p_top"]/a/h3').textcompany_name = item.find_element_by_xpath('.//div[@class="company_name"]').textcity = item.find_element_by_xpath('.//div[@class="p_top"]/a/span[@class="add"]/em').textindustry = item.find_element_by_xpath('.//div[@class="industry"]').textsalary = item.find_element_by_xpath('.//span[@class="money"]').textexperience_edu = item.find_element_by_xpath('.//div[@class="p_bot"]/div[@class="li_b_l"]').textwelfare = item.find_element_by_xpath('.//div[@class="li_b_r"]').textjob_label = item.find_element_by_xpath('.//div[@class="list_item_bot"]/div[@class="li_b_l"]').textdata = f'{job_name},{company_name},{city},{industry},{salary},{experience_edu},{welfare},{job_label}'logging.info(data)sheet.append([job_name, company_name, city,industry, salary, experience_edu, welfare, job_label])def main():browser.get('https://www.lagou.com/')time.sleep(random.randint(1, 3))search_product(keyword)wb.save('job_info.xlsx')if __name__ == '__main__':keyword = 'Python 数据分析'# chromedriver.exe的路径chrome_driver = r'D:\python\pycharm2020\chromedriver.exe'options = webdriver.ChromeOptions()# 关闭左上方 Chrome 正受到自动测试软件的控制的提示options.add_experimental_option('useAutomationExtension', False)options.add_experimental_option("excludeSwitches", ['enable-automation'])browser = webdriver.Chrome(options=options, executable_path=chrome_driver)main()browser.quit()

爬虫运行,成功爬取数据并保存到Excel,运行结果如下:

三、查看数据

门槛都不高!

此文转载文,如有侵权联系小编删除,著作权归作者所有!

原文地址:https://blog.csdn.net/fyfugoyfa/article/details

源码点这里获取

python爬虫senlenium爬取拉勾网招聘数据!相关推荐

  1. Python爬虫 senlenium爬取拉勾网招聘数据,你学会了吗

    一.基本思路 目标url:https://www.lagou.com/ 用selenium爬虫实现,输入任意关键字,比如 python 数据分析 ,点击搜索,得到的有关岗位信息,爬取下来保存到Exce ...

  2. python爬虫 senlenium爬取拉勾网招聘数据

    文章目录 一.基本思路 二.selenium爬虫 三.查看数据 原文链接:https://yetingyun.blog.csdn.net/article/details/108170411 创作不易, ...

  3. node 爬虫 实战 - 爬取拉勾网职位数据

    node 爬虫 实战 - 爬取拉勾网职位数据,主要想把数据用于大数据学习,到时候大数据分析可以自己分析一下职位的情况,和比较一些我现在的职位在深圳乃至全国的开发人员水平. 涉及到的技术栈:node.j ...

  4. AJAX教程美食滤镜,Python爬虫实例——爬取美团美食数据

    1.分析美团美食网页的url参数构成 1)搜索要点 美团美食,地址:北京,搜索关键词:火锅 2)爬取的url https://bj.meituan.com/s/%E7%81%AB%E9%94%85/ ...

  5. Python爬虫:爬取喜马拉雅音频数据详解

    前言 喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...

  6. python3 scrapy实战:爬取拉勾网招聘数据至数据库(反爬虫)

    首先注明:感谢拉勾网提供的权威.质量的数据,本人抱着学习的态度,不愿增加其服务器负担,与dos攻击. 由于后面准备做一个大一点的数据分析项目,所以前提需要获取大量的有质量和权威的信息,其中一个获取点便 ...

  7. Python爬虫:爬取拉勾网职位并分析

    大数据杂谈 一起行走数据江湖! 作者:闲庭信步 原文链接: https://blog.csdn.net/danspace1/article/details/80197106 如需转载,请联系原作者. ...

  8. python爬虫——Scrapy爬取博客数据

    新建一个Scrapy文件: # -*- coding: utf-8 -*- import scrapyclass CsdnBlogSpider(scrapy.Spider):name = 'csdn_ ...

  9. python爬虫案例-爬取当当网数据

    输入关键字,爬取当当网中商品的基本数据,代码如下: 1 # Author:K 2 import requests 3 from lxml import etree 4 from fake_userag ...

最新文章

  1. SAP 零售商品主数据修改物料组的方法
  2. 虚拟主播上线:多模态将改变人机交互的未来
  3. Android核心分析之二十三Andoird GDI之基本原理及其总体框架
  4. php 更新页面代码,php – 自动更新页面的代码大纲
  5. 网易云terraform实践
  6. mysql 主从 问题_Mysql解决主从不同步问题
  7. mysql数据库访问编程,mysql 连接数据库
  8. java 难题_您可以避免的6种组织成长难题
  9. python for循环 内存_python中for循环的内存分配
  10. python读取图片转cvs_python将图片转换为csv
  11. 在Mac OS X 通过抓包、“第三方下载工具”加速下载、安装APP或系统
  12. java 睡眠_Java 线程和多线程执行过程分析
  13. Asp.Net编码规范
  14. Lightingroom4_秋凉教程 P3-P31笔记
  15. 网络工程师考试大纲的考试要求有哪些
  16. 随机数模拟抛硬币实验
  17. GIS实验之制作核密度分析图
  18. 「带队伍」的关键是什么?
  19. 已知一点经纬度和距离,计算另一点的经纬度
  20. PMP报考一定要报培训班吗?

热门文章

  1. 汇编语言_CS、IP和JMP指令
  2. 使用python解决验证码登录并爬取登录后的个人界面:本篇以古诗文网站为例
  3. 前端图片延迟加载详细讲解
  4. android开发之用阿里云OSS加载图片
  5. html 复制给quill,将原始html代码插入到quill中
  6. mysql索引抽密度_索引碎片 - 君不知的专栏 - TNBLOG
  7. 如何用Stata完成(shui)一篇经济学论文(十五):平行性趋势检验与安慰剂检验
  8. PHP单向历图片获取
  9. 良好棉花是如何认证的?标准内容是什么?
  10. Niushop开源商城系统bug多?不适合商用?