为了更快捷,使用多线程爬取

import requests
from lxml import etree
import threadingdef get_request(page):url = "https://search.51job.com/list/190200,000000,0000,00,9,99,Python,2,"+str(page)+".html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare="headers = {"User-Agent":"头部信息"}res = requests.get(url,headers=headers)res.encoding = res.apparent_encodingreturn res.textdef get_content(respon):html = etree.HTML(respon).xpath('//div[@class="dw_table"]//div[@class="el"]')print(html)for value in html:try:position = value.xpath('./p/span/a/text()')[0].strip()link = value.xpath('./p/span/a/@href')[0]company = value.xpath('./span/a/text()')[0]address = value.xpath('./span[@class="t3"]/text()')[0]wage = value.xpath('./span[@class="t4"]/text()')updataTime = value.xpath('./span[@class="t5"]/text()')[0]if len(wage)<1:wage = "null"else:wage = wage[0]print("职位链接:",link)print("职位名:",position)print("公司名:",company)print("工作地点:",address)print("工资:",wage)print("发布时间:",updataTime)print("-"*30)except Exception as e:print("发生错误")print(e)def main(page):print("第",page,"页",end="")try:respon = get_request(page)get_content(respon)print("爬取成功")except Exception as e:print("爬取失败")print(e)def run1():for page in range(1,12,2):main(page)
def run2():for page in range(2,12,2):main(page)if __name__ == '__main__':t1 = threading.Thread(target=run1,args=())t2 = threading.Thread(target=run2,args=())t1.start()t2.start()t1.join()t2.join()

Python使用xpath爬取51job相关推荐

  1. Python爬虫,爬取51job上有关大数据的招聘信息

    Python爬虫,爬取51job上有关大数据的招聘信息 爬虫初学者,练手实战 最近在上数据收集课,分享一些代码. 分析所要爬取的网址 https://search.51job.com/list/000 ...

  2. 爬虫基础练习: 基于 java + Jsoup + xpath 爬取51job网站

    最基本的网页爬虫练习 爬取51jb网站,并将数据写入Excel中 需要导入jsoup包和POI相关包 JSoup简介 jsoup是一款Java的HTML解析器,主要用来对HTML解析, 可通过DOM, ...

  3. python用xpath爬取10页网站图片

    #爬取网站图片 import requests from lxml import etree import osi=0 #计数 #请求头 headers={"User-Agent" ...

  4. python使用XPATH爬取电影票房

    爬取电影票房前50(网票) # coding:utf-8 # 获取电影票房排行榜前五十 __Author__ = 'Negoo_wen' import requests from lxml impor ...

  5. python使用xpath爬取网页数据

    from lxml import etree # from fake_useragent import UserAgent import requests from lxml import etree ...

  6. python爬虫,爬取51job 智联 58同城

    口 182480171 有源码和lun文 词云图

  7. 使用Python爬取51job招聘网的数据

    使用Python爬取51job招聘网的数据 进行网站分析 获取职位信息 存储信息 最终代码 进行网站分析 进入https://www.51job.com/这个网站 我在这就以python为例搜索职位跳 ...

  8. Python爬虫:Xpath爬取网页信息(附代码)

    Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...

  9. Python Scrapy爬虫框架爬取51job职位信息并保存至数据库

    Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...

  10. python xpath爬取新闻标题_爬取知乎热榜标题和连接 (python,requests,xpath)

    用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User-Agen ...

最新文章

  1. redis主从复制故障转移
  2. 亚洲诚信带你玩转[2018国家网络安全宣传周]上海地区活动!
  3. 8g ubuntu 树莓派4b_树莓派4B安装Ubuntu系统,并安装桌面
  4. python可变类型和不可变深浅拷贝类型_python3笔记十四:python可变与不可变数据类型+深浅拷贝...
  5. aes算法c语言实现_C语言实现常用数据结构:Dijkstra最短路径算法(第18篇)
  6. JDBC PreparedStatement
  7. 新公司入职56天后的面谈小结
  8. 按亩补贴?新都区2022年中央财政农业生产发展资金社会化服务项目申报补贴、条件、时间、材料及流程
  9. 网络安全浏览器工作原理
  10. 织梦如何添html5播放器,织梦视频播放器,织梦cms网页播放器,dedecms视频播放器,内容管理系统(DedeCMS)的应用,网页视频播放器...
  11. mysql查询各科成绩的前三名
  12. 如何解决 CAD 启动非常慢的问题
  13. c语言计算增长率的程序,国民生产总值增长率计算的编程设计
  14. 用于将 InfoPath 2007 集成到 Visual Studio 2005 中的 InfoPath Designer API 概述
  15. iTween 用法总结
  16. windows添加右键点击打开CMD(运行)的方法
  17. 打开excel 自动启动宏_Excel启动时自动打开不需要的文件
  18. Kahan's summation Formula
  19. 游戏开发(九) 之 纯 lua 版 热更新 方案
  20. 关于我们-找学术会议,上MeetConf!科研人都在看的学术会议网站

热门文章

  1. OpenCV如何提取人眼区域的眼球位置
  2. Linux内核如何启动并装载一个可执行程序
  3. [RK3399][Android7.1] ADB功能怎么Debug
  4. SylixOS allwinner h6 链接脚本
  5. 使用匿名内部类排序对象
  6. awk去除行首行尾空格
  7. 计算机周杰伦谱子,我好想要周杰伦稻香的电脑键盘钢琴琴谱br/请问哪位大侠知道的? 爱问知识人...
  8. cssrem转换工具_微信小程序开发-rem转换rpx小工具
  9. 二叉排序树的插入 java_leetcode刷题笔记-701. 二叉搜索树中的插入操作(java实现)...
  10. 如何设置操作系统处于最佳性能?此方法可以取消系统自带的界面渲染及其它多余的辅助功能.