Python使用xpath爬取51job

为了更快捷，使用多线程爬取

import requests
from lxml import etree
import threadingdef get_request(page):url = "https://search.51job.com/list/190200,000000,0000,00,9,99,Python,2,"+str(page)+".html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare="headers = {"User-Agent":"头部信息"}res = requests.get(url,headers=headers)res.encoding = res.apparent_encodingreturn res.textdef get_content(respon):html = etree.HTML(respon).xpath('//div[@class="dw_table"]//div[@class="el"]')print(html)for value in html:try:position = value.xpath('./p/span/a/text()')[0].strip()link = value.xpath('./p/span/a/@href')[0]company = value.xpath('./span/a/text()')[0]address = value.xpath('./span[@class="t3"]/text()')[0]wage = value.xpath('./span[@class="t4"]/text()')updataTime = value.xpath('./span[@class="t5"]/text()')[0]if len(wage)<1:wage = "null"else:wage = wage[0]print("职位链接：",link)print("职位名：",position)print("公司名：",company)print("工作地点：",address)print("工资：",wage)print("发布时间：",updataTime)print("-"*30)except Exception as e:print("发生错误")print(e)def main(page):print("第",page,"页",end="")try:respon = get_request(page)get_content(respon)print("爬取成功")except Exception as e:print("爬取失败")print(e)def run1():for page in range(1,12,2):main(page)
def run2():for page in range(2,12,2):main(page)if __name__ == '__main__':t1 = threading.Thread(target=run1,args=())t2 = threading.Thread(target=run2,args=())t1.start()t2.start()t1.join()t2.join()

Python使用xpath爬取51job相关推荐

Python爬虫，爬取51job上有关大数据的招聘信息
Python爬虫,爬取51job上有关大数据的招聘信息爬虫初学者,练手实战最近在上数据收集课,分享一些代码. 分析所要爬取的网址 https://search.51job.com/list/000 ...
爬虫基础练习: 基于 java + Jsoup + xpath 爬取51job网站
最基本的网页爬虫练习爬取51jb网站,并将数据写入Excel中需要导入jsoup包和POI相关包 JSoup简介 jsoup是一款Java的HTML解析器,主要用来对HTML解析, 可通过DOM, ...
python用xpath爬取10页网站图片
#爬取网站图片 import requests from lxml import etree import osi=0 #计数 #请求头 headers={"User-Agent" ...
python使用XPATH爬取电影票房
爬取电影票房前50(网票) # coding:utf-8 # 获取电影票房排行榜前五十 __Author__ = 'Negoo_wen' import requests from lxml impor ...
python使用xpath爬取网页数据
from lxml import etree # from fake_useragent import UserAgent import requests from lxml import etree ...
python爬虫，爬取51job 智联 58同城
口 182480171 有源码和lun文词云图
使用Python爬取51job招聘网的数据
使用Python爬取51job招聘网的数据进行网站分析获取职位信息存储信息最终代码进行网站分析进入https://www.51job.com/这个网站我在这就以python为例搜索职位跳 ...
Python爬虫：Xpath爬取网页信息（附代码）
Python爬虫:Xpath爬取网页信息(附代码) 上一次分享了使用Python简单爬取网页信息的方法.但是仅仅对于单一网页的信息爬取一般无法满足我们的数据需求.对于一般的数据需求,我们通常需要从一个 ...
Python Scrapy爬虫框架爬取51job职位信息并保存至数据库
Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...
python xpath爬取新闻标题_爬取知乎热榜标题和连接（python，requests，xpath）
用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User-Agen ...

Python使用xpath爬取51job

Python使用xpath爬取51job相关推荐

最新文章

热门文章