scrapy爬取智联招聘

我想分析下互联网行业全国招聘实习生的情况，通过爬取智联招聘，得到15467条数据，并导入Mysql

在items.py里：

import scrapy
from scrapy.http import Requestfrom lxml import etree
from zhaopinzhilian.items import ZhaopinzhilianItemclass RecuritSpider(scrapy.Spider):name = 'recurit'
    allowed_domains = ['zhaopin.com']#start_urls = ['http://www.zhaopin.com/']
    header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"}def start_requests(self):return [Request("http://sou.zhaopin.com/jobs/searchresult.ashx?bj=5006000&sj=299&in=210500%3b160400%3b160000%3b160500%3b160200%3b300100%3b160100%3b160600&jl=%E9%80%89%E6%8B%A9%E5%9C%B0%E5%8C%BA&sb=2&sm=0&isfilter=0&fl=489&isadv=0&sg=2b24ff0c4e924139b8749ea5a59d2dbb&p=1",callback=self.parse,headers=self.header,dont_filter=True
        )]def parse(self, response):try:item = ZhaopinzhilianItem()data = response.textres = etree.HTML(data)table_list = res.xpath('//table[@class="newlist"]')for table in table_list:item["link"]= table.xpath('.//td[@class="zwmc"]//a[1]//@href')for j in range(0, len(item["link"])):surl=item["link"][j]print(surl)yield Request(surl,callback=self.next)for i in range(2, 91):url = "http://sou.zhaopin.com/jobs/searchresult.ashx?bj=5006000&sj=299&in=210500%3b160400%3b160000%3b160500%3b160200%3b300100%3b160100%3b160600&jl=%E9%80%89%E6%8B%A9%E5%9C%B0%E5%8C%BA&sb=2&sm=0&isfilter=0&fl=489&isadv=0&sg=2b24ff0c4e924139b8749ea5a59d2dbb&p=" + str(i)yield Request(url, callback=self.parse)except Exception as e:print(e)def next(self,response):try:'''
            conn = pymysql.connect(host="127.0.0.1", user="root", passwd="root", db="zhilian", charset="utf8")
            cursor = conn.cursor()
            '''
            item = ZhaopinzhilianItem()item["zwmc"]=response.xpath("//div[@class='inner-left fl']/h1/text()").extract()item["gsmc"] = response.xpath("//div[@class='inner-left fl']/h2/a[@target='_blank']/text()").extract()res = etree.HTML(response.text)item["gsgm"]= res.xpath("/html/body/div[6]/div[2]/div[1]/ul/li[1]/strong/text()")zwyx = res.xpath("/html/body/div[6]/div[1]/ul/li[1]/strong/text()")item["zwyx"] = [zwyx[0].replace(u'元/月\xa0', u' ')]#print(item["zwyx"])
            item["gzdd"] = res.xpath("/html/body/div[6]/div[1]/ul/li[2]/strong/a/text()")zprs= res.xpath("/html/body/div[6]/div[1]/ul/li[7]/strong/text()")item["zprs"]=[zprs[0].replace(u'人',u' ')]item["minxueli"] = res.xpath("/html/body/div[6]/div[1]/ul/li[6]/strong/text()")'''
            sql = "insert into zhaopin(zwmc,gsmc,zwyx,zprs,gzdd,gsgm,minxueli) values(%s,%s,%s,%s,%s,%s,%s);"
            params = (item["zwmc"][0], item["gsmc"][0], item["zwyx"][0],item["zprs"][0],item["gzdd"][0],item["gsgm"][0],item["minxueli"][0])
            cursor.execute(sql, params)
            conn.commit()
            cursor.close()
            conn.close()
            '''
            yield itemexcept Exception as e:print(e)

之后在pipelines里对数据进行导入数据库的操作:

import pymysql
class ZhaopinzhilianPipeline(object):def process_item(self, item, spider):conn = pymysql.connect(host="127.0.0.1", user="root", passwd="root", db="zhilian", charset="utf8")cursor = conn.cursor()for i in range(0, len(item["zwmc"])):zwmc=item["zwmc"][i]gsmc=item["gsmc"][i]zwyx=item["zwyx"][i]gzdd=item["gzdd"][i]gsgm=item["gsgm"][i]minxueli=item["minxueli"][i]zprs=item["zprs"][i]sql = "insert into zhaopin(zwmc,gsmc,zwyx,zprs,gzdd,gsgm,minxueli) values(%s,%s,%s,%s,%s,%s,%s);"
            params = (zwmc,gsmc,zwyx,zprs,gzdd,gsgm,minxueli)cursor.execute(sql,params)conn.commit()cursor.close()conn.close()return item

最后记得在settings.py里打开piplines:

ITEM_PIPELINES = {'zhaopinzhilian.pipelines.ZhaopinzhilianPipeline': 300,
}

scrapy爬取智联招聘相关推荐

python3 scrapy爬取智联招聘存mongodb
写在前面,这次写智联招聘的爬虫是其次,主要的是通过智联招聘上的数据信息弄一个数据挖掘的小项目,这一篇主要是如何一气呵成的将智联招聘上的招聘信息给爬下来 (一)scrapy框架的使用 scrapy框架是 ...
Python利用Scrapy爬取智联招聘和前程无忧的招聘数据
爬虫起因前面两个星期,利用周末的时间尝试和了解了一下Python爬虫,紧接着就开始用Scrapy框架做了一些小的爬虫,不过,由于最近一段时间的迷茫,和处于对职业生涯的规划.以及对市场需求的分析, ...
scrapy 智联 mysql_Python利用Scrapy爬取智联招聘和前程无忧的招聘数据
爬虫起因前面两个星期,利用周末的时间尝试和了解了一下Python爬虫,紧接着就开始用Scrapy框架做了一些小的爬虫,不过,由于最近一段时间的迷茫,和处于对职业生涯的规划.以及对市场需求的分析,我通 ...
scrapy爬取智联招聘，MongoDB存储数据
一.项目目录结构二.模块划分 1.settings # -*- coding: utf-8 -*-# Scrapy settings for zhilian project # # For simp ...
python scrapy爬取智联招聘的公司和职位信息（一）
这个帖子先暂时放弃.本以为和拉钩一样全是静态页面,结果在写item的时候,发现网页有点意思,突然有个大胆的想法,想试试-先埋坑,后面在填坑缘由: 最近在找工作发现智联和51上太多培训机构的虚假招聘信 ...
python scrapy爬取智联招聘全站的公司和职位信息（二）
从网页中提取相关信息 **公司页面**: 公司的url,公司名称,规模,行业,在招岗位数量,邀面试数 1. 在scrapy shell中调试在terminal/CMD中输入 scrapy shell ...
Scrapy学习——爬取智联招聘网站案例
Scrapy学习--爬取智联招聘网站案例安装scrapy 下载安装准备分析代码结果安装scrapy 如果直接使用pip安装会在安装Twisted报错,所以我们需要手动安装. 下载安装s ...
克服反爬虫机制爬取智联招聘网站
一.实验内容 1.爬取网站: 智联招聘网站(https://www.zhaopin.com/) 2.网站的反爬虫机制: 在我频繁爬取智联招聘网站之后,它会出现以下文字(尽管我已经控制了爬虫的爬 ...
python爬虫多url_Python爬虫实战入门六：提高爬虫效率—并发爬取智联招聘
之前文章中所介绍的爬虫都是对单个URL进行解析和爬取,url数量少不费时,但是如果我们需要爬取的网页url有成千上万或者更多,那怎么办? 使用for循环对所有的url进行遍历访问? 嗯,想法很好,但是 ...

scrapy爬取智联招聘

scrapy爬取智联招聘相关推荐

最新文章

热门文章