我想分析下互联网行业全国招聘实习生的情况,通过爬取智联招聘,得到15467条数据,并导入Mysql

在items.py里:

import scrapy
from scrapy.http import Requestfrom lxml import etree
from zhaopinzhilian.items import ZhaopinzhilianItemclass RecuritSpider(scrapy.Spider):name = 'recurit'
    allowed_domains = ['zhaopin.com']#start_urls = ['http://www.zhaopin.com/']
    header = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"}def start_requests(self):return [Request("http://sou.zhaopin.com/jobs/searchresult.ashx?bj=5006000&sj=299&in=210500%3b160400%3b160000%3b160500%3b160200%3b300100%3b160100%3b160600&jl=%E9%80%89%E6%8B%A9%E5%9C%B0%E5%8C%BA&sb=2&sm=0&isfilter=0&fl=489&isadv=0&sg=2b24ff0c4e924139b8749ea5a59d2dbb&p=1",callback=self.parse,headers=self.header,dont_filter=True
        )]def parse(self, response):try:item = ZhaopinzhilianItem()data = response.textres = etree.HTML(data)table_list = res.xpath('//table[@class="newlist"]')for table in table_list:item["link"]= table.xpath('.//td[@class="zwmc"]//a[1]//@href')for j in range(0, len(item["link"])):surl=item["link"][j]print(surl)yield Request(surl,callback=self.next)for i in range(2, 91):url = "http://sou.zhaopin.com/jobs/searchresult.ashx?bj=5006000&sj=299&in=210500%3b160400%3b160000%3b160500%3b160200%3b300100%3b160100%3b160600&jl=%E9%80%89%E6%8B%A9%E5%9C%B0%E5%8C%BA&sb=2&sm=0&isfilter=0&fl=489&isadv=0&sg=2b24ff0c4e924139b8749ea5a59d2dbb&p=" + str(i)yield Request(url, callback=self.parse)except Exception as e:print(e)def next(self,response):try:'''
            conn = pymysql.connect(host="127.0.0.1", user="root", passwd="root", db="zhilian", charset="utf8")
            cursor = conn.cursor()
            '''
            item = ZhaopinzhilianItem()item["zwmc"]=response.xpath("//div[@class='inner-left fl']/h1/text()").extract()item["gsmc"] = response.xpath("//div[@class='inner-left fl']/h2/a[@target='_blank']/text()").extract()res = etree.HTML(response.text)item["gsgm"]= res.xpath("/html/body/div[6]/div[2]/div[1]/ul/li[1]/strong/text()")zwyx = res.xpath("/html/body/div[6]/div[1]/ul/li[1]/strong/text()")item["zwyx"] = [zwyx[0].replace(u'元/月\xa0', u' ')]#print(item["zwyx"])
            item["gzdd"] = res.xpath("/html/body/div[6]/div[1]/ul/li[2]/strong/a/text()")zprs= res.xpath("/html/body/div[6]/div[1]/ul/li[7]/strong/text()")item["zprs"]=[zprs[0].replace(u'人',u' ')]item["minxueli"] = res.xpath("/html/body/div[6]/div[1]/ul/li[6]/strong/text()")'''
            sql = "insert into zhaopin(zwmc,gsmc,zwyx,zprs,gzdd,gsgm,minxueli) values(%s,%s,%s,%s,%s,%s,%s);"
            params = (item["zwmc"][0], item["gsmc"][0], item["zwyx"][0],item["zprs"][0],item["gzdd"][0],item["gsgm"][0],item["minxueli"][0])
            cursor.execute(sql, params)
            conn.commit()
            cursor.close()
            conn.close()
            '''
            yield itemexcept Exception as e:print(e)

之后在pipelines里对数据进行导入数据库的操作:

import pymysql
class ZhaopinzhilianPipeline(object):def process_item(self, item, spider):conn = pymysql.connect(host="127.0.0.1", user="root", passwd="root", db="zhilian", charset="utf8")cursor = conn.cursor()for i in range(0, len(item["zwmc"])):zwmc=item["zwmc"][i]gsmc=item["gsmc"][i]zwyx=item["zwyx"][i]gzdd=item["gzdd"][i]gsgm=item["gsgm"][i]minxueli=item["minxueli"][i]zprs=item["zprs"][i]sql = "insert into zhaopin(zwmc,gsmc,zwyx,zprs,gzdd,gsgm,minxueli) values(%s,%s,%s,%s,%s,%s,%s);"
            params = (zwmc,gsmc,zwyx,zprs,gzdd,gsgm,minxueli)cursor.execute(sql,params)conn.commit()cursor.close()conn.close()return item

最后记得在settings.py里打开piplines:

ITEM_PIPELINES = {'zhaopinzhilian.pipelines.ZhaopinzhilianPipeline': 300,
}

scrapy爬取智联招聘相关推荐

  1. python3 scrapy爬取智联招聘存mongodb

    写在前面,这次写智联招聘的爬虫是其次,主要的是通过智联招聘上的数据信息弄一个数据挖掘的小项目,这一篇主要是如何一气呵成的将智联招聘上的招聘信息给爬下来 (一)scrapy框架的使用 scrapy框架是 ...

  2. Python利用Scrapy爬取智联招聘和前程无忧的招聘数据

    爬虫起因   前面两个星期,利用周末的时间尝试和了解了一下Python爬虫,紧接着就开始用Scrapy框架做了一些小的爬虫,不过,由于最近一段时间的迷茫,和处于对职业生涯的规划.以及对市场需求的分析, ...

  3. scrapy 智联 mysql_Python利用Scrapy爬取智联招聘和前程无忧的招聘数据

    爬虫起因 前面两个星期,利用周末的时间尝试和了解了一下Python爬虫,紧接着就开始用Scrapy框架做了一些小的爬虫,不过,由于最近一段时间的迷茫,和处于对职业生涯的规划.以及对市场需求的分析,我通 ...

  4. scrapy爬取智联招聘,MongoDB存储数据

    一.项目目录结构 二.模块划分 1.settings # -*- coding: utf-8 -*-# Scrapy settings for zhilian project # # For simp ...

  5. python scrapy爬取智联招聘的公司和职位信息(一)

    这个帖子先暂时放弃.本以为和拉钩一样全是静态页面,结果在写item的时候,发现网页有点意思,突然有个大胆的想法,想试试-先埋坑,后面在填坑 缘由: 最近在找工作发现智联和51上太多培训机构的虚假招聘信 ...

  6. python scrapy爬取智联招聘全站的公司和职位信息(二)

    从网页中提取相关信息 **公司页面**: 公司的url,公司名称,规模,行业,在招岗位数量,邀面试数 1. 在scrapy shell中调试 在terminal/CMD中输入 scrapy shell ...

  7. Scrapy学习——爬取智联招聘网站案例

    Scrapy学习--爬取智联招聘网站案例 安装scrapy 下载 安装 准备 分析 代码 结果 安装scrapy 如果直接使用pip安装会在安装Twisted报错,所以我们需要手动安装. 下载 安装s ...

  8. 克服反爬虫机制爬取智联招聘网站

    一.实验内容 1.爬取网站: 智联招聘网站(https://www.zhaopin.com/) 2.网站的反爬虫机制:     在我频繁爬取智联招聘网站之后,它会出现以下文字(尽管我已经控制了爬虫的爬 ...

  9. python爬虫多url_Python爬虫实战入门六:提高爬虫效率—并发爬取智联招聘

    之前文章中所介绍的爬虫都是对单个URL进行解析和爬取,url数量少不费时,但是如果我们需要爬取的网页url有成千上万或者更多,那怎么办? 使用for循环对所有的url进行遍历访问? 嗯,想法很好,但是 ...

最新文章

  1. 人力资源计算机考试题库,人力资源考试题库.doc
  2. 小程序开发系类之基础部分-开发工具
  3. Hadoop中Block和Split区别
  4. TensorFlow学习笔记(七)feeds操作
  5. Python中的模块和包:模块的(动态)导入、__future__模块使用
  6. 楼主考南师计算机学硕,【图片】2019南师大新传学硕考研经验贴【南京师范大学研究生吧】_百度贴吧...
  7. ping和telnet的区别
  8. hive 配置用户名_hive的用户和用户权限
  9. WPF中的附加行为简介
  10. 邮件群发 php shell,Shell发送邮件以HTML展示
  11. 各种Adapter的用法
  12. SVN服务器搭建详解
  13. 数据结构:线性表理论题目集
  14. 一步一步实现KNN分类算法
  15. 密码学中数论和有限域基本概念
  16. 利用oc门或od门实现线与_TTL,CMOS,OC门,OD门的理解
  17. Java使用二维码实现签到技术
  18. MySQL服务器地址为空,win10 mysql没有服务器地址
  19. 计算机无法启动vm服务,电脑中的虚拟机VM开机停留在dhcp无法启动如何解决
  20. R语言26-Prosper 贷款数据分析2

热门文章

  1. RT-Thread完整版fal及easyflash移植
  2. Studio5000 V33初学(一):FAL指令
  3. 4.电子计算机的分类,国际上对计算机进行分类的依据是什么
  4. 个人人民币定期存款-存本取息Personal CNY Time Deposit – Schedule
  5. 慧荣SM2263XT+4贴B16A开卡成功,附量产工具
  6. 【RT-Thread】 TinyUSB挂载成U盘和文件系统,基于STM32F405RG
  7. mac安装Solr流程
  8. 一、简单工厂模式(simple factory method)
  9. 我手中的电子书书目清单(开始提供BT下载)
  10. linux常用关机命令shutdown、halt、poweroff、init用法