[Python] 纯文本查看 复制代码#!/usr/bin/env python

# -*- encoding: utf-8 -*-

# Created on 2018-01-29 11:56:33

# Project: qcwy

from pyspider.libs.base_handler import *

import pymongo

class Handler(BaseHandler):

crawl_config = {

}

client=pymongo.MongoClient("localhost") # 本地的MongoDB数据库

db=client["tb_qcwy"] # 数据库名

@every(minutes=24 * 60)

def on_start(self):

self.crawl('http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=030200&keyword=python&keywordtype=2&lang=c&stype=2&postchannel=0000&fromType=1&confirmdate=9',

callback=self.index_page,

validate_cert=False,

connect_timeout = 50,

timeout = 500

)

@config(age=10 * 24 * 60 * 60)

def index_page(self, response):

for each in response.doc('p > span > a').items(): # 每个职位详情链接

self.crawl(each.attr.href, callback=self.detail_page,validate_cert=False)

next=response.doc('.bk > a').attr.href # 下一页链接

self.crawl(next,callback=self.index_page,validate_cert=False)

@config(priority=2)

def detail_page(self, response):

return {

"url": response.url, # 页面地址

"location": response.doc('h1').text(), # 地理位置

"company":response.doc('.cname > a').text(), # 公司名

"work_location":response.doc('.lname').text(), # 工作地点

"salary":response.doc('.cn > strong').text(), # 工资

"requirements":response.doc('.sp4').text(), # 工作需求

"zhiweixinxi":response.doc('.job_msg').text(), # 职位信息

"address":response.doc('.bmsg > .fp').text(), # 公司地址

}

# 保存到MongoDB

def on_result(self,result):

if result:

self.save_to_mongo(result)

def save_to_mongo(self,result):

if self.db["qcwy20180129"].insert(result): # 数据库表名

print("save to mongo",result)

python爬取前程无忧_【Python】爬虫框架PySpider爬取前程无忧职位相关推荐

  1. python爬去新浪微博_荐爬虫实战 新浪微博爬取 详细分析

    目标 #2020.5.22 #author:pmy #目标:爬取最爱的绵羊的微博,包含时间,文本内容,点赞数,评论数与转发数 #在更换博主时主要在于修改headers中的referer和参数中的con ...

  2. python爬虫scrapy爬取新闻标题及链接_python爬虫框架scrapy爬取梅花网资讯信息

    原标题:python爬虫框架scrapy爬取梅花网资讯信息 一.介绍 本例子用scrapy-splash爬取梅花网(http://www.meihua.info/a/list/today)的资讯信息, ...

  3. python scrapy框架 抓取的图片路径打不开图片_Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码...

    大家可以在Github上clone全部源码. 基本上按照文档的流程走一遍就基本会用了. Step1: 在开始爬取之前,必须创建一个新的Scrapy项目. 进入打算存储代码的目录中,运行下列命令: sc ...

  4. python的scrapy爬虫模块间进行传参_小猪的Python学习之旅 —— 4.Scrapy爬虫框架初体验...

    小猪的Python学习之旅 -- 4.Scrapy爬虫框架初体验 Python 引言: 经过前面两节的学习,我们学会了使用urllib去模拟请求,使用 Beautiful Soup和正则表达式来处理网 ...

  5. Python 爬虫框架 - PySpider

    Python爬虫进阶四之PySpider的用法:http://cuiqingcai.com/2652.html 网络爬虫剖析,以Pyspider为例:http://python.jobbole.com ...

  6. python学习(三)scrapy爬虫框架(二)——创建一个scrapy爬虫

    在创建新的scrapy爬虫之前,我们需要先了解一下创建一个scrapy爬虫的基本步骤 第一步:确定要爬取的数据 以爬取豆瓣电影数据为例: 每部电影所要爬取的信息有: 片名:<头号玩家> 导 ...

  7. yelp纽约地区数据爬取。使用feapder爬虫框架

    yelp纽约地区数据爬取.使用feapder爬虫框架 本文使用了国内作者的一款feapder轻量级开源爬虫框架.进行yelp站点数据抓取. 第一部分为根据开放api获取店铺信息. 第二部分为根据商店i ...

  8. 使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图)

    使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图) 初学Scrapy,实现爬取网络图片并保存本地功能 一.先看最终效果 保存在F:\pics文件夹下 二.安装scrapy 1.python的安装 ...

  9. Colly 学习笔记(二)——爬虫框架,抓取下载数据(上证A股数据下载)

    Colly 学习笔记(二)--爬虫框架,抓取下载数据(上证A股数据下载) Colly 学习笔记(一)--爬虫框架,抓取中金公司行业市盈率数据 Colly 学习笔记(二)--爬虫框架,抓取下载数据(上证 ...

最新文章

  1. 更改sybase服务名
  2. 2.3 指数加权平均-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
  3. Web安全的三个攻防姿势
  4. linux ini文件,Shell script - Linux下解析ini配置文件
  5. 网站QQ全屏PHP代码,QQ技术导航升级版 超级导航美化版带后台版 PHP源码
  6. c语言求偶数的积,《动物的多*语言》阅读理解及*
  7. 信息发布系统 Jquery+MVC架构开发(3) 解决方案创建
  8. VS2010详细安装步骤
  9. python打印100以内质数_python输出100以内的质数与合数实例代码
  10. 石家庄推进智慧城市建设 数字校园将覆盖所有学校
  11. ICPC Central Europe Regional Contest 2019【山东大学】 部分题解
  12. java真垃圾_JAVA吧真的很垃圾!!!
  13. NYOJ-1273-宣传墙
  14. 123456789 往这串数字里插入3个乘号,使得结果最大
  15. 【LaTeX】论文写作之参考文献(数模、美赛、学位论文、英文SCI论文写作通用)
  16. html返回首页页面代码,后台返回的HTML整个页面代码打开方法
  17. (七)区别like和rlike
  18. 【实践经验】PPT导出SVG格式通过Inkscape转化为pdf
  19. imba 为什么那么快?
  20. pygame做一个古诗词填空通关游戏

热门文章

  1. Eureka 的 Application Service 客户端的注册以及运行示例
  2. next 与 nextLine 方法的区别
  3. Android studio字体颜色设置
  4. 智能配送应用的简单介绍
  5. Netty框架之编解码机制一(ByteBuf以及Tcp粘包拆包)
  6. 浙江大学软件学院三维动画与交互技术考试概念整理
  7. Ubuntu18.04下更改或自定义键位(通过xkb)
  8. UL 9540A-2019【中文】 评估电池储能系统中热失控火灾传播的测试方法的安全标准
  9. js字符串截取函数的三种方式(slice()、substring()、substr())
  10. CF845 A - B