Scrapy框架官方网址:http://doc.scrapy.org/en/latest

安装

Windows 安装方式
• Python 2 / 3
• 升级pip版本:pip install –upgrade pip
• 通过pip 安装 Scrapy 框架pip install Scrapy
若出现报错ImportError: No module named win32api,需要pip install pypiwin32
Linux安装
• Python 2 / 3
• 安装非Python的依赖 sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
• 通过pip 安装 Scrapy 框架 sudo pip install scrapy

创建项目

进入您打算存储代码的目录中,运行下列命令:

scrapy startproject tutorial

创建spider

进入spider目录输入以下命令:

scrapy genspider baidu www.baidu.com

定义Item

根据需要从目标网页获取到的数据对item进行建模:

import scrapy
class MyItem(scrapy.Item):title = scrapy.Field()link = scrapy.Field()desc = scrapy.Field()

运行爬虫

在爬虫目录下新建manage.py

from scrapy import cmdline
cmdline.execute('scrapy crawl baidu'.split())

Scrapy框架学习(1)相关推荐

  1. Scrapy框架学习(四)----CrawlSpider、LinkExtractors、Rule及爬虫示例

    Scrapy框架学习(四)--CrawlSpider.LinkExtractors.Rule及爬虫示例 CrawlSpider.LinkExtractors.Rule是scrapy框架中的类,其中Cr ...

  2. Scrapy框架学习记录

    随着Python爬虫学习的深入,开始接触Scrapy框架 记录下两个参考教程: 官网教程:http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutor ...

  3. Scrapy框架学习笔记 - 爬取腾讯招聘网数据

    文章目录 一.Scrapy框架概述 (一)网络爬虫 (二)Scrapy框架 (三)安装Scrapy框架 (四)Scrapy核心组件 (五)Scrapy工作流程 二. Scrapy案例演示 (一)爬取目 ...

  4. 爬虫Scrapy框架学习(五)-东莞阳光热线问政平台爬取案例

    本案例通过典型的scrapy框架Spider类展现了一个模板式的爬虫过程,请读者细细体会,此案例为必会项目,按照本博客配置,完美通过.本文还对item做了限制,编写item文件的主要作用是防止爬取数据 ...

  5. scrapy框架学习

    文章目录 一.IP代理池(比较简陋,后续更新) 验证ip,proxies用的是两个协议,http和https都要有 二.python爬虫之scrapy框架 **先贴一张图** 并来一个牛逼的连接[Sc ...

  6. scrapy框架学习记录(2)

    更新一下上次的内容: Scrapy Engine(引擎):Scrapy框架的核心部分.负责在Spider和ItemPipeline.Downloader.Scheduler中间通信.传递数据等. Sp ...

  7. Scrapy框架学习笔记

    在Pycharm中新建一个项目KwScrapySpider 2.File->setting->Python Interpreter安装scrapy 打开Terminal,执行命令: scr ...

  8. 爬虫系列---Scrapy框架学习

    项目的需求需要爬虫某网的商品信息,自己通过Requests,BeautifulSoup等编写了一个spider,把抓取的数据存到数据库里面. 跑起来的感觉速度有点慢,尤其是进入详情页面抓取信息的时候, ...

  9. 学习爬虫之Scrapy框架学习(六)--1.直接使用scrapy;使用scrapy管道;使用scrapy的媒体管道类进行猫咪图片存储。媒体管道类学习。自建媒体管道类存储图片

    1.引入: 先来看个小案例:使用scrapy爬取百度图片.( 目标百度图片URL: https://image.baidu.com/search/index?tn=baiduimage&ipn ...

最新文章

  1. 未定义的引用_Rust 引用和借阅
  2. Scala数组和Java集合互转代码演示
  3. Linux vim打开文件的四种方式
  4. .NET6之MiniAPI(三十):结束篇(附链接)
  5. .NET Core使用skiasharp文字头像生成方案(基于docker发布)
  6. junit 测试 dao_JUnit测试Spring Service和DAO(带有内存数据库)
  7. 大数据之-Hadoop之HDFS的API操作_文件IO流_上传_案例---大数据之hadoop工作笔记0063
  8. 设计模式原则之五:里氏置换原则
  9. linux hook 任意内核函数,【求助】Kernel 4.8下编译编写的Netfilter Hook函数失败
  10. Matlab之字符串的查找(findstr)与替换(strrep)
  11. (一)事务与并发控制
  12. Crosses and Crosses
  13. 微信绑定的卡服务器,微信将迎来重大更新,微信绑定银行卡的用户请注意!建议进行使用...
  14. 读书笔记: 《亿级流量网站架构核心技术》(开涛的那本)
  15. 3. 自定义Java编译时注解处理器
  16. iOS 模拟器安装APP,在电脑上运行ios的app
  17. 接口测试准备一、 网路基础 常用代理工具 charles使用 Android手机代理抓包
  18. 用计算机变的魔术,iPhone计算器不为人知的隐藏技能,听说竟然还能用它变魔术?...
  19. 自学篇之如何高效地学习网络安全
  20. 论文阅读:Recurrent Neural Networks for Time Series Forecasting Current Status and Future Directions

热门文章

  1. dj鲜生-让应用的模型类生效,搬家到云服务器-非本地操作
  2. 爬虫-演练-GET请求抓取网页的内容
  3. kubernetes日志采集与解析
  4. TIDB事务过大transction too large解决方法
  5. MySQL实战 | 01 当执行一条 select 语句时,MySQL 到底做了啥?
  6. Java技术系列文章汇集(长期更新)
  7. 使用js简单实现javaMap
  8. 并查集之团伙(codevs)
  9. 修改 Mac 版 Safari、Chrome、FireFox、Opera 的 User-Agent
  10. python语法31[with来自动释放对象]