十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
Scrapy框架安装
1、首先,终端执行命令升级pip: python -m pip install --upgrade pip
2、安装,wheel(建议网络安装) pip install wheel
3、安装,lxml(建议下载安装)
4、安装,Twisted(建议下载安装)
5、安装,Scrapy(建议网络安装) pip install Scrapy
测试Scrapy是否安装成功
Scrapy框架指令
scrapy -h 查看帮助信息
Available commands:
bench Run quick benchmark test (scrapy bench 硬件测试指令,可以测试当前服务器每分钟最多能爬多少个页面)
fetch Fetch a URL using the Scrapy downloader (scrapy fetch http://www.iqiyi.com/ 获取一个网页html源码)
genspider Generate new spider using pre-defined templates ()
runspider Run a self-contained spider (without creating a project) ()
settings Get settings values ()
shell Interactive scraping console ()
startproject Create new project (cd 进入要创建项目的目录,scrapy startproject 项目名称 ,创建scrapy项目)
version Print Scrapy version ()
view Open URL in browser, as seen by Scrapy ()
创建项目以及项目说明
scrapy startproject adc 创建项目
项目说明
目录结构如下:
├── firstCrawler
│ ├── __init__.py
│ ├── items.py
│ ├── middlewares.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders
│ └── __init__.py
└── scrapy.cfg
scrapy.cfg
: 项目的配置文件tems.py
: 项目中的item文件,用来定义解析对象对应的属性或字段。pipelines.py
: 负责处理被spider提取出来的item。典型的处理有清理、 验证及持久化(例如存取到数据库)settings.py
: 项目的设置文件.- spiders:实现自定义爬虫的目录
- middlewares.py:Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出(items及requests)。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。
项目指令
项目指令是需要cd进入项目目录执行的指令
scrapy -h 项目指令帮助
Available commands:
bench Run quick benchmark test
check Check spider contracts
crawl Run a spider
edit Edit spider
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
list List available spiders
parse Parse URL (using its spider) and print the results
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version (scrapy version 查看scrapy版本信息)
view Open URL in browser, as seen by Scrapy (scrapy view http://www.zhimaruanjian.com/ 下载一个网页并打开)
创建爬虫文件
创建爬虫文件是根据scrapy的母版来创建爬虫文件的
scrapy genspider -l 查看scrapy创建爬虫文件可用的母版
Available templates:母版说明
basic 创建基础爬虫文件
crawl 创建自动爬虫文件
csvfeed 创建爬取csv数据爬虫文件
xmlfeed 创建爬取xml数据爬虫文件
创建一个基础母版爬虫,其他同理
scrapy genspider -t 母版名称 爬虫文件名称 要爬取的域名 创建一个基础母版爬虫,其他同理
如:scrapy genspider -t basic pach baidu.com
scrapy check 爬虫文件名称 测试一个爬虫文件是否合规
如:scrapy check pach
scrapy crawl 爬虫名称 执行爬虫文件,显示日志 【重点】
scrapy crawl 爬虫名称 --nolog 执行爬虫文件,不显示日志【重点】
转载于:https://www.cnblogs.com/meng-wei-zhi/p/8182599.html
十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令相关推荐
- Scrapy框架爬虫案例
Scrapy框架爬虫案例 1 什么是Scrapy 2 Scrapy架构 3 Scrapy架构图 4 案例 4.1爬取职友集中阿里巴巴招聘岗位 4.2 创建Scrapy项目 4.3 定义Item 4.4 ...
- Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息
Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息 目录 输出结果 实现代码 输出结果 后期更新-- 实现代码 import scrapy class Dmoz ...
- Python基础知识回顾及scrapy框架爬虫基础
1.函数 函数参数:必须 默认 关键 可变 函数种类:外部 内部 匿名 lambda 装饰函数:@语法糖 函数总是要返回的 ,若没有return,None总是被返回 2.面向对象: 对象:已存在, ...
- Python爬虫之Scrapy框架爬虫实战
Python爬虫中Scrapy框架应用非常广泛,经常被人用于属于挖掘.检测以及自动化测试类项目,为啥说Scrapy框架作为半成品我们又该如何利用好呢 ?下面的实战案例值得大家看看. 目录: 1.Scr ...
- Python爬虫—Scrapy框架—Win10下载安装
Python爬虫-Scrapy框架-Win10下载安装 1. 下载wheel 2.下载twisted 3. 下载pywin32 4. 下载安装Scrapy 5. 创建一个scrapy项目 6. fir ...
- Scrapy框架爬虫—以京东众筹为例
Scrapy框架爬虫--以京东众筹为例 第一步, 打开命令提示符,创建一个Scrapy框架: 第二步,定位到创建的文件夹: 第三步,在spider文件夹中创建一个.py文件(注:不要关闭命令提示符): ...
- python scrapy框架爬虫_Scrapy爬虫框架教程(一)-- Scrapy入门
前言 转行做python程序员已经有三个月了,这三个月用Scrapy爬虫框架写了将近两百个爬虫,不能说精通了Scrapy,但是已经对Scrapy有了一定的熟悉.准备写一个系列的Scrapy爬虫教程,一 ...
- python scrapy框架爬虫_Python Scrapy爬虫框架学习
Scrapy 是用Python实现一个为爬取网站数据.提取结构性数据而编写的应用框架. 一.Scrapy框架简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数 ...
- 爬虫基础分享Scrapy框架流程图与安装
从头开发一个爬虫程序是一项烦琐的工作,为了避免因制造轮子而消耗大量时间,在实际应用中我们可以选择使用一些优秀的爬虫框架,使用框架可以降低开发成本,提高程序质量,让我们能够专注于业务逻辑.所以,我们一起 ...
最新文章
- 时间序列(二)数据重采样
- 2.easyui 控件取值方式
- 53.连续分区分配vs分连续分区分配
- 简单理解js闭包、类型引用....第一章
- Openwrt WIFI探针开发【一】
- boost::hana::cycle用法的测试程序
- 【解题报告】Leecode 807. 保持城市天际线——Leecode每日刷题系列
- 华为荣耀6 H60-L02/L12(联通版)救砖包【适用于无限重启】
- 哈尔滨信息工程学院计算机在哪个校区,2021年哈尔滨信息工程学院有几个校区,大一新生在哪个校区...
- 不存在的泳池 DFS
- autowired注解_Spring系列之Spring常用注解总结
- asp.net zero
- 软件开发模型_为什么越来越多软件开发团队都放弃了瀑布模型?
- word多级标题的使用
- SEO实战密码:60天网站流量提高20倍(第2版)
- 计算机专业软件工程的二本大学有哪些,全国软件工程专业大学排名 一本二本大学名单...
- C语言DCT图像,任意长度DCT变换C语言实现方法
- python web py入门(3)-模板
- 音乐flac格式如何快速简单的转换为mp3格式
- 专家修炼-学习的方法
热门文章
- python平均分由高到低顺序排列输出选手编号和最后得分_python 字典的使用案例二:求平均分,并按平均分由高到低输出选手编号和最后得分...
- ansys命令流_ANSYS命令流建模3之划分单元+施加弹簧
- Hex hsl 转换 php,关于 RGB,HEX,HSL 颜色相互转换
- php搜索数据库设计,PHP数据库搜索功能设计
- c html导出成word,html转word-html如何转换成WORD
- groovy怎样从sql语句中截取表名_Mysql和SQL
- Ubuntu下安装OpenSSH Server并在客户端远程连接Ubuntu
- Win32ASM学习[15]:加减指令: INC、DEC、NEG、ADD、ADC、SUB、SBB、CMP
- Win32ASM学习[11]:逻辑运算
- Kadane's algorithm学习