scrapy xpath空列表_我的第一个爬虫——Scrapy爬虫详细操作入门指南（1）

工作原因，scrapy爬虫速成，在这里带爬虫小白们入门~争取以最详细、简单、易懂的方式带你入门~

以下大部分内容是操作记录，尽量详细以提高可操作性，以备与小白君们分享，也有助于今后个人复习。首先总结一下爬虫的几大步骤：

一、创建项目和爬虫文件；

二、修改爬虫spider（即spider文件夹中你自己创建的py文件）：

1、定义链接，即你要爬取的网站url；

2、提取页面，明确你想爬取页面的范围，如列表；

三、数据存储，可以存储到excel、txt等文档中，也可存储到数据库中。

了解scrapy流程，更有助于你了解代码逻辑、学的更快哦，这里有超简单易懂的scrapy 框架介绍，5分钟帮你认识scrapy~

杜哈哈：Scrapy爬虫流程zhuanlan.zhihu.com

我假设您已经安装好了python和pycharm等编译器，（毕竟是学习python的必备）。如果没有安装好，请看另一篇文章：

杜哈哈：python入门第一课——安装python和编译器zhuanlan.zhihu.com

一、创建项目和爬虫文件

1. 安装 scrapy、 py3Fdfs

pip install -i  https://pypi.tuna.tsinghua.edu.cn/simple  scrapy   或者 pip install scrapy
pip install py3Fdfs

2. 使用scrapy 创建爬虫项目：

开始搜索栏输入“cmd”打开命令提示符——定位到安装python的文件夹：

scrapy startproject **    （**是自定义的项目名）

3.创建一个 spider：

scrapy genspider xxx  ***     # xxx是项目名，***是待爬网页的url

例如：

scrapy genspider baidu httpps://baidu.com

如下图所示，我创建了一个项目“KAKEN0903_2”,爬虫文件是kaken。

items：可以用来定义要爬取的字段；
middleware：定义中间件，可以对request、response做一些处理，如过滤url、切换ip...
pipelines：管道文件，存储、处理字段，如设置数据存储所用的数据库。
settings：爬虫基本设置，如开放middleware、pipelines,或设置延时、数据库地址等。

二、修改爬虫spider（即spider文件夹中你自己创建的py文件）：

1、定义链接，即你要爬取的网站url；

利用上述步骤创建爬虫项目，能够在爬虫文件中（即Spider文件夹中你定义的.py文件，我的是kaken.py）自动生成定义链接的代码：

class KakenSpider(scrapy.Spider):name = 'kaken'   #一定要记住这个名字，运行爬虫是用到它，即在Terminal运行scrapy crawl kaken# 允许访问的url范围allowed_domains = ["kaken.nii.ac.jp"]  # 待爬取网页的的url,列表中可以放多个url,但是要在允许访问的url范围内哦~start_urls = ["https://kaken.nii.ac.jp/en/search/?kw=&fcdt=1964%2C1973&rw=20"]   #当然了，如果你想爬别的网站了，可以直接在里边改url，一定记得要改

不要忘了导包：

import scrapy

2、提取页面，明确你想爬取页面的范围，如列表；

因为python中是不强求必须有main函数的，所以在此可以我们暂不定义main函数。那么程序获得url后会自动、首先调用parse函数。

Exmple1. 先来个简单的爬虫：

def parse(self, response):item = response.xpath('//div[@class="listitem xfolkentry"] ').extract_first()   # 定位到要爬取的元素，存放到item变量中print(item)

response可以理解成服务器回应你的请求而返回的网页信息；
使用xpath语句定位到你所需的网页上的内容；
item是爬取导到的数据；

Exmple2.如果你要爬一个列表：

def parse(self, response):theList = response.xpath('//div[@class="listitem xfolkentry"] ')  # theList是网页中的列表# 如果列表中每条记录的html格式都一样，可以用循环遍历的方式获取每条记录中的数据for i, env in enumerate(theList):  # i:下标;  env:值list_url= response.url   #每条记录的urltitle = response.xpath("元素的xpath路径").extract_first()    #获得每条记录中的titleprint(list_url)

enumerate（list）函数的参数是列表，返回的是索引号及其对应的列表元素，在此是每条记录的编号和记录；
response.xpath（“xpath路径”）得到的是一个特殊类型的列表，若不加extract()或.extract_first()，将返回一大堆没用的数据（你可以自己试试）；加上extract()将得到列表形式的数据，加上.extract_first()则表示获取列表中第一个元素，即可获取干干净净的信息。反正你自己试试吧，加还是不加，反正不会报错~

三、运行爬虫

在 pycharm 的 Terminal 里——输入 scrapy crawl kaken——Enter，就能得到结果啦。

注意！！！

一定要通过linux命令cd 进入到spiders文件夹的上一级文件夹才能运行scrapy crawl kaken。
kaken不是kaken.py的kaken哦~，它是你的变量name那里赋的值。还不懂？我再贴一遍“ 二、1、定义链接，即你要爬取的网站url；”那里的代码，里边注释啦。如果改成name="zhihu"，那么就是scrapy crawl zhihu

class KakenSpider(scrapy.Spider):name = 'kaken'   #一定要记住这个名字，运行爬虫是用到它，即在Terminal运行scrapy crawl kaken# 允许访问的url范围allowed_domains = ["kaken.nii.ac.jp"]  # 待爬取网页的的url,列表中可以放多个url,但是要在允许访问的url范围内哦~start_urls = ["https://kaken.nii.ac.jp/en/search/?kw=&fcdt=1964%2C1973&rw=20"]   #当然了，如果你想爬别的网站了，可以直接在里边改url，一定记得要改

当然了，你也可以在命令提示符那里运行~

四、其他说明

在上文中，我介绍了scrapy爬虫最最基本、最最必要的操作，努力把每一步都写的比较详细，方便没有编程基础的小白能快速上手。如果当前的操作还不足以满足您的需求，不要着急，在后续文章中将继续补充。

这样安排的原因是，scrapy爬虫像盖房子一样，上述基本操作就是打地基，我们可以不必对地基大改动，而是在此基础上继续添砖加瓦、精装修，（即连接数据库、selenium模拟浏览器、反爬等）。

这个是师傅给我的入门资料：

SCRAPY爬虫实验室 - SCRAPY中文网提供lab.scrapyd.cn