在这篇入门教程中,我们假定你已经安装了python。如果你还没有安装,那么请参考安装指南。

首先第一步:进入开发环境,workon article_spider

进入这个环境:

安装Scrapy,在安装的过程中出现了一些错误:通常这些错误都是部分文件没有安装导致的,因为大学时经常出现,所以对解决这种问题,很实在,直接到http://www.lfd.uci.edu/~gohlke/pythonlibs/这个网站下载对应的文件,下载后用pip安装,具体过程不在赘述。

然后进入工程目录,并打开我们的新创建的虚拟环境:

新建scrapy工程:ArticleSpider

创建好工程框架:在pycharm中导入

scrapy.cfg: 项目的配置文件。

ArticleSpeder/: 该项目的python模块。之后您将在此加入代码。

ArticleSpeder/items.py: 项目中的item文件。

ArticleSpeder/pipelines.py: 项目中的pipelines文件。

ArticleSpeder/settings.py: 项目的设置文件。

ArticleSpeder/spiders/: 放置spider代码的目录。

回到dos窗口用basic创建模板

上面pycharm的截图中已经创建好了:

为了今后更好的开发,创建一个用于debug的类main.py

from scrapy.cmdline import execute

import sys

import os

print(os.path.dirname(os.path.abspath(__file__)))

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(["scrapy","crawl","jobbole"])

这是代码内容

import sys 为了设置工程目录,调用命令才会生效

里面的路径最好不要写死:可以通过os获取路径,更加灵活

execute用来执行目标程序的

jobbole.py的内容

class JobboleSpider(scrapy.Spider):

name = 'jobbole'

allowed_domains = ['blog.jobbole.com']

start_urls = ['http://blog.jobbole.com/110287']

def parse(self, response):

re_selector = response.xpath("/html/body/div[1]/div[3]/div[1]/div[1]/h1")

re2_selector = response.xpath('//*[@id="post-110287"]/div[1]/h1')

title = response.xpath('//div[@class="entry-header"]/h1/text()')

create_date = response.xpath("")

#//*[@id="112706votetotal"]

dian_zan = int(response.xpath("//span[contains(@class,'vote-post-up ')]/h10/text()").extract()[0])

pass

通过xpath技术获取对应文章的一些字段信息,包括标题,时间,评论数,点赞数等,因为比较简单所以不在赘述

写到这儿,大家也知道每次在pycharm里面debug和麻烦,因为scrapy比较大,所以这时候我们可以使用Scrapy shell来调试

标记部分是目标网站的地址:现在我们可以更加愉悦的进行调试了。

今天scrapy的初体验就到这里了

python scrapy 简单教程_Scrapy的简单使用教程相关推荐

  1. python scrapy框架爬虫_Scrapy爬虫框架教程(一)-- Scrapy入门

    前言 转行做python程序员已经有三个月了,这三个月用Scrapy爬虫框架写了将近两百个爬虫,不能说精通了Scrapy,但是已经对Scrapy有了一定的熟悉.准备写一个系列的Scrapy爬虫教程,一 ...

  2. 廖雪峰python3爬虫教程_Scrapy爬虫框架入门教程(1)——爬取廖雪峰老师的博客...

    最近一直在学习scrapy,但是网上关于scrapy的教程实在是太少,能找到的教程大多都是基于py2.7/scrapy0.2以下,甚至很多教程都是互相抄袭,连代码都抄漏了好多,更别提各种缩进错误.变量 ...

  3. pythonscrapy框架_简述python Scrapy框架

    一.Scrapy框架简介 Scrapy是用纯Python实现一个为了爬取网站数据,提取结构性数据而编写的应用框架,用途非常广泛.利用框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网 ...

  4. python scrapy 框架的简单使用爬虫苏宁易购图书信息

    python scrapy 框架的简单使用&&爬虫苏宁易购图书信息 前言 第一步: 分析网页 1.1 找到要爬取的数据位置 分类信息 图书信息 价格信息 1.2 分析如何获取数据 正则 ...

  5. Python爬虫入门教程:超级简单的Python爬虫教程

    这是一篇详细介绍 [Python]爬虫入门的教程,从实战出发,适合初学者.读者只需在阅读过程紧跟文章思路,理清相应的实现代码,30 分钟即可学会编写简单的 Python 爬虫. 这篇 Python 爬 ...

  6. Python小型web服务 web.py 简单教程

    最近有个项目需要通过Java调用Python的服务,有考虑过gRPC,那是一个很好的框架,通信效率高.但是基于够用就好的原则,决定选择使用简单的HTTP通信方式,Python建立服务器,公开JSON ...

  7. 在Python中安装GDAL(最简单,最详细图文教程)

    在Python中安装GDAL(最简单,最详细图文教程) 今天是2021年1月20日.为了安装在pythong中安装GDAL,我浏览了几十个网页,发现有99%都是垃圾,浪费了我非常多的时间.最后我安装成 ...

  8. python简单圣诞树手工折纸_简单折纸圣诞树手工制作教程教你如何折简单的圣诞树...

    简单折纸圣诞树手工制作教程教你如何折简单的圣诞树 圣诞节到来之际,各种有趣的折纸手工制作开始受到大家的关注和喜爱哦.纸艺网也开始给大家推荐一些有趣的手工折纸制作.这里纸艺网推荐的这个折纸制作是一个折纸 ...

  9. python画熊猫头_超简单的熊猫头简笔画原创教程步骤

    导读:小编根据大家的需要整理了一份关于<超简单的熊猫头简笔画原创教程步骤>的内容,具体内容: 熊猫生活在海拔2600-3500米的茂密竹林里,那里常年空气稀薄,云雾缭绕,气温低于20℃.那 ...

最新文章

  1. cuda-convnet2与caffe对比
  2. Windows下完成端口移植Linux下的epoll
  3. 电大计算机应用模块四实2010,国家开放大学《计算机应用基础》考试与答案形考任务模块2Word2010文字处理系统—客观题测验答案.docx...
  4. react中用pace.js
  5. python创建脚本文件_python创建文件备份的脚本
  6. 信息加密之信息摘要加密MD2、MD4、MD5
  7. 安卓逆向_15( 一 ) --- JNI 和 NDK
  8. OpenShift 4 - Knative教程 (7) Eventing之Broker和Trigger
  9. 【我来解惑】.Net应该学什么怎么学(二)
  10. java 重定向关键字_springboot实现转发和重定向
  11. 【毕业设计】基于Android的家校互动平台开发(内含完整代码和所有文档)——爱吖校推(你关注的,我们才推)...
  12. [经验教程]谷歌浏览器google chrome网站不安全与网站的连接不安全怎么办?
  13. IDEA 2018 破解
  14. JavaScript封装拖动滑块验证
  15. BI数据分析师究竟是做什么的?
  16. html重复渐变包括,html – CSS:当设置为tbody / thead时,在Chrome中重复的渐变
  17. 当今主流浏览器内核简介
  18. 宁西铁路线 宁合线 宁西铁路
  19. SLAM大牛Cyrill 开源SuMa ++:基于语义激光雷达过滤动态物体提高定位精度
  20. mysql连接oracle视图_oracle数据库视图

热门文章

  1. 2021年全球密封玻璃收入大约340.6百万美元,预计2028年达到454.6百万美元
  2. windows下如何搭建属于自己的git服务器?
  3. blender立方体开孔
  4. pyinstall 打包
  5. 一个「学渣」的从零Web前端自学之路,附学习资源分享
  6. 太原理工大学机器人团队20天学习打卡day14(51单片机初步)
  7. 修改mysql注册表在_mysql服务如何修改注册表
  8. 前端js获取局域网ip
  9. 贴片加工钢网的使用方法
  10. k8s集群部署springcloud 单应用