感谢原作者的文章

小白进阶之Scrapy第一篇

里面写的非常详细,但是转存数据库的时候,用的模块是mysql.connector.这个模块官网显示只支持到python3.5.

我用的则是pymysql.本文目的是整理这个项目的整体结构,并介绍用pymysql传输数据的用法.建议大家先看原文后,再看我的.

另附上(中文版)

Scrapy入门教程

零.安装srayp.
1.(未尝试)小白进阶之Scrapy第一篇 https://cuiqingcai.com/3472.html:
2.Pycharm中的scrapy安装教程 https://www.cnblogs.com/xiaoli2018/p/4566639.html,不需安装环境变量
3.Python3安装Scrapy的方法步骤,https://www.jb51.net/article/128885.htm,如果pycharm和原始的idel没有共用模块包( .\Python36\Lib\site-packages) ,可把原生site-packages中的模块复制到pycharm中

一.新建srapy项目:
1.CMD进入你需要放置项目的目录
2.scrapy startproject XXXXX XXXXX代表你项目的名字

二.在items.py中,建立想要爬取的目标内容字段,可理解为实体类

三.在spiders包下建立爬虫主程序.'Dinddia.py',并编写相关爬虫代码.将目标内容提取存放在items中
tips1:
大多时候items中的目标内容并不在一个页面中,
所以使用from scrapy.http import Request 中的Request,使用yield Request(url,callback,meta={'key1':value1,'key2':value2})进行转发,即改变爬虫的爬取页面.
Request参数解释:
url:爬虫将爬取的地址
callback:回调函数,Request可自动获取resopnse并返回给回调函数.除第一个到parse之外,再次转发时可自定义回调函数,例:def 函数名XX(self,response):
meta:可存储需要的数据到下个页面中使用
tips2:因为items中的实体类继承了scrapy.Item. 所以return 或yield items时,自动将items数据传输到pipelines中!

四.将数据存储到数据库中
pymysql模块
ps:需先在settings中指定使用的pipelines,详见settings
1.提前在数据库中创建库和表
2.在def process_item(self, item, spider):方法中执行python 连接数据库的操作.
3.数据库的初始连接和增删改查方法,我是放在了pipeline的init中,没有关闭方法,因为目前尝试的位置都会影响写入.不关闭目前看来也没什么影响.

项目地址:https://github.com/ljx4471817/scrapy

小白进阶之Scrapy安装.使用.爬取顶点小说信息相关推荐

scrapy学习之爬取顶点小说数据（转）
1.爬取网站 https://www.x23us.com 2.转出处 https://cuiqingcai.com/3472.html 3.遇到的问题 3.1 mysql的模块导入问题修改为pymy ...
Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息下面是我们要爬取的二级页面小说的简介信息: 下面 ...
Python Scrapy爬虫框架爬取51job职位信息并保存至数据库
Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...
Python网络爬虫（九）：爬取顶点小说网站全部小说，并存入MongoDB
前言:本篇博客将爬取顶点小说网站全部小说.涉及到的问题有:Scrapy架构.断点续传问题.Mongodb数据库相关操作. 背景: Python版本:Anaconda3 运行平台:Windows IDE ...
scrapy-redis分布式爬虫全站爬取顶点小说网
scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重 ...
python3.6爬虫案例：爬取顶点小说（爱看小说同学的福利）
一.写在前面这次本来打算爬百思不得姐视频的,谁料赶上此网站调整,视频专栏下线了,网站中也没有视频可爬.所幸先来说说如何爬取顶点小说吧. 顶点小说(https://www.x23us.com)里面的内 ...
python爬取顶点小说简单版
python爬取顶点小说简单版爬取网络资源首先要下载requests库因为这里面也有数据提取和分析所以也要有etree库,re库下载库的代码是:pip install 库名如:pip inst ...
Scrapy爬取顶点小说网
Scrapy爬取小说爬取目标:顶点小说网 1.Scrapy的安装 pip install scrapy 2.Scrapy的介绍创建项目 scrapy startproject xxx xxx项目名 ...
python爬虫(16)使用scrapy框架爬取顶点小说网
本文以scrapy 框架来爬取整个顶点小说网的小说 1.scrapy的安装这个安装教程,网上有很多的例子,这里就不在赘述了 2.关于scrapy scrapy框架是一个非常好的东西,能够实现异步爬 ...

小白进阶之Scrapy安装.使用.爬取顶点小说信息

小白进阶之Scrapy第一篇

Scrapy入门教程

小白进阶之Scrapy安装.使用.爬取顶点小说信息相关推荐

最新文章

热门文章