感谢原作者的文章

小白进阶之Scrapy第一篇

里面写的非常详细,但是转存数据库的时候,用的模块是mysql.connector.这个模块官网显示只支持到python3.5.

我用的则是pymysql.本文目的是整理这个项目的整体结构,并介绍用pymysql传输数据的用法.建议大家先看原文后,再看我的.

另附上(中文版)

Scrapy入门教程

零.安装srayp.
1.(未尝试)小白进阶之Scrapy第一篇 https://cuiqingcai.com/3472.html:
2.Pycharm中的scrapy安装教程 https://www.cnblogs.com/xiaoli2018/p/4566639.html,不需安装环境变量
3.Python3安装Scrapy的方法步骤,https://www.jb51.net/article/128885.htm,如果pycharm和原始的idel没有共用模块包( .\Python36\Lib\site-packages) ,可把原生site-packages中的模块复制到pycharm中

一.新建srapy项目:
1.CMD进入你需要放置项目的目录
2.scrapy startproject XXXXX             XXXXX代表你项目的名字

二.在items.py中,建立想要爬取的目标内容字段,可理解为实体类

三.在spiders包下建立爬虫主程序.'Dinddia.py',并编写相关爬虫代码.将目标内容提取存放在items中
tips1:
大多时候items中的目标内容并不在一个页面中,
所以使用from scrapy.http import Request 中的Request,使用yield Request(url,callback,meta={'key1':value1,'key2':value2})进行转发,即改变爬虫的爬取页面.
Request参数解释:
url:爬虫将爬取的地址
callback:回调函数,Request可自动获取resopnse并返回给回调函数.除第一个到parse之外,再次转发时可自定义回调函数,例:def 函数名XX(self,response):
meta:可存储需要的数据到下个页面中使用
tips2:因为items中的实体类继承了scrapy.Item. 所以return 或yield items时,自动将items数据传输到pipelines中!

四.将数据存储到数据库中
pymysql模块
ps:需先在settings中指定使用的pipelines,详见settings
1.提前在数据库中创建库和表
2.在def process_item(self, item, spider):方法中执行python 连接数据库的操作.
3.数据库的初始连接和增删改查方法,我是放在了pipeline的init中,没有关闭方法,因为目前尝试的位置都会影响写入.不关闭目前看来也没什么影响.

项目地址:https://github.com/ljx4471817/scrapy

小白进阶之Scrapy安装.使用.爬取顶点小说信息相关推荐

  1. scrapy学习之爬取顶点小说数据(转)

    1.爬取网站 https://www.x23us.com 2.转出处 https://cuiqingcai.com/3472.html 3.遇到的问题 3.1 mysql的模块导入问题 修改为pymy ...

  2. Python的scrapy之爬取顶点小说网的所有小说

    闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息 下面是我们要爬取的二级页面 小说的简介信息: 下面 ...

  3. Python Scrapy爬虫框架爬取51job职位信息并保存至数据库

    Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...

  4. Python网络爬虫(九):爬取顶点小说网站全部小说,并存入MongoDB

    前言:本篇博客将爬取顶点小说网站全部小说.涉及到的问题有:Scrapy架构.断点续传问题.Mongodb数据库相关操作. 背景: Python版本:Anaconda3 运行平台:Windows IDE ...

  5. scrapy-redis分布式爬虫全站爬取顶点小说网

    scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重 ...

  6. python3.6爬虫案例:爬取顶点小说(爱看小说同学的福利)

    一.写在前面 这次本来打算爬百思不得姐视频的,谁料赶上此网站调整,视频专栏下线了,网站中也没有视频可爬.所幸先来说说如何爬取顶点小说吧. 顶点小说(https://www.x23us.com)里面的内 ...

  7. python爬取顶点小说简单版

    python爬取顶点小说简单版 爬取网络资源首先要下载requests库 因为这里面也有数据提取和分析所以也要有etree库,re库 下载库的代码是:pip install 库名 如:pip inst ...

  8. Scrapy爬取顶点小说网

    Scrapy爬取小说 爬取目标:顶点小说网 1.Scrapy的安装 pip install scrapy 2.Scrapy的介绍 创建项目 scrapy startproject xxx xxx项目名 ...

  9. python爬虫(16)使用scrapy框架爬取顶点小说网

    本文以scrapy 框架来爬取整个顶点小说网的小说 1.scrapy的安装 这个安装教程,网上有很多的例子,这里就不在赘述了 2.关于scrapy scrapy框架 是一个非常好的东西,能够实现异步爬 ...

最新文章

  1. python获取重复元素
  2. 将oracle导出成文本文件,oracle 数据能否导出成纯文本文件呢?
  3. 关于批量插入数据之我见(100万级别的数据,mysql)
  4. 如何使用 Java AWT 创建一个简易计算器
  5. linux 测试本地端口是否打开,关于bash:有效测试Linux是否打开了端口?
  6. 轻量级java web实践-6(框架源码-4)
  7. 2.PHP 扩展开始以及内核应用(1) --- PHP 变量在内核中的实现
  8. 职场 | 算法是怎样决定你的职业生涯的
  9. mysql隐式锁_innodB的隐式锁
  10. nodejs下载文件到本地并命名 和 删除文件
  11. WEB前端代码:边框阴影、边框图片、背景样式、文本样式、字体样式
  12. 全球与中国压电比例阀市场深度研究分析报告
  13. 微信小程序实现手机屏幕左右旋转,页面元素左右移动,小程序加速计
  14. Arduino 实时时钟DS1302模块
  15. PHP intval()函数利用
  16. 医疗建筑智能化工程项目能耗监测系统的研究与应用
  17. 【CYH-02】NOIp考砸后虐题赛:成绩:题解
  18. c语言字符串初始化_C++ 字符串
  19. OA、CRM、ERP之间的区别对比
  20. 网易社区被黑 事件涉及猫扑著名人物

热门文章

  1. 蓝桥杯每日一题(既约分数)
  2. 【Django 开发】面试招聘信息网站(用户登录注册投在线递简历)
  3. 文本溢出显示省略号时展示‘查看更多’按钮
  4. 服务器硬盘和视频存储硬盘的区别,云存储与服务器硬盘存储的区别?
  5. 什么情况下要做固定资产减值准备
  6. 转行python开发工程师理由_零基础转行Python前你应该思考以下几点
  7. 安卓之实现侧滑菜单DrawerLayout
  8. 关于XSS攻击及其防御
  9. html中显示人民币符号
  10. Android-Q颜色矩阵