小白进阶之Scrapy安装.使用.爬取顶点小说信息
感谢原作者的文章
小白进阶之Scrapy第一篇
里面写的非常详细,但是转存数据库的时候,用的模块是mysql.connector.这个模块官网显示只支持到python3.5.
我用的则是pymysql.本文目的是整理这个项目的整体结构,并介绍用pymysql传输数据的用法.建议大家先看原文后,再看我的.
另附上(中文版)
Scrapy入门教程
零.安装srayp.
1.(未尝试)小白进阶之Scrapy第一篇 https://cuiqingcai.com/3472.html:
2.Pycharm中的scrapy安装教程 https://www.cnblogs.com/xiaoli2018/p/4566639.html,不需安装环境变量
3.Python3安装Scrapy的方法步骤,https://www.jb51.net/article/128885.htm,如果pycharm和原始的idel没有共用模块包( .\Python36\Lib\site-packages) ,可把原生site-packages中的模块复制到pycharm中
一.新建srapy项目:
1.CMD进入你需要放置项目的目录
2.scrapy startproject XXXXX XXXXX代表你项目的名字
二.在items.py中,建立想要爬取的目标内容字段,可理解为实体类
三.在spiders包下建立爬虫主程序.'Dinddia.py',并编写相关爬虫代码.将目标内容提取存放在items中
tips1:
大多时候items中的目标内容并不在一个页面中,
所以使用from scrapy.http import Request 中的Request,使用yield Request(url,callback,meta={'key1':value1,'key2':value2})进行转发,即改变爬虫的爬取页面.
Request参数解释:
url:爬虫将爬取的地址
callback:回调函数,Request可自动获取resopnse并返回给回调函数.除第一个到parse之外,再次转发时可自定义回调函数,例:def 函数名XX(self,response):
meta:可存储需要的数据到下个页面中使用
tips2:因为items中的实体类继承了scrapy.Item. 所以return 或yield items时,自动将items数据传输到pipelines中!
四.将数据存储到数据库中
pymysql模块
ps:需先在settings中指定使用的pipelines,详见settings
1.提前在数据库中创建库和表
2.在def process_item(self, item, spider):方法中执行python 连接数据库的操作.
3.数据库的初始连接和增删改查方法,我是放在了pipeline的init中,没有关闭方法,因为目前尝试的位置都会影响写入.不关闭目前看来也没什么影响.
项目地址:https://github.com/ljx4471817/scrapy
小白进阶之Scrapy安装.使用.爬取顶点小说信息相关推荐
- scrapy学习之爬取顶点小说数据(转)
1.爬取网站 https://www.x23us.com 2.转出处 https://cuiqingcai.com/3472.html 3.遇到的问题 3.1 mysql的模块导入问题 修改为pymy ...
- Python的scrapy之爬取顶点小说网的所有小说
闲来无事用Python的scrapy框架练练手,爬取顶点小说网的所有小说的详细信息. 看一下网页的构造: tr标签里面的 td 使我们所要爬取的信息 下面是我们要爬取的二级页面 小说的简介信息: 下面 ...
- Python Scrapy爬虫框架爬取51job职位信息并保存至数据库
Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...
- Python网络爬虫(九):爬取顶点小说网站全部小说,并存入MongoDB
前言:本篇博客将爬取顶点小说网站全部小说.涉及到的问题有:Scrapy架构.断点续传问题.Mongodb数据库相关操作. 背景: Python版本:Anaconda3 运行平台:Windows IDE ...
- scrapy-redis分布式爬虫全站爬取顶点小说网
scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重 ...
- python3.6爬虫案例:爬取顶点小说(爱看小说同学的福利)
一.写在前面 这次本来打算爬百思不得姐视频的,谁料赶上此网站调整,视频专栏下线了,网站中也没有视频可爬.所幸先来说说如何爬取顶点小说吧. 顶点小说(https://www.x23us.com)里面的内 ...
- python爬取顶点小说简单版
python爬取顶点小说简单版 爬取网络资源首先要下载requests库 因为这里面也有数据提取和分析所以也要有etree库,re库 下载库的代码是:pip install 库名 如:pip inst ...
- Scrapy爬取顶点小说网
Scrapy爬取小说 爬取目标:顶点小说网 1.Scrapy的安装 pip install scrapy 2.Scrapy的介绍 创建项目 scrapy startproject xxx xxx项目名 ...
- python爬虫(16)使用scrapy框架爬取顶点小说网
本文以scrapy 框架来爬取整个顶点小说网的小说 1.scrapy的安装 这个安装教程,网上有很多的例子,这里就不在赘述了 2.关于scrapy scrapy框架 是一个非常好的东西,能够实现异步爬 ...
最新文章
- python获取重复元素
- 将oracle导出成文本文件,oracle 数据能否导出成纯文本文件呢?
- 关于批量插入数据之我见(100万级别的数据,mysql)
- 如何使用 Java AWT 创建一个简易计算器
- linux 测试本地端口是否打开,关于bash:有效测试Linux是否打开了端口?
- 轻量级java web实践-6(框架源码-4)
- 2.PHP 扩展开始以及内核应用(1) --- PHP 变量在内核中的实现
- 职场 | 算法是怎样决定你的职业生涯的
- mysql隐式锁_innodB的隐式锁
- nodejs下载文件到本地并命名 和 删除文件
- WEB前端代码:边框阴影、边框图片、背景样式、文本样式、字体样式
- 全球与中国压电比例阀市场深度研究分析报告
- 微信小程序实现手机屏幕左右旋转,页面元素左右移动,小程序加速计
- Arduino 实时时钟DS1302模块
- PHP intval()函数利用
- 医疗建筑智能化工程项目能耗监测系统的研究与应用
- 【CYH-02】NOIp考砸后虐题赛:成绩:题解
- c语言字符串初始化_C++ 字符串
- OA、CRM、ERP之间的区别对比
- 网易社区被黑 事件涉及猫扑著名人物