创建工程

scrapy startproject tutorial

创建蜘蛛

scrapy genspider crawl_mysql inputMysql http://lab.scrapyd.cn/

编写Item

class InputMysqlItem(scrapy.Item):

tags = scrapy.Field()

content = scrapy.Field()

编写创建数据库

创建数据库:

CREATE DATABASE db DEFAULT CHARACTER SET utf8

创建需要的表:CREATE TABLE crawl_my( id INTEGER NOT NULL tags VARCHAR(64) NULL, content VARCHAR(255) NULL) ENGINE = InnoDB;

编写pipline

import pymysql.cursors

class MySQLPipeline(object):

def __init__(self):

#链接数据库

self.connect = pymysql.connect(

host = '127.0.0.1',#数据库地址

port = 3306,#数据库端口

db = 'db',#数据库名称

user = 'root',#数据库用户名

passwd = 'root',#数据库密码

charset = 'utf8',#数据库编码

use_unicode = True

)

#拿到操作数据库的游标

self.cursor = self.connect.cursor()

def process_item(self,item,spider):

self.cursor.execute(

'''

insert into crawl_my(tags,content)

VALUE (%s,%s)

''',(item['tags'],item['content'])

)

#提交sql

self.connect.commit()

return item

在setting设置pipline

ITEM_PIPELINES = {

# 'tutorial.pipelines.FlowPipline': 300,

# 'tutorial.pipelines.MyImagesPipeline': 1,

'tutorial.pipelines.MySQLPipeline': 1,

# 'scrapy.contrib.pipeline.images.ImagesPipeline':1,

}

爬取spider

import scrapy

from tutorial.items import InputMysqlItem

class CrawlMysqlSpider(scrapy.Spider):

name = 'crawl_mysql'

allowed_domains = ['lab.scrapyd.cn']

start_urls = ['http://lab.scrapyd.cn/']

def parse(self, response):

item = InputMysqlItem()

for sel in response.css('div.quote'):

item['content'] = sel.css('.text::text').extract_first()

tags = sel.css('.tags .tag::text').extract()

item['tags'] = ','.join(tags)

yield item

#获取下一页链接

next_page = response.css('li.next a::attr(href)').extract_first()

if next_page is not None:

next_page = response.urljoin(next_page)

yield scrapy.Request(next_page,callback=self.parse)

scrapy将爬取的数据存入mysql_scrapy爬取数据存入MySQL相关推荐

  1. scrapy过滤重复数据和增量爬取

    原文链接 前言 这篇笔记基于上上篇笔记的---<scrapy电影天堂实战(二)创建爬虫项目>,而这篇又涉及redis,所以又先熟悉了下redis,记录了下<redis基础笔记> ...

  2. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...

  3. scrapy中集成selenium+浏览器池实现selenium的并发爬取LCSC网站中非结构化表格数据+异步存储进mysql+完整代码

    爬取https://lcsc.com/products/Connectors_365.html这个网址下所有的表格数据. 蓝色的都是要爬取的子页面,要爬取子页面里面的表格数据 ,表格数据如下: 右上角 ...

  4. python中scrapy可以爬取多少数据_python scrapy框架爬取某站博人传评论数据

    1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...

  5. python爬取b站评论_Python爬虫框架:scrapy抓取B站博人传评论数据

    1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...

  6. 爬取猫眼票房保存在MySQL_Scrapy爬取猫眼电影并存入MongoDB数据库

    之前入门了Scrapy,用Scrapy框架爬取豆瓣TOP250,最近打算学习下scrapy-redis分布式爬虫,学习之前再重新温故下Scrapy,这个总结我缩写了很多内容,很多介绍可以看下我之前写的 ...

  7. 知乎爬虫(scrapy默认配置下单机1小时可爬取60多万条数据)

    知乎爬虫(scrapy默认配置下单机1小时可爬取60多万条数据) 版本:1.0 作者: AlexTan CSDN: http://blog.csdn.net/alextan_ e-mail: alex ...

  8. 运用Scrapy框架爬取淘车网十七万二手车数据

    本篇内容将使用scrapy框架爬取淘车网所有二手车信息. 下面开始讲解下如何爬取我们想要的数据: 明确爬取目标: 首先,进入官网:https://www.taoche.com/ 进入官网发现,我们要获 ...

  9. python爬虫爬取虎扑湖人论坛专区帖子数据,并存入MongoDB数据库中

    今天就带大家从头到尾一步一步带着大家爬取虎扑论坛帖子的数据,里面涉及到的一些知识,我会给出学习的连接,大家可以自行去学习查看. 前期准备 首先我们打开虎扑NBA论坛,我选择的是湖人专区(小湖迷一个). ...

最新文章

  1. CentOS和Ubuntu下查找某一包安装具体位置的方法
  2. php引用是什么,php引用是什么
  3. 炼丹侠必知的9大池化操作​汇总
  4. php文本教学,php中文本操作的类
  5. 层 数据仓库_小尝试:基于指标体系的数据仓库搭建和数据可视化
  6. js 两个map合并为一个map_ArcGIS API for JS3.x教程二:构建第一个简单的程序
  7. html轮播图淡入淡出,一个简洁的Jquery效果 banner轮播(1) 淡入淡出效果
  8. linux 下的文件搜索、可执行文件搜索
  9. (百万数据量级别)java下的mysql数据库插入越插越慢的问题解决
  10. Python--所有的库
  11. 基于Vue.js的2048小游戏的设计与实现
  12. DeferredShading
  13. 正规的打码网站使用方法有哪些
  14. Linux运维基本功(肆)---Linux文件管理
  15. PCI DSS安全评估简介
  16. dataframe去掉行索引_DataFrame按索引删除行、列
  17. 计算机网络——Physical_Layer
  18. 燕十八php笔记_燕十八ph视频教程笔记(PHP基础部分).doc
  19. vue2引用typeScript的步骤
  20. php curl上传文件到solr,9.Solr4.10.3数据导入(post.jar方式和curl方式)

热门文章

  1. 利用随机森林进行特征重要性排序
  2. Manifest merger failed with multiple errors
  3. 服务注册eureka上显示ip地址出现的问题
  4. python 判断矩阵是否正交
  5. 五点三次平滑法滤波 C 和 matlab代码
  6. 【Redis】Redis入门篇(1)
  7. 【人类观察所】quot;当代人quot;正经历的生活
  8. Hive3入门至精通(基础、部署、理论、SQL、函数、运算以及性能优化)15-28章
  9. Estun机器人远程模式使能_工业机器人入门使用教程ESTUN机器人.ppt
  10. 修改Chromium源码实现HEVC/H.265 4K视频播放