scrapy将爬取的数据存入mysql_scrapy爬取数据存入MySQL
创建工程
scrapy startproject tutorial
创建蜘蛛
scrapy genspider crawl_mysql inputMysql http://lab.scrapyd.cn/
编写Item
class InputMysqlItem(scrapy.Item):
tags = scrapy.Field()
content = scrapy.Field()
编写创建数据库
创建数据库:
CREATE DATABASE db DEFAULT CHARACTER SET utf8
创建需要的表:CREATE TABLE crawl_my( id INTEGER NOT NULL tags VARCHAR(64) NULL, content VARCHAR(255) NULL) ENGINE = InnoDB;
编写pipline
import pymysql.cursors
class MySQLPipeline(object):
def __init__(self):
#链接数据库
self.connect = pymysql.connect(
host = '127.0.0.1',#数据库地址
port = 3306,#数据库端口
db = 'db',#数据库名称
user = 'root',#数据库用户名
passwd = 'root',#数据库密码
charset = 'utf8',#数据库编码
use_unicode = True
)
#拿到操作数据库的游标
self.cursor = self.connect.cursor()
def process_item(self,item,spider):
self.cursor.execute(
'''
insert into crawl_my(tags,content)
VALUE (%s,%s)
''',(item['tags'],item['content'])
)
#提交sql
self.connect.commit()
return item
在setting设置pipline
ITEM_PIPELINES = {
# 'tutorial.pipelines.FlowPipline': 300,
# 'tutorial.pipelines.MyImagesPipeline': 1,
'tutorial.pipelines.MySQLPipeline': 1,
# 'scrapy.contrib.pipeline.images.ImagesPipeline':1,
}
爬取spider
import scrapy
from tutorial.items import InputMysqlItem
class CrawlMysqlSpider(scrapy.Spider):
name = 'crawl_mysql'
allowed_domains = ['lab.scrapyd.cn']
start_urls = ['http://lab.scrapyd.cn/']
def parse(self, response):
item = InputMysqlItem()
for sel in response.css('div.quote'):
item['content'] = sel.css('.text::text').extract_first()
tags = sel.css('.tags .tag::text').extract()
item['tags'] = ','.join(tags)
yield item
#获取下一页链接
next_page = response.css('li.next a::attr(href)').extract_first()
if next_page is not None:
next_page = response.urljoin(next_page)
yield scrapy.Request(next_page,callback=self.parse)
scrapy将爬取的数据存入mysql_scrapy爬取数据存入MySQL相关推荐
- scrapy过滤重复数据和增量爬取
原文链接 前言 这篇笔记基于上上篇笔记的---<scrapy电影天堂实战(二)创建爬虫项目>,而这篇又涉及redis,所以又先熟悉了下redis,记录了下<redis基础笔记> ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...
- scrapy中集成selenium+浏览器池实现selenium的并发爬取LCSC网站中非结构化表格数据+异步存储进mysql+完整代码
爬取https://lcsc.com/products/Connectors_365.html这个网址下所有的表格数据. 蓝色的都是要爬取的子页面,要爬取子页面里面的表格数据 ,表格数据如下: 右上角 ...
- python中scrapy可以爬取多少数据_python scrapy框架爬取某站博人传评论数据
1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...
- python爬取b站评论_Python爬虫框架:scrapy抓取B站博人传评论数据
1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...
- 爬取猫眼票房保存在MySQL_Scrapy爬取猫眼电影并存入MongoDB数据库
之前入门了Scrapy,用Scrapy框架爬取豆瓣TOP250,最近打算学习下scrapy-redis分布式爬虫,学习之前再重新温故下Scrapy,这个总结我缩写了很多内容,很多介绍可以看下我之前写的 ...
- 知乎爬虫(scrapy默认配置下单机1小时可爬取60多万条数据)
知乎爬虫(scrapy默认配置下单机1小时可爬取60多万条数据) 版本:1.0 作者: AlexTan CSDN: http://blog.csdn.net/alextan_ e-mail: alex ...
- 运用Scrapy框架爬取淘车网十七万二手车数据
本篇内容将使用scrapy框架爬取淘车网所有二手车信息. 下面开始讲解下如何爬取我们想要的数据: 明确爬取目标: 首先,进入官网:https://www.taoche.com/ 进入官网发现,我们要获 ...
- python爬虫爬取虎扑湖人论坛专区帖子数据,并存入MongoDB数据库中
今天就带大家从头到尾一步一步带着大家爬取虎扑论坛帖子的数据,里面涉及到的一些知识,我会给出学习的连接,大家可以自行去学习查看. 前期准备 首先我们打开虎扑NBA论坛,我选择的是湖人专区(小湖迷一个). ...
最新文章
- CentOS和Ubuntu下查找某一包安装具体位置的方法
- php引用是什么,php引用是什么
- 炼丹侠必知的9大池化操作​汇总
- php文本教学,php中文本操作的类
- 层 数据仓库_小尝试:基于指标体系的数据仓库搭建和数据可视化
- js 两个map合并为一个map_ArcGIS API for JS3.x教程二:构建第一个简单的程序
- html轮播图淡入淡出,一个简洁的Jquery效果 banner轮播(1) 淡入淡出效果
- linux 下的文件搜索、可执行文件搜索
- (百万数据量级别)java下的mysql数据库插入越插越慢的问题解决
- Python--所有的库
- 基于Vue.js的2048小游戏的设计与实现
- DeferredShading
- 正规的打码网站使用方法有哪些
- Linux运维基本功(肆)---Linux文件管理
- PCI DSS安全评估简介
- dataframe去掉行索引_DataFrame按索引删除行、列
- 计算机网络——Physical_Layer
- 燕十八php笔记_燕十八ph视频教程笔记(PHP基础部分).doc
- vue2引用typeScript的步骤
- php curl上传文件到solr,9.Solr4.10.3数据导入(post.jar方式和curl方式)
热门文章
- 利用随机森林进行特征重要性排序
- Manifest merger failed with multiple errors
- 服务注册eureka上显示ip地址出现的问题
- python 判断矩阵是否正交
- 五点三次平滑法滤波 C 和 matlab代码
- 【Redis】Redis入门篇(1)
- 【人类观察所】quot;当代人quot;正经历的生活
- Hive3入门至精通(基础、部署、理论、SQL、函数、运算以及性能优化)15-28章
- Estun机器人远程模式使能_工业机器人入门使用教程ESTUN机器人.ppt
- 修改Chromium源码实现HEVC/H.265 4K视频播放