直接上例子

# -*- coding: utf-8 -*-

#!/usr/bin/python3

# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

import pymysql

from spiderman.env import *

class SpidermanPipeline(object):

def __init__(self):

self.conn = pymysql.connect(

host=dbhost,

user=dbuser,

password=dbpass,

db=dbname,

charset='utf8mb4',

cursorclass=pymysql.cursors.DictCursor)

self.cursor = self.conn.cursor()

self.table = table_pool

self.filters = [

'测试',

'demo',

'pre-a',

'概念',

'天使',

'未',

'种子',

'不明确',

'上线',

'正在运营',

]

def process_item(self, item, spider):

qsql = "select count(*) from "+self.table+" where item_id='"+item['item_id'] + "' and item_from='" + item['item_from'] +"'"

self.cursor.execute(qsql) # 返回受影响的行数

count = self.cursor.fetchone()['count(*)']

if count > 0:

print('***********数据重复!***************')

return None

else:

sql = "INSERT INTO "+self.table+" (`item_id`, \

`item_name`, `item_logo`, `item_brief`, `item_area`, \

`item_from`, `item_CEO`,`item_round`,`item_phone`,\

`item_email`,`item_weixin`,`item_weibo`,`item_website`,`item_from_website`,\

`item_address`) \

VALUES ('%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s', '%s') " % \

(item['item_id'],

item['item_name'],

item['item_logo'],

item['item_brief'],

item['item_area'],

item['item_from'],

item['item_CEO'],

item['item_round'],

item['item_phone'],

item['item_email'],

item['item_weixin'],

item['item_weibo'],

item['item_website'],

item['item_from_website'],

item['item_address'])

for index,value in enumerate(self.filters):

if value in item['item_round'].lower() and item['item_website']:

self.cursor.execute(sql)

self.conn.commit()

print(sql)

break

else:

continue

return item

def close_spider(self,spider):

self.conn.close()

其中env.py文件为常量

# -*- coding: utf-8 -*-

#!/usr/bin/python3

dbuser = 'root'

dbpass = '123456'

dbname = 'testdb'

dbhost = '127.0.0.1'

dbport = '3306'

table_pool='test'

scrapy 保存到mysql_scrapy爬虫保存数据到mysql相关推荐

  1. scrapy 保存到mysql_Scrapy保存数据到mysql

    scrapy pipeline 文件如下:class JianshuPipeline(object): def __init__(self): data = { 'host':'localhost', ...

  2. python爬虫——保存数据为.csv文件

    CSV(Comma Separated Values)格式是电子表格和数据库中最常见的输入.输出文件格式 爬虫保存数据为.csv文件步骤: 1.导包 import csv 2.创建或打开文件,设置文件 ...

  3. emq数据储存到mysql,规则引擎示例 - 保存数据到 MySQL - 《EMQ X Enterprise v4.0 中文文档》 - 书栈网 · BookStack...

    保存数据到 MySQL 搭建 MySQL 数据库,并设置用户名密码为 root/public,以 MacOS X 为例:$ brew install mysql $ brew services sta ...

  4. springMVC保存数据到mysql数据库中文乱码问题解决方法

    springMVC保存数据到mysql数据库中文乱码问题解决方法 参考文章: (1)springMVC保存数据到mysql数据库中文乱码问题解决方法 (2)https://www.cnblogs.co ...

  5. hibernate保存mysql乱码_hibernate保存数据到mysql时的中文乱码问题

    因为hibernate底层使用的是jdbc的技术,所以我参考了别人使用jdbc保存数据到mysql里面时解决乱码问题的方法! 首先要告诉数据库要插入的字符串的字符集,mysql 默认使用的字符集是 l ...

  6. 批量保存到mysql_关于保存批量数据进入mysql

    提出的要求: 生成13位纯数字的卡号与8位纯数字的卡密,要求卡号与卡密都必须全表唯一,然后保存到mysql. 思路: 1.首先mysql中将这两个字段设置唯一索引,保证这两个字段的值在该表中是唯一存在 ...

  7. scrapy 整合 djangoitem,摆脱保存数据时SQL报错的困扰

    这里有一个官方的链接,虽然说的并不完整,但是思路讲解的还是很不错的:https://pypi.python.org/pypi/scrapy-djangoitem/1.1.1 这里我做了一个小案例,会一 ...

  8. python多进程爬虫保存数据_Python多进程爬虫东方财富盘口异动数据+Python读写Mysql与Pandas读写Mysql效率对比...

    先上个图看下网页版数据.mysql结构化数据 通过Python读写mysql执行时间为:1477s,而通过Pandas读写mysql执行时间为:47s,方法2速度几乎是方法1的30倍.在于IO读写上, ...

  9. pyspider 爬取结果 mysql_【已解决】PySpider中保存数据到mysql

    之前已经弄完了基本的PySpider的项目,把数据直接return返回,在运行后,点击results,导出csv了: 现在想要去把数据保存到mysql中. 先去看官网教程: 难道是需要 先去本地mys ...

最新文章

  1. sqlserver字段选择参照
  2. Cocos2d-x 脚本语言Lua中的面向对象
  3. 游戏编程入门(1) -- 精灵 ISprite
  4. opengl加载显示3D模型ZAE类型文件
  5. android fragment 生命周期
  6. 在Eclipse中配置Tomcat7.0
  7. blast2go mysql_Blast2go本地化教程
  8. SLB+Tomcat时request.RemoteAddr无法获取正确的客户端IP的问题解决方案
  9. 基于JAVA+Spring+MYSQL的家教管理系统
  10. 3张报表搞定财务分析
  11. 消息中间件→产生原因、JMS与AMQP、主流消息中间件、基本概念、ActiveMQ、集群、实际场景问题解决方案、集成rabbitMQ与kafka
  12. 情况控件Android layout_weight用法图解
  13. SQL Server2008如何设置开启远程连接
  14. (CVPR 2019) GSPN: Generative Shape Proposal Network for 3D Instance Segmentation in Point Cloud
  15. 华为MA5300配置RADIUS认证
  16. 倪文迪陪你学蓝桥杯2021寒假每日一题:1.25日(2019省赛A组第3题)
  17. 计算机瑞士留学经验,瑞士留学生活分享
  18. HTML制作个人名片
  19. HBASE MOB设计
  20. 使用python编写彩色圆圈

热门文章

  1. 架构模式在新浪微博的应用
  2. 计算机文化节闭幕式祝福语,快讯 | 第十三届计算机文化节闭幕式暨专家讲座圆满落幕...
  3. JQUREY DOM 操作详解
  4. 移动端字体大小单位rem
  5. 冲鸭!羊毛薅起来!当当618专享不到4折,Python书籍囤起来!
  6. 飞书机器人小助手@特定人
  7. 计算机应用与基础教学计划,《计算机应用基础》教学计划
  8. linux内核启动停止在booting the kernel.
  9. PLC实验五(LED数码管显示控制)
  10. 中国未来二十年大趋势,你的机遇全在这