yspider爬取数据导入mysql_爬虫实战四、PyCharm+Scrapy爬取数据并存入MySQL

一、创建爬虫项目

注意：不能直接使用PyCharm创建Scrapy项目，所以需要在爬虫实战三、PyCharm搭建Scrapy开发调试环境的基础(PyCharm配置完Scrapy)之上，选中mySpider项目，点击PyCharm中下方的Terminal，进入对应的命令行，执行命令创建doubanSpider项目

scrapy startproject doubanSpider

进入命令行。

TIM截图20190215160227.png

创建项目。

图片.png

二、创建爬虫并编写代码

爬虫项目生成后，进入项目路径。

图片.png

执行命令创建douban爬虫

scrapy genspider douban "movie.douban.com"

2-1、编写items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

# See documentation in:

# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class DoubanspiderItem(scrapy.Item):

# 电影标题

title = scrapy.Field()

# 电影信息

info = scrapy.Field()

# 电影评分

score = scrapy.Field()

# 评分人数

number = scrapy.Field()

# 简介

content = scrapy.Field()

2-2、编写spiders/douban.py

# -*- coding: utf-8 -*-

import scrapy

from doubanSpider.items import DoubanspiderItem

class DoubanSpider(scrapy.Spider):

name = "douban"

allowed_domains = ["movie.douban.com"]

start = 0

url = 'https://movie.douban.com/top250?start='

end = '&filter='

start_urls = [url + str(start) + end]

def parse(self, response):

item = DoubanspiderItem()

movies = response.xpath("//div[@class=\'info\']")

for movie in movies:

name = movie.xpath('div[@class="hd"]/a/span/text()').extract()

message = movie.xpath('div[@class="bd"]/p/text()').extract()

star = movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract()

number = movie.xpath('div[@class="bd"]/div[@class="star"]/span/text()').extract()

quote = movie.xpath('div[@class="bd"]/p[@class="quote"]/span/text()').extract()

if quote:

quote = quote[0]

else:

quote = ''

item['title'] = ''.join(name)

item['info'] = quote

item['score'] = star[0]

item['content'] = ';'.join(message).replace(' ', '').replace('\n', '')

item['number'] = number[1].split('人')[0]

# 提交item

yield item

if self.start <= 225:

self.start += 25

yield scrapy.Request(self.url + str(self.start) + self.end, callback=self.parse)

2-3、编写pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

from pymysql import cursors

from twisted.enterprise import adbapi

import time

import copy

class DoubanspiderPipeline(object):

# 初始化函数

def __init__(self, db_pool):

self.db_pool = db_pool

# 从settings配置文件中读取参数

@classmethod

def from_settings(cls, settings):

# 用一个db_params接收连接数据库的参数

db_params = dict(

host=settings['MYSQL_HOST'],

user=settings['MYSQL_USER'],

password=settings['MYSQL_PASSWORD'],

port=settings['MYSQL_PORT'],

database=settings['MYSQL_DBNAME'],

charset=settings['MYSQL_CHARSET'],

use_unicode=True,

# 设置游标类型

cursorclass=cursors.DictCursor

)

# 创建连接池

db_pool = adbapi.ConnectionPool('pymysql', **db_params)

# 返回一个pipeline对象

return cls(db_pool)

# 处理item函数

def process_item(self, item, spider):

# 对象拷贝，深拷贝 --- 这里是解决数据重复问题！！！

asynItem = copy.deepcopy(item)

# 把要执行的sql放入连接池

query = self.db_pool.runInteraction(self.insert_into, asynItem)

# 如果sql执行发送错误,自动回调addErrBack()函数

query.addErrback(self.handle_error, item, spider)

# 返回Item

return item

# 处理sql函数

def insert_into(self, cursor, item):

# 创建sql语句

sql = "INSERT INTO movie (title,info,score,number,content,createtime) VALUES ('{}','{}','{}','{}','{}','{}')".format(

item['title'], item['info'], item['score'], item['number'], item['content'],

time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))

# 执行sql语句

cursor.execute(sql)

# 错误函数

def handle_error(self, failure, item, spider):

# #输出错误信息

print("failure", failure)

2-4、编写settings.py

# -*- coding: utf-8 -*-

BOT_NAME = 'doubanSpider'

SPIDER_MODULES = ['doubanSpider.spiders']

NEWSPIDER_MODULE = 'doubanSpider.spiders'

# Obey robots.txt rules

ROBOTSTXT_OBEY = True

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36'

# Configure item pipelines

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

'doubanSpider.pipelines.DoubanspiderPipeline': 300

}

# 连接数据MySQL

# 数据库地址

MYSQL_HOST = 'localhost'

# 数据库用户名:

MYSQL_USER = 'root'

# 数据库密码

MYSQL_PASSWORD = 'root'

# 数据库端口

MYSQL_PORT = 3306

# 数据库名称

MYSQL_DBNAME = 'mydb'

# 数据库编码

MYSQL_CHARSET = 'utf8'

在创建爬虫并编写代码时遇到的坑

坑1、Unresolved reference ‘xxx’ 或者显示 scrapy No module named ×××.items

TIM截图20190215170939.png

坑1、解决办法

将爬虫项目的文件夹类型改为Sources Root

TIM截图20190215171022.png

坑2、连接MySQL时缺少pymysql

TIM截图20190215171154.png

坑2、解决办法

点击File-> Settings->Project: mySpider->Project Interpreter，导入pymysql包。具体添加包的流程参考爬虫实战三、PyCharm搭建Scrapy开发调试环境。

TIM截图20190215171242.png

三、使用Pycharm连接MySQL数据库

连接MySQL的工具有很多，Pycharm本身也可以连接MySQL和其他多种数据库，并且提示功能比较强大，这里我使用Pycharm连接MySQL数据库。

TIM截图20190215171919.png

选择数据库类型，MySQL

TIM截图20190215171941.png

设置连接别名，主机，数据库，用户名，密码。

TIM截图20190215172302.png

设置完毕，连接MySQL。

图片.png

四、创建爬虫项目对应的表以及执行爬虫。

4-1、创建表

图片.png

创建movie表，注意 default charset = utf8 此处要和爬虫程序编码一致，否则存入到MySQL失败。

drop table movie;

CREATE TABLE `movie`

(

`id` int(100) NOT NULL AUTO_INCREMENT,

`title` varchar(2048) DEFAULT NULL,

`info` varchar(2048) DEFAULT NULL,

`score` varchar(2048) DEFAULT NULL,

`number` varchar(2048) DEFAULT NULL,

`content` varchar(2048) DEFAULT NULL,

`createtime` varchar(2048) DEFAULT NULL,

PRIMARY KEY (`id`)

) engine = InnoDB

default charset = utf8;

4-2、执行爬虫

在爬虫项目对应的命令行中执行命令，运行爬虫

scrapy crawl douban

TIM截图20190215171741.png

4-3、查询数据，验证结果

在本地连接中执行SQL：

select * from movie;

TIM截图20190215172554.png

爬虫数据并存入MySQL成功。注意，网上有部分博客实践后出现数据重复问题，此处我已经修改过代码保证数据不重复。

TIM截图20190215172854.png

yspider爬取数据导入mysql_爬虫实战四、PyCharm+Scrapy爬取数据并存入MySQL相关推荐

用python 爬取百度百科内容-爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
Python 爬虫实战，模拟登陆爬取数据
Python 爬虫实战,模拟登陆爬取数据从0记录爬取某网站上的资源连接: 模拟登陆爬取数据保存到本地结果演示: 源网站展示: 爬到的本地文件展示: 环境准备: python环境安装略安装r ...
Python爬虫实战系列(一)-request爬取网站资源
Python爬虫实战系列(一)-request爬取网站资源 python爬虫实战系列第一期文章目录 Python爬虫实战系列(一)-request爬取网站资源前言一.request库是什么? 二 ...
python爬虫实战（一）--爬取知乎话题图片
原文链接python爬虫实战(一)–爬取知乎话题图片前言在学习了python基础之后,该尝试用python做一些有趣的事情了–爬虫. 知识准备: 1.python基础知识 2.urllib库使用 ...
用爬虫抓取动态加载数据丨Python爬虫实战系列(6)
提示:最新Python爬虫资料/代码练习>>戳我直达前言抓取动态加载数据话不多说,开练! 爬虫抓取动态加载数据确定网站类型首先要明确网站的类型,即是动态还是静态.检查方法:右键查 ...
用DevExpress.Xpo 直接维护后台的数据表，在这四列中录入的数据，即时插入或更新到关联的数据表中
用DevExpress.Xpo 直接维护后台的数据表,在这四列中录入的数据,即时插入或更新到关联的数据表中. 步骤: 1.引入DevExpress.Xpo.DLL服务 2.加入这些 using De ...
爬虫实战——绝对通俗易懂，爬取房产数据
爬取房产数据爬虫介绍实战目标 1.获取url 2.利用BeautifulSoup获取html的索引 3.查找所需数据索引 4.正则表达式获取所需要的信息完整代码爬虫介绍简单介绍一下爬虫,百度 ...
python实例豆瓣音乐代码_Python爬虫实战（3）-爬取豆瓣音乐Top250数据（超详细
前言首先我们先来回忆一下上两篇爬虫实战文章: 第一篇:讲到了requests和bs4和一些网页基本操作. 第二篇:用到了正则表达式-re模块今天我们用lxml库和xpath语法来爬虫实战. 1.安 ...
java爬取网页数据_Python网络爬虫实战(二)数据解析
Python网络爬虫实战 (二)数据解析本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站 ...

yspider爬取数据导入mysql_爬虫实战四、PyCharm+Scrapy爬取数据并存入MySQL

yspider爬取数据导入mysql_爬虫实战四、PyCharm+Scrapy爬取数据并存入MySQL相关推荐

最新文章

热门文章