python当当网爬虫

最终要实现的是将当当网上面的书籍信息，书籍名字，网址和评论数爬取，存入到数据库中。（首先要做的是创建好数据库，创建的数据库名字为dd,创建的表为books,字段为title,link,comment）。

1、创建项目 scrapy startproject dangdang

2、进入项目文件夹创建爬虫文件

>scrapy genspider –t basic dd dangdang.com

3、用pycharm打开这个项目

编辑items.py文件

# -*- coding: utf-8 -*-
# Define here the models for your scraped items
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class DangdangItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()title=scrapy.Field()link=scrapy.Field()comment=scrapy.Field()

编辑dd.py

# -*- coding: utf-8 -*-
import scrapy
from dangdang.items import DangdangItem
from scrapy.http import Request
class DdSpider(scrapy.Spider):name = 'dd'allowed_domains = ['dangdang.com']start_urls = ['http://dangdang.com/']def parse(self, response):item=DangdangItem()item['title']=response.xpath('//a[@class="pic"]/@title').extract()item['link'] = response.xpath('//a[@class="pic"]/@href').extract()item['comment'] = response.xpath('//a[@class="search_comment_num"]/text()').extract()yield itemfor i in range(2,101):#循环爬多页的东西url='http://category.dangdang.com/pg'+str(i)+'-cp01.54.06.00.00.00.html'yield Request(url,callback=self.parse)

在seetings.py文件中打开pipelines

ITEM_PIPELINES = {
'dangdang.pipelines.DangdangPipeline': 300,
}

Pipelines.py文件，将数据写入数据库

# -*- coding: utf-8 -*-
# Define your item pipelines here
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymysql
class DangdangPipeline(object):def process_item(self, item, spider):conn=pymysql.connect(host='localhost',port=3306,user='root',passwd='123456',db='dd')for i in range(0,len(item['title'])):title=item['title'][i]link=item['link'][i]comment=item['comment'][i]sql="insert into books(title,link,comment)values('"+title+"','"+link+"','"+comment+"')"conn.query(sql)conn.commit()conn.close()return item

python当当网爬虫相关推荐

python爬虫框架之scrapy安装与当当网爬虫实战
一.scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 ...
Python 当当网数据分析
关注微信公共号:小程在线关注CSDN博客:程志伟的博客 Python 3.7.6 (default, Jan 8 2020, 20:23:39) [MSC v.1916 64 bit (AMD64 ...
Python实战案例分享：爬取当当网商品数据
作者:韦玮转载请注明出处目前,网络爬虫应用领域非常广,在搜索引擎.大数据分析.客户挖掘中均可以用到.在本篇博文中,韦玮老师会以当当网爬虫为例,为大家讲解如何编写一个自动爬虫将当当网的商品数据都 ...
scrapy框架的简单使用——爬取当当网图书信息
** Scrapy爬取当当网图书信息实例 --以警察局办案为类比 ** 使用Scrapy进行信息爬取的过程看起来十分的复杂,但是他的操作方式与警局办案十分的相似,那么接下来我们就以故事的形式开始Scr ...
在当当买了python怎么下载源代码-爬虫实战一：爬取当当网所有 Python 书籍
图片来自 unsplash 我们已经学习 urllib.re.BeautifulSoup 这三个库的用法.但只是停留在理论层面上,还需实践来检验学习成果.因此,本文主要讲解如何利用我们刚才的几个库去实 ...
在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
在当当买了python怎么下载源代码-爬虫实战：爬取当当网所有 Python 书籍
来源:公众号-极客猴出处: 本文主要讲解如何利用urllib.re.BeautifulSoup 这几个库去实战,爬取当当网所有 Python 书籍. 1 确定爬取目标任何网站皆可爬取,就看你要不要 ...
python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍
来啦,老弟我们已经知道怎么使用 Requests 进行各种请求骚操作也知道了对服务器返回的数据如何使用正则表达式来过滤我们想要的内容 ... 那么接下来我们就使用 requests 和 re ...
python爬虫什么书好_python爬虫入门06 | 爬取当当网 Top 500 本五星好评书籍
来啦,老弟 image 我们已经知道怎么使用 Requests 进行各种请求骚操作也知道了对服务器返回的数据如何使用正则表达式来过滤我们想要的内容 - 那么接下来我们就使用 requests ...

python当当网爬虫

python当当网爬虫相关推荐

最新文章

热门文章