最终要实现的是将当当网上面的书籍信息,书籍名字,网址和评论数爬取,存入到数据库中。(首先要做的是创建好数据库,创建的数据库名字为dd,创建的表为books,字段为title,link,comment)。

1、创建项目 scrapy startproject dangdang

2、进入项目文件夹创建爬虫文件

>scrapy genspider –t basic dd dangdang.com

3、用pycharm打开这个项目

编辑items.py文件

# -*- coding: utf-8 -*-
# Define here the models for your scraped items
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class DangdangItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()title=scrapy.Field()link=scrapy.Field()comment=scrapy.Field()

编辑dd.py

# -*- coding: utf-8 -*-
import scrapy
from dangdang.items import DangdangItem
from scrapy.http import Request
class DdSpider(scrapy.Spider):name = 'dd'allowed_domains = ['dangdang.com']start_urls = ['http://dangdang.com/']def parse(self, response):item=DangdangItem()item['title']=response.xpath('//a[@class="pic"]/@title').extract()item['link'] = response.xpath('//a[@class="pic"]/@href').extract()item['comment'] = response.xpath('//a[@class="search_comment_num"]/text()').extract()yield itemfor i in range(2,101):#循环爬多页的东西url='http://category.dangdang.com/pg'+str(i)+'-cp01.54.06.00.00.00.html'yield Request(url,callback=self.parse)

在seetings.py文件中打开pipelines

ITEM_PIPELINES = {
    'dangdang.pipelines.DangdangPipeline': 300,
}

Pipelines.py文件,将数据写入数据库

# -*- coding: utf-8 -*-
# Define your item pipelines here
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymysql
class DangdangPipeline(object):def process_item(self, item, spider):conn=pymysql.connect(host='localhost',port=3306,user='root',passwd='123456',db='dd')for i in range(0,len(item['title'])):title=item['title'][i]link=item['link'][i]comment=item['comment'][i]sql="insert into books(title,link,comment)values('"+title+"','"+link+"','"+comment+"')"conn.query(sql)conn.commit()conn.close()return item

python当当网爬虫相关推荐

  1. python爬虫框架之scrapy安装与当当网爬虫实战

    一.scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 ...

  2. Python 当当网数据分析

    关注微信公共号:小程在线 关注CSDN博客:程志伟的博客 Python 3.7.6 (default, Jan  8 2020, 20:23:39) [MSC v.1916 64 bit (AMD64 ...

  3. Python实战案例分享:爬取当当网商品数据

    ​​作者:韦玮 转载请注明出处 目前,网络爬虫应用领域非常广,在搜索引擎.大数据分析.客户挖掘中均可以用到.在本篇博文中,韦玮老师会以当当网爬虫为例,为大家讲解如何编写一个自动爬虫将当当网的商品数据都 ...

  4. scrapy框架的简单使用——爬取当当网图书信息

    ** Scrapy爬取当当网图书信息实例 --以警察局办案为类比 ** 使用Scrapy进行信息爬取的过程看起来十分的复杂,但是他的操作方式与警局办案十分的相似,那么接下来我们就以故事的形式开始Scr ...

  5. 在当当买了python怎么下载源代码-爬虫实战一:爬取当当网所有 Python 书籍

    图片来自 unsplash 我们已经学习 urllib.re.BeautifulSoup 这三个库的用法.但只是停留在理论层面上,还需实践来检验学习成果.因此,本文主要讲解如何利用我们刚才的几个库去实 ...

  6. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  7. 在当当买了python怎么下载源代码-爬虫实战:爬取当当网所有 Python 书籍

    来源:公众号-极客猴 出处: 本文主要讲解如何利用urllib.re.BeautifulSoup 这几个库去实战,爬取当当网所有 Python 书籍. 1 确定爬取目标 任何网站皆可爬取,就看你要不要 ...

  8. python爬虫06 | 你的第一个爬虫,爬取当当网 Top 500 本五星好评书籍

    来啦,老弟 我们已经知道怎么使用 Requests 进行各种请求骚操作 也知道了对服务器返回的数据如何使用 正则表达式 来过滤我们想要的内容 ... 那么接下来 我们就使用 requests 和 re ...

  9. python爬虫什么书好_python爬虫入门06 | 爬取当当网 Top 500 本五星好评书籍

    来啦,老弟 image 我们已经知道怎么使用 Requests 进行各种请求骚操作 也知道了对服务器返回的数据如何使用 正则表达式 来过滤我们想要的内容 - 那么接下来 我们就使用 requests ...

最新文章

  1. 判断文件或文件夹(目录)是否存在 C/C++ win/linux通用
  2. N皇后问题的位运算求解——目前最快的方法
  3. 【“探探”为例】手把手教你用最少的代码实现各种“机器人”
  4. imp导入时触发器的状态
  5. Java 设计模式之观察者模式
  6. boost::python::type_info相关的测试程序
  7. 第一天 :学习node.js
  8. arraylist获取前多少位_Java 面试题 :百度前 200 页都在这里
  9. python与lua闭包的一点不同
  10. Java程序员最喜爱的编辑器之一(Sublime Text 3)
  11. 主板检测卡c5_检测升级 | 华北工控推出机器视觉检测系统计算机产品方案
  12. Centos使用yum极速安装Java 1.8
  13. 选择与Git进行提交意味着什么?
  14. 【python】【multiprocessing】【Pool、pool.Pool、pool.ThreadPool】apply 和apply_async多进程有关时间的比较分析
  15. 基于java嗖嗖移动业务大厅
  16. Spark 的一些名词术语
  17. Oracle的Case When then end的用法
  18. Python竟然可以画漫画!漫画版的故宫导游图,来袭!
  19. scrollTo()方法
  20. 视觉SLAM十四讲CH10代码解析及课后习题详解

热门文章

  1. Java基础--object类详解
  2. 腾讯徐春明:互联网金融行业HBase实践与创新
  3. dya6 列表的相关函数
  4. 5次史上最牛的黑客攻击、比电影还刺激
  5. codeforce-298B Sail(模拟)
  6. yandex 浏览器 linux,细致比拼 六大Android手机浏览器实测
  7. 开启七牛云CDN免费HTTPS支持
  8. [CC-TRIPS]Children Trips
  9. 重庆科创学院03级计算机文秘,重庆科创职业学院——国际商务文秘实务课程标准.doc...
  10. Gido推出电商快递服务,从中国到越南只需三天