大家好，我是不温卜火，是一名计算机学院大数据专业大三的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只在csdn这一个平台进行更新，博客主页：https://buwenbuhuo.blog.csdn.net/。

PS：由于现在越来越多的人未经本人同意直接爬取博主本人文章，博主在此特别声明：未经本人允许，禁止转载！！！

推荐
一、前言
- 1、数据清洗的方法
- 2、数据清洗的工具
二、准备工作
- 2.1 官网安装Anaconda(推荐)
- 2.2 Anaconda历史版本合集(学长自己的下载方式)
- 2.3 下载建议
- 2.4 如何在Jupyter Notebook新建文件
三、数据采集
- 3.1 爬取内容描述和数据来源
- 3.2 URL编码与解码
- 3.3 单页面图书信息下载
- - 1. 网页下载
  - 2. 图书内容解析
  - 3. 图书数据存储
- 3.4 多页面图书信息下载
四、数据清洗
- 4.1 读取数据
- 4.2 提取价格数值
- 4.3 提取评论数
- 4.4 转换星级
- 4.5 获取出版信息
- - 1. 提取作者
  - 2. 提取出版社
  - 3. 提取出版日期
- 4.6 提取书名和书简介
五、总结

一、前言

此篇文章不出意外应该是此系列的最终篇。之所以写这篇博文是因为想到光让学弟学妹们了解数据采集(爬虫)是不行的，数据采集其实只是数据分析的第一步。下面还需要数据清洗以及数据可视化。因此，学长感觉让你们能够多了解一些数据清洗的相关内容是很有必要的。下图即为我们平常所看到的可视化UI界面的整体分析过程。

我们知道网络爬虫是一种从互联网上进行开放数据采集的重要手段。但是咱们所收集的数据并不全都是直接能够使用的。它们由于各种原因，原始数据往往会存在许多问题，例如数据格式不正确，数据存在冗余等等。这些我们暂时可以理解为脏数据。

那么直接使用我们获取到的第一手原始数据呢？这个时候我们就需要进行数据清洗。

考虑到学弟学妹们基础较为薄弱，因此学长在此选择一个较为简单的爬虫demo。方便学弟学妹们进行理解。此demo的数据采集部分实现从某图书网站自动下载感兴趣的图书信息的功能。主要实现的功能包括单页面图书信息下载，图书信息抽取，多页面图书信息下载等。本demo学长认为挺适合大数据初学者了解数据采集以及数据清洗的哈哈。

下面这一点是学长个人建议哈~ 学长认为如果进行数据清洗的话，使用Anaconda集成的Jupyter进行操作是很

爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗相关推荐

scrapy框架的简单使用——爬取当当网图书信息
** Scrapy爬取当当网图书信息实例 --以警察局办案为类比 ** 使用Scrapy进行信息爬取的过程看起来十分的复杂,但是他的操作方式与警局办案十分的相似,那么接下来我们就以故事的形式开始Scr ...
Python爬虫实战+Scrapy框架爬取当当网图书信息
1.环境准备 1.在python虚拟环境终端使用 pip install scrapy下载scrapy依赖库 2.使用scrapy startproject book创建scrapy心目工程 3.使用 ...
python 爬虫爬取当当网图书信息
初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...
Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息
XPath 的安装以及使用 1 . XPath 的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事啊.其实我 ...
请用Python写一个爬虫程序，爬取当当网图书畅销榜数据
好的,下面是一个简单的 Python 爬虫代码,可以爬取当当网图书畅销榜数据: import requests from bs4 import BeautifulSoupurl = "htt ...
爬虫项目实战十一：爬取当当网商品信息
爬取当当网商品信息目标项目准备网站分析页码分析反爬分析代码实现效果显示目标批量爬取当当网商品信息,保存为csv文件到本地. 项目准备软件:Pycharm 第三方库:requests ...
Scrapy爬取当当网图书销售前100
scrapy爬取当当网图书畅销榜一.采集任务爬取当当网图书畅销榜信息,获取热销图书前500相关数据. 二.网页解析 1. 打开当当网,按照图书榜>图书畅销榜进入当当网图书畅销榜[http: ...
爬虫百战（一）：爬取当当网Top500本五星好评书籍
爬取当当网Top500本五星好评书籍 ==实战前提:== 准备工作撸代码成果展示实战前提: 掌握requests库的使用熟悉re库,正则表达式的简单使用可参考我的另外两篇博客进行学习准备工 ...
Scrapy爬虫之爬取当当网图书畅销榜
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ...

爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗

目录

推荐

一、前言

爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗相关推荐

最新文章

热门文章