大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只在csdn这一个平台进行更新,博客主页:https://buwenbuhuo.blog.csdn.net/。

PS:由于现在越来越多的人未经本人同意直接爬取博主本人文章,博主在此特别声明:未经本人允许,禁止转载!!!

目录

  • 推荐
  • 一、前言
    • 1、数据清洗的方法
    • 2、数据清洗的工具
  • 二、准备工作
    • 2.1 官网安装Anaconda(推荐)
    • 2.2 Anaconda历史版本合集(学长自己的下载方式)
    • 2.3 下载建议
    • 2.4 如何在Jupyter Notebook新建文件
  • 三、数据采集
    • 3.1 爬取内容描述和数据来源
    • 3.2 URL编码与解码
    • 3.3 单页面图书信息下载
      • 1. 网页下载
      • 2. 图书内容解析
      • 3. 图书数据存储
    • 3.4 多页面图书信息下载
  • 四、数据清洗
    • 4.1 读取数据
    • 4.2 提取价格数值
    • 4.3 提取评论数
    • 4.4 转换星级
    • 4.5 获取出版信息
      • 1. 提取作者
      • 2. 提取出版社
      • 3. 提取出版日期
    • 4.6 提取书名和书简介
  • 五、总结


推荐


  ♥各位如果想要交流的话,可以加下QQ交流群:974178910,里面有各种你想要的学习资料。♥

  ♥欢迎大家关注公众号【不温卜火】,关注公众号即可以提前阅读又可以获取各种干货哦,同时公众号每满1024及1024倍数则会抽奖赠送机械键盘一份+IT书籍1份哟~♥

一、前言


此篇文章不出意外应该是此系列的最终篇。之所以写这篇博文是因为想到光让学弟学妹们了解数据采集(爬虫)是不行的,数据采集其实只是数据分析的第一步。下面还需要数据清洗以及数据可视化。因此,学长感觉让你们能够多了解一些数据清洗的相关内容是很有必要的。下图即为我们平常所看到的可视化UI界面的整体分析过程。

我们知道网络爬虫是一种从互联网上进行开放数据采集的重要手段。但是咱们所收集的数据并不全都是直接能够使用的。它们由于各种原因,原始数据往往会存在许多问题,例如数据格式不正确,数据存在冗余等等。这些我们暂时可以理解为脏数据。

那么直接使用我们获取到的第一手原始数据呢?这个时候我们就需要进行数据清洗。

考虑到学弟学妹们基础较为薄弱,因此学长在此选择一个较为简单的爬虫demo。方便学弟学妹们进行理解。此demo的数据采集部分实现从某图书网站自动下载感兴趣的图书信息的功能。主要实现的功能包括单页面图书信息下载,图书信息抽取,多页面图书信息下载等。本demo学长认为挺适合大数据初学者了解数据采集以及数据清洗的哈哈。

下面这一点是学长个人建议哈~ 学长认为如果进行数据清洗的话,使用Anaconda集成的Jupyter进行操作是很

爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗相关推荐

  1. scrapy框架的简单使用——爬取当当网图书信息

    ** Scrapy爬取当当网图书信息实例 --以警察局办案为类比 ** 使用Scrapy进行信息爬取的过程看起来十分的复杂,但是他的操作方式与警局办案十分的相似,那么接下来我们就以故事的形式开始Scr ...

  2. Python爬虫实战+Scrapy框架 爬取当当网图书信息

    1.环境准备 1.在python虚拟环境终端使用 pip install scrapy下载scrapy依赖库 2.使用scrapy startproject book创建scrapy心目工程 3.使用 ...

  3. python 爬虫 爬取当当网图书信息

    初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...

  4. Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息

    XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊.其实我 ...

  5. 请用Python写一个爬虫程序,爬取当当网图书畅销榜数据

    好的,下面是一个简单的 Python 爬虫代码,可以爬取当当网图书畅销榜数据: import requests from bs4 import BeautifulSoupurl = "htt ...

  6. 爬虫项目实战十一:爬取当当网商品信息

    爬取当当网商品信息 目标 项目准备 网站分析 页码分析 反爬分析 代码实现 效果显示 目标 批量爬取当当网商品信息,保存为csv文件到本地. 项目准备 软件:Pycharm 第三方库:requests ...

  7. Scrapy爬取当当网图书销售前100

    scrapy爬取当当网图书畅销榜 一.采集任务 爬取当当网图书畅销榜信息,获取热销图书前500相关数据. 二.网页解析 1. 打开当当网,按照图书榜>图书畅销榜 进入当当网图书畅销榜[http: ...

  8. 爬虫百战(一):爬取当当网Top500本五星好评书籍

    爬取当当网Top500本五星好评书籍 ==实战前提:== 准备工作 撸代码 成果展示 实战前提: 掌握requests库的使用 熟悉re库,正则表达式的简单使用 可参考我的另外两篇博客进行学习 准备工 ...

  9. Scrapy爬虫之爬取当当网图书畅销榜

      本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下:   我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ...

最新文章

  1. java mvc view_对Springmvc view层的理解
  2. python使用fpdf创建pdf并写入hello world
  3. Java Class文件结构
  4. html5 canvas 不兼容safari浏览器_HTML5的介绍
  5. 轻松处理高于平常10倍的视频需求,还能节省60%的IT成本,蓝墨做对了什么?
  6. Domain Socket本地进程间通信
  7. Redis的分片、预分片技术总结
  8. 银河麒麟系统安装字体
  9. atoll C语言实现
  10. ae渲染出现错误是什么问题_ae渲染提示渲染错误,渲染出现偏移解决方案
  11. 幼儿园调查过程怎么写_幼儿园家长的调查问卷话术
  12. 详解SAN存储技术的前世今生
  13. “三高“Mysql - Mysql备份概览
  14. 我开始搞研发管理和项目管理了,发现最难管理的还是人
  15. 2022年学习机器人和人工智能的一些体会
  16. R语言与生物统计分析试题
  17. python画指数函数图像_Python3.0科学计算学习之绘图(一
  18. 三分钟就能快速注册好域名的方法
  19. 从产品视角分析拼多多
  20. 抢购活动php,php结合redis实现高并发下的抢购、秒杀功能

热门文章

  1. 使用Robots.txt引导百度爬虫合理分配抓取资源
  2. 如何从Windows的“无法验证发布者”中解除阻止文件警告
  3. 手机上Pydroid 3 4.01的安装 与 基于pyqt5界面的爬虫程序的运行
  4. llvm-llc生成riscv64文件并测试的流程
  5. vba之MergeArea与MergeCells
  6. 无线网络嗅探工具Kismet
  7. 递归算法实例:十进制转换N进制(vb.net代码)
  8. 台达PLC网关BL110应用33:实现台达PLC DVP接入Modbus TCP云平台
  9. 如何将计算机硬盘导出,win7系统电脑下硬盘导入与导出数据的一些注意事项
  10. Introducing AutoCAD 2009 and AutoCAD LT 2009