当当网书籍数据爬进数据库
首先我们要考虑到当当网有没有反爬机制,几次后发现是没有的。
一开始我们要考虑我们要爬取的信息是哪些,然后在items.py下面全部写出来。
然后就写爬虫文件
核心文件开始定位导入items里面的类。(一定不要导入错了)
对应的爬取地址写好就用yield返回。
然后肯定不想只爬取一页的书籍吧,那就一定要加循环了。
仔细观察后发现又100页。所以循环如下:在我们写pipelines文件时候一定要去setting文件里去将pipeline的注释解除,并且还要将类名与之相对应。pipelines主要是进行后续处理的。 所以大致代码如下:
但是写在一个txt文件就会显得特别乱,所以就干脆存进数据库。
连接数据库
建立游标
将爬到的内容添加到数据库
这是我爬取进入数据库的数据:

一个当当网的爬虫就这样了。接下来给大家讲讲我在写的时候遇到的一些问题吧。
错误1:
在写values后面的时候没有用引号
错误2:
连接数据库的时候没有用游标去写,用的query方法,导致一直能爬到东西,但是一直没有写进数据库。
错误3:
评论数一直是空的,什么都没有,检查了半天才发现是我@符号没写。
错误4:
在导入items下面的文件时没有从核心目录而是根目录导入,导致出现了这样的问题。
因为那样导入不会报错,而正确的导入是这样存在下划线的,所以会考虑到会不会是自己写错了的原因。到这里就真的结束了,楼主是初学者,希望各位大佬有什么简单的方法一定要告诉我喔,如果对你有帮助的话就点个赞叭。

当当网书籍数据爬进数据库相关推荐

  1. 爬虫爬当当网书籍信息

    拖了好久的一个爬虫 先上代码 文字慢慢补 update(2018-5-7):加了出版社= = updata(2018-6-29):啥都加了 https://github.com/general10/d ...

  2. Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息

    XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊.其实我 ...

  3. 【python】分析当当网书籍价格、出版社、电子书版本占比数据

    前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 又到了学Python时刻~ 本次案例实现目标 书籍基本数据 实现可视化图表 书籍评论数据 评论可以实现词云图 最基本思路流程: <通用> 一. ...

  4. 一位同学的Python大作业【分析当当网书籍价格、出版社、电子书版本占比数据】

    目录 前言 本次案例实现目标 最基本思路流程: <通用> 一. 数据来源分析 二. 代码实现步骤过程: 代码实现基本四大步骤 代码实现 获取书籍详情信息 发送请求 解析数据 保存数据 运行 ...

  5. 当当网书籍信息后台统计

    1.在项目中创建static文件夹-------创建js文件夹-----js文件夹下放echarts.min.js(需要在echarts官网下载) 2.在项目中创建templates文件夹------ ...

  6. JavaWeb实现注册登录功能并将用户数据写进数据库(商城系统第一部分)

    JavaWeb实现注册登录功能并将用户数据写进数据库(商城系统第一部分) 声明:本人并非项目原创,该商城系统原创来自撩课高新强老师:https://study.163.com/course/intro ...

  7. python爬人人贷代码视频_【IT专家】人人贷网的数据爬取(利用python包selenium)

    本文由我司收集整编,推荐下载,如有疑问,请与我司联系 人人贷网的数据爬取(利用 python 包 selenium ) 2016/12/31 0 记得之前应同学之情,帮忙爬取人人贷网的借贷人信息,综合 ...

  8. 在当当买了python怎么下载源代码-Python爬取当当网APP数据

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于AirPython ,作者星安果 目标 场景:有时候通过传统的方法去 ...

  9. Python爬取当当网APP数据

    目标 场景:有时候通过传统的方法去爬一些 Web 网页或者 APP,受限于对方的反爬方案,很难爬到想要的数据,这个时候可以考虑使用「Appium」结合「mitmproxy」的方式去爬取数据. 其中,A ...

最新文章

  1. linux php 调用exec() 中,svn遇到的问题
  2. C++ 字符串编程训练1
  3. $.ajax防止多次点击重复提交的方法
  4. java 和javafx_JavaFX 2 XYCharts和Java 7功能
  5. 【BZOJ2243】【codevs1566】染色,树链剖分练习
  6. access month函数用法_掌握时间智能函数,同比环比各种比,轻松搞定!
  7. 比较贵的计算机配置,什么电脑配置好 几款配置比较豪华的笔记本电脑推荐【图文】...
  8. Darkside勒索病毒的网络防御措施
  9. 数据结构java朱战立pdf_数据结构使用C语言 朱战立,刘天时编著.pdf
  10. ff14 掉线 服务器维护,《FF14》29日更新维护 暂不推出手工补丁
  11. Chrome源码剖析
  12. 如何使用轻量应用服务器搭建高颜值的YesPlayMusic网易云播放器
  13. onkeyup 事件
  14. extjs 让人老火的事情
  15. 关于三角恒等变换与正余弦定理的学习总结
  16. Android 手机模拟 Mifare 卡的设计与实现
  17. cadence SPB17.4 - allegro - 出装配图
  18. 用API能否修改Revit链接模型
  19. SSM学生信息管理系统(学生端+教师端+管理员端)
  20. ABB机器人引导应用程序详解

热门文章

  1. 关于mysql登录不成功遇到的问题及解决方案Access denied for user ‘root‘@‘IP‘ (using password: YES)
  2. epoll原理剖析以及reactor模型应用丨网络编程|网络IO|select|poll|socket|reactor多核实现丨c/c++linux服务器开发
  3. 人工智能实验评价指标_打造“一脑五平台”,松山湖北区学校发布无痕教育评价系统...
  4. python实现即时编译器_4 个快速的 Python 编译器 for 2018
  5. 第三讲 信息化与信息系统(part3)【2021年软考-高级信息系统项目管理师】
  6. 理解TCP/IP三次握手与四次挥手的正确姿势
  7. Xshell如何远程连接Linux服务器
  8. mysql基本参数查询
  9. java 一元 二元 三元_一元、二元和三元关系
  10. 特种浓缩分离:实验室专用离心分离机