当当网书籍数据爬进数据库
当当网书籍数据爬进数据库
首先我们要考虑到当当网有没有反爬机制,几次后发现是没有的。
一开始我们要考虑我们要爬取的信息是哪些,然后在items.py下面全部写出来。
然后就写爬虫文件
从核心文件开始定位导入items里面的类。(一定不要导入错了)
对应的爬取地址写好就用yield返回。
然后肯定不想只爬取一页的书籍吧,那就一定要加循环了。
仔细观察后发现又100页。所以循环如下:在我们写pipelines文件时候一定要去setting文件里去将pipeline的注释解除,并且还要将类名与之相对应。pipelines主要是进行后续处理的。 所以大致代码如下:
但是写在一个txt文件就会显得特别乱,所以就干脆存进数据库。
连接数据库
建立游标
将爬到的内容添加到数据库
这是我爬取进入数据库的数据:
一个当当网的爬虫就这样了。接下来给大家讲讲我在写的时候遇到的一些问题吧。
错误1:
在写values后面的时候没有用引号
错误2:
连接数据库的时候没有用游标去写,用的query方法,导致一直能爬到东西,但是一直没有写进数据库。
错误3:
评论数一直是空的,什么都没有,检查了半天才发现是我@符号没写。
错误4:
在导入items下面的文件时没有从核心目录而是根目录导入,导致出现了这样的问题。
因为那样导入不会报错,而正确的导入是这样存在下划线的,所以会考虑到会不会是自己写错了的原因。到这里就真的结束了,楼主是初学者,希望各位大佬有什么简单的方法一定要告诉我喔,如果对你有帮助的话就点个赞叭。
当当网书籍数据爬进数据库相关推荐
- 爬虫爬当当网书籍信息
拖了好久的一个爬虫 先上代码 文字慢慢补 update(2018-5-7):加了出版社= = updata(2018-6-29):啥都加了 https://github.com/general10/d ...
- Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息
XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊.其实我 ...
- 【python】分析当当网书籍价格、出版社、电子书版本占比数据
前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 又到了学Python时刻~ 本次案例实现目标 书籍基本数据 实现可视化图表 书籍评论数据 评论可以实现词云图 最基本思路流程: <通用> 一. ...
- 一位同学的Python大作业【分析当当网书籍价格、出版社、电子书版本占比数据】
目录 前言 本次案例实现目标 最基本思路流程: <通用> 一. 数据来源分析 二. 代码实现步骤过程: 代码实现基本四大步骤 代码实现 获取书籍详情信息 发送请求 解析数据 保存数据 运行 ...
- 当当网书籍信息后台统计
1.在项目中创建static文件夹-------创建js文件夹-----js文件夹下放echarts.min.js(需要在echarts官网下载) 2.在项目中创建templates文件夹------ ...
- JavaWeb实现注册登录功能并将用户数据写进数据库(商城系统第一部分)
JavaWeb实现注册登录功能并将用户数据写进数据库(商城系统第一部分) 声明:本人并非项目原创,该商城系统原创来自撩课高新强老师:https://study.163.com/course/intro ...
- python爬人人贷代码视频_【IT专家】人人贷网的数据爬取(利用python包selenium)
本文由我司收集整编,推荐下载,如有疑问,请与我司联系 人人贷网的数据爬取(利用 python 包 selenium ) 2016/12/31 0 记得之前应同学之情,帮忙爬取人人贷网的借贷人信息,综合 ...
- 在当当买了python怎么下载源代码-Python爬取当当网APP数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于AirPython ,作者星安果 目标 场景:有时候通过传统的方法去 ...
- Python爬取当当网APP数据
目标 场景:有时候通过传统的方法去爬一些 Web 网页或者 APP,受限于对方的反爬方案,很难爬到想要的数据,这个时候可以考虑使用「Appium」结合「mitmproxy」的方式去爬取数据. 其中,A ...
最新文章
- linux php 调用exec() 中,svn遇到的问题
- C++ 字符串编程训练1
- $.ajax防止多次点击重复提交的方法
- java 和javafx_JavaFX 2 XYCharts和Java 7功能
- 【BZOJ2243】【codevs1566】染色,树链剖分练习
- access month函数用法_掌握时间智能函数,同比环比各种比,轻松搞定!
- 比较贵的计算机配置,什么电脑配置好 几款配置比较豪华的笔记本电脑推荐【图文】...
- Darkside勒索病毒的网络防御措施
- 数据结构java朱战立pdf_数据结构使用C语言 朱战立,刘天时编著.pdf
- ff14 掉线 服务器维护,《FF14》29日更新维护 暂不推出手工补丁
- Chrome源码剖析
- 如何使用轻量应用服务器搭建高颜值的YesPlayMusic网易云播放器
- onkeyup 事件
- extjs 让人老火的事情
- 关于三角恒等变换与正余弦定理的学习总结
- Android 手机模拟 Mifare 卡的设计与实现
- cadence SPB17.4 - allegro - 出装配图
- 用API能否修改Revit链接模型
- SSM学生信息管理系统(学生端+教师端+管理员端)
- ABB机器人引导应用程序详解
热门文章
- 关于mysql登录不成功遇到的问题及解决方案Access denied for user ‘root‘@‘IP‘ (using password: YES)
- epoll原理剖析以及reactor模型应用丨网络编程|网络IO|select|poll|socket|reactor多核实现丨c/c++linux服务器开发
- 人工智能实验评价指标_打造“一脑五平台”,松山湖北区学校发布无痕教育评价系统...
- python实现即时编译器_4 个快速的 Python 编译器 for 2018
- 第三讲 信息化与信息系统(part3)【2021年软考-高级信息系统项目管理师】
- 理解TCP/IP三次握手与四次挥手的正确姿势
- Xshell如何远程连接Linux服务器
- mysql基本参数查询
- java 一元 二元 三元_一元、二元和三元关系
- 特种浓缩分离:实验室专用离心分离机