url分析

分类URL

//分类页面
http://www.ireader.com/index.php?ca=booksort.index&pca=booksort.index&pid=92&cid=320&order=download&status=0&page=0
  • pid频道 === 92 为出版图书 10 男频 68女频(其他数字都为出版)

  • cid类型 === 小说 文学传记等(三位数字)

  • status === 全部免费特价vip 0 1 2 3 4

-page === 分页页码

详情URL

http://www.ireader.com/index.php?ca=bookdetail.index&pca=booksort.index&bid=11251002
  • bid === 书的id

cookies分析

从浏览器中扒出来这三个

'Hm_lpvt_2583df02aa8541db9378beae2ed00ba0': '1502265076',
'Hm_lvt_2583df02aa8541db9378beae2ed00ba0': '1502263527',
'ZyId': 'ada56e4598ab89a9944f

爬取思路

掌阅书城页面结构

关注三个点
1. 类型

频道貌似只有三种,类型会随着频道的改变相应变化
  1. 图书列表

    tab上的热门貌似只是改变排序,内容是一样的,获取每本书的detail地址,并根据此地址去解析详细内容

  2. 分页

    只需要获取‘下一页’标签里的地址然后再次递归访问重复第二点方法

爬取内容

掌阅书城详情结构

{"_id" : "10107833","author" : "周文根,徐之江","img" : "http://book.img.ireader.com/group6/M00/17/13/CmQUN1X1A1CEOTvLAAAAAANWZNk701351932.jpg?v=PkHOJwXM","title" : "市场营销与策划","url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=booksort.index&bid=10107833","price" : "1.00元","des" : "本书是市场营销专业的核心课程教材,以培训和训练学生的市场营销通用职业能力为宗旨,符合基于工作过程为导向的高职教育课程改革思路。\r\n本书注重实用性、应用性,帮助学生全面了解企业营销活动的基本内容,树立以顾客需求为导向的营销观念;能够完成相关的营销工作任务。","num_rate" : "30","rate" : "7.3","tag" : "市场营销","press" : "浙江大学出版社","similar" : [ {"url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=bookdetail.index&bid=10897498","name" : "金融营销"}, {"url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=bookdetail.index&bid=10863597","name" : "商战(特劳特经典丛书)"}, {"url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=bookdetail.index&bid=10885731","name" : "保险销售人员超级口才训练:保险销售人员与客户的111次沟通实例 (莫萨营销沟系列 5)"}, {"url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=bookdetail.index&bid=10878435","name" : "项目计划、进度与控制(原书第5版)"}, {"url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=bookdetail.index&bid=10907180","name" : "案例:创业方法论(第16辑)"}, {"url" : "http://www.ireader.com/index.php?ca=bookdetail.index&pca=bookdetail.index&bid=10956257","name" : "零售心理战:要站在顾客的立场上思考"}],"num_word" : "11.5万字"
}

爬取过程中发现对于有些字段要允许可以没有,因为页面上可能会没有相应字段

leason|个人博客

爬虫实践(二)--掌阅书城相关推荐

  1. 《Python网络爬虫从入门到实践 第2版》第15章 爬虫实践二:知乎Live

    第15章 爬虫实践二:知乎Live 知乎是中文互联网一个非常大的知识社交平台.在知乎上,用户可以通过问答等交流方式获取知识.区别于百度知道等问答网站,知乎的回答往往非常深入,都是回答者精心写的,知乎上 ...

  2. office电子书_掌阅推出首款彩屏电子书阅读器,用它看漫画体验到底如何?

    它作为传统电子书阅读器的延伸,在保留护眼.省电等特性的基础下,还可以显示彩色内容. 从 1996 年诞生于麻省理工实验室起,电子墨水屏技术已经发展了 20 多年,不过它的变化好像一直很少,最常见的应用 ...

  3. 掌阅Android App插件补丁实践(ZeusPlugin)

    掌阅Android App插件补丁实践(ZeusPlugin) 遇到问题 65K方法数超限 随着应用不断迭代,业务线的扩展,应用越来越大,那么很不幸,总有一天,当你编译的时候,会遇到一个类似下面的错误 ...

  4. python爬虫慕课网利用xpath_python爬虫实践——零基础快速入门(二)爬取豆瓣电影...

    爬虫又称为网页蜘蛛,是一种程序或脚本. 但重点在于,它能够按照一定的规则,自动获取网页信息. 爬虫的基本原理--通用框架 1.挑选种子URL: 2.讲这些URL放入带抓取的URL列队: 3.取出带抓取 ...

  5. 爬取掌阅app免费电子书数据

    主要介绍如何抓取app数据及抓包工具的使用,能看到这相信你已经有爬虫基础了 编不下去了,主要是我懒,直接开干吧! 一.使用环境和工具 windows + python3 + Jsonpath + Ch ...

  6. 仿掌阅实现 TabLayout 切换时的字体和 Indicator 动画

    文章目录 前言 分析 实现字体缩放动画 实现 Indicator 的长度变化动画 一.准备工作 二.让 TextView 撑满 TabView 三.实现滑动时 Indicator 的动画效果 写在最后 ...

  7. python爬虫实践 —— 一、入门篇

    Scrapy爬虫实践 -- 一.入门篇 前言 一.选择爬虫框架--Scrapy 二.Scrapy安装 1.引入库 2.安装 3.验证 三.Scrapy的第一个爬虫工程 1. 使用框架创建新工程 2. ...

  8. 掌阅科技净利大增却遇跌停?到底是有利好还是利空?

    文 | 陈曦 来源 | 螳螂财经(ID:TanglangFin) 资本市场就是这么神奇. 掌阅科技(603533.SH)刚发布2020年上半年度财报.财报显示,掌阅科技上半年的营收和净利润均录得了增长 ...

  9. 讯飞和掌阅死磕亚马逊,彩色电子墨水阅读器是为了干掉kindle吗

    文|顾旭光 来源|智能相对论(ID:aixdlun) 从2007年第一款Kindle发布后,电子阅读硬件这个非常聚焦的赛道已经走过了13个年头. "智能相对论"小组中,行走坐卧都带 ...

最新文章

  1. Cracer渗透视频课程笔记——基础知识(2)
  2. 《数据中心虚拟化技术权威指南》一2.2 数据中心网络拓扑
  3. 每日阅读(产品) 汤道QQ与微信
  4. JavaScript -- 时光流逝(三):js中的 String 对象的方法
  5. 八位技术专家分享他们最喜欢的物联网技术
  6. 《从零开始学ASP.NET CORE MVC》:VS2019创建ASP.NET Core Web程序(三)
  7. Educational Codeforces Round 1(D. Igor In the Museum) (BFS+离线访问)
  8. SICP Python 描述 翻译完成
  9. 计算机术语列是,计算机术语-RAM ROM
  10. 关于git clone 下载apex 过程中,缺少libssl.so.1.0.0的问题
  11. 通过阿里OSS文件服务返回的URL获取文件流下载
  12. Nginx正确记录post日志的方法
  13. python字符串索引必须是整数_python – TypeError:字符串索引必须是整数...
  14. nero4j导入关系数据以及节点操作
  15. 蓝桥杯python试题_Python爬取蓝桥杯真题讲解课程
  16. vs2012c语言参考手册,visualstudio2012教程
  17. python爬取豆瓣电影top250并保存为xlsx_批量抓取豆瓣电影TOP250数据
  18. 熊猫烧香被恶搞,网友爆笑诗词句大集合
  19. python文件的运行方法
  20. 带三维团队半年的一点总结和想法

热门文章

  1. java实现图片验证码全套实现方式
  2. C++/C试题+答案
  3. cubase教程分享:Cubase录音时如何自动激活监听按钮
  4. uva 11121【base -2】
  5. 五步法搞定BI业务需求梳理
  6. 9大理由告诉你为什么应该学习HTML跟CSS
  7. python安装和pip安装diango
  8. 安卓启用宏_可在安卓、苹果手机中运行ExcelVBA的方法
  9. Linux 密钥保留服务keyring入门
  10. python3 使用fasttext 进行文本分类(一定要用linux )