为什么80%的码农都做不了架构师?>>>   

1、需求说明

由于业务需要,现需要将阅读基地畅销榜上的作品部分数据抓取到本地,保存在数据库中,用于后续的数据导出分析

2、详细需求

Ø  移动阅读基地有一个排行榜叫畅销榜,其中有各个分类的作品畅销排行。现需要每天将畅销榜上的作品抓取下来(包括:原创、女生、出版、言情、穿越、玄幻、武侠、游戏、浪漫、历史、灵异、科幻、时尚、官场、现代都市。注意:其中原创、女生和出版榜单上的作品和分类榜单上的作品可能会重复),并存入数据库中,一天抓取一次,抓取榜单前100名作品。只抓取周榜和月榜;只抓取畅销榜。

Ø  抓取的字段为:日期、榜单名称、排名、作品类别、作品名称、完成情况、点击数、收藏数、鲜花数、总字数、章节数、价格,阅读用户数,发布评论的网友数。

Ø  存入数据库中的数据可以根据所抓取的字段进行筛选并导出成EXCEL表格。另外,也可以根据日期段、榜单名称以及在该日期段内排名上升若干位的作品进行筛选。

Ø  畅销榜地址:http://read.10086.cn/www/rankView?standard=3&type=2&nid=6897898&bookType=1

Ø  作品数据情况地址http://read.10086.cn/www/bookDetail?bid=367045726

转载于:https://my.oschina.net/qeecoo/blog/41844

阅读基地畅销榜数据抓取相关推荐

  1. 请用Python写一个爬虫程序,爬取当当网图书畅销榜数据

    好的,下面是一个简单的 Python 爬虫代码,可以爬取当当网图书畅销榜数据: import requests from bs4 import BeautifulSoupurl = "htt ...

  2. Android新闻阅读器(数据抓取)

    第一篇技术博客,写得不好请见谅,谢谢(^_^) 由于最近师弟师妹们学习Android的需求,于是就写了此篇博客并且与各位分享一下. 整篇博客总共分为两部分. 第一部分搭建一个新闻列表界面(ListVi ...

  3. 关于Python爬虫原理和数据抓取1.1

    为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据 ...

  4. Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  5. 查询数据 抓取 网站数据_有了数据,我就学会了如何在几个小时内抓取网站,您也可以...

    查询数据 抓取 网站数据 I had a shameful secret. It is one that affects a surprising number of people in the da ...

  6. R语言网络数据抓取的又一个难题,终于攻破了!

    本文作者:杜雨,EasyCharts团队成员,R语言中文社区专栏作者. 兴趣方向:Excel商务图表,R语言数据可视化,地理信息数据可视化. 个人公众号:数据小魔方(微信ID:datamofang)  ...

  7. python数据抓取方式

    数据抓取   抓取就是让爬虫从每个网页中抽取一些数据,然后实现某些事情.使用Firebug Lite的浏览器扩展,用来检查网页内容,然后介绍三种抽取网页数据的方法,分别是正则表达式.Beautiful ...

  8. python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  9. 八爪鱼数据抓取,智联招聘为例

    八爪鱼数据抓取,智联招聘为例 一.八爪鱼抓取智联招聘信息 1.1 打开八爪鱼采集器==>选择快速开始==>新建任务(高级模式) 1.2点击下一步 基本流程如下点击下一步 1.3启动单机采集 ...

  10. python爬虫入门实战争胜法_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

最新文章

  1. ACCESS数据库防止下载
  2. PE 学习之路 —— 区块表
  3. 【无私分享:从入门到精通ASP.NET MVC】从0开始,一起搭框架、做项目(5.5) 登录功能的实现,完善登录功能...
  4. OpenShift 4 - 基于CPU负载和网络负载的HPA
  5. 使用appium时出现的问题
  6. avast高级版许可文件_明道云私有部署版已上架腾讯云镜像市场
  7. 【暑假阅读推荐书目】经济篇
  8. Java实现通过证书访问Https请求
  9. 游戏给你带来了什么,你还在执迷不悟吗?
  10. 数据库管理及常用语句
  11. 谷歌浏览器网页翻译插件
  12. 为什么机器学习之路没有捷径可走
  13. 计算机二级报名时间2020年3月山西,2020年3月山西计算机二级报名及考试时间
  14. Hwang Keum-Ok asked:
  15. Toward Fast, Flexible, and Robust Low-Light Image Enhancement(实现快速、灵活和稳健的弱光图像增强)CVPR2022
  16. python实现一个简单的计时器
  17. 嵌入式面试_面试宝典整理(包括内核)
  18. 图片尺寸太小,怎样无损放大?
  19. PUE的出现将在数据中心统一标准
  20. ArcGIS Android MapView离线浏览无限范围设定

热门文章

  1. 中药槲皮素-AKT1与木犀草素IL6/VEGFA直接结合抑制骨关节炎
  2. 政府不能替代微软“查户口”
  3. Surface Go1 与Surface Go2的不同 (非专业对比)
  4. 核磁共振测量动物脂肪、水分、瘦肉、代谢
  5. 云计算服务包括哪三种服务?怎么定义?
  6. ftm国际化解决方案
  7. 基于CDD修复模型的图像修复算法
  8. CDA-分角色用户查询
  9. 投票问题 python
  10. 公告栏模板php代码,destoon调用自定义模板及样式的公告栏