1. 虎嗅网文章数据----写在前面

今天继续使用pyspider爬取数据,很不幸,虎嗅资讯网被我选中了,网址为 https://www.huxiu.com/ 爬的就是它的资讯频道,本文章仅供学习交流使用,切勿用作其他用途。

常规操作,分析待爬取的页面

拖拽页面到最底部,会发现一个加载更多按钮,点击之后,抓取一下请求,得到如下地址

2. 虎嗅网文章数据----分析请求

查阅该请求的方式和地址,包括参数,如下图所示

得到以下信息

  1. 页面请求地址为:https://www.huxiu.com/v2_action/article_list
  2. 请求方式:POST
  3. 请求参数比较重要的是一个叫做page的参数

我们只需要按照上面的内容,把pyspider代码部分编写完毕即可。 on_start 函数内部编写循环事件,注意到有个数字2025这个数字,是我从刚才那个请求中看到的总页数。你看到这篇文章的时候,这个数字应该变的更大了。

    @every(minutes=24 * 60)def on_start(self):for page in range(1,2025):print("正在爬取第 {} 页".format(page))self.crawl('https://www.huxiu.com/v2_action/article_list', method="POST",data={"page":page},callback=self.parse_page,validate_cert=False)

页面生成完毕之后,开始调用parse_page 函数,用来解析 crawl() 方法爬取 URL 成功后返回的 Response 响应。

    @config(age=10 * 24 * 60 * 60)def parse_page(self, response):content = response.json["data"]doc = pq(content)lis = doc('.mod-art').items()data = [{'title': item('.msubstr-row2').text(),'url':'https://www.huxiu.com'+ str(item('.msubstr-row2').attr('href')),'name': item('.author-name').text(),'write_time':item('.time').text(),'comment':item('.icon-cmt+ em').text(),'favorites':item('.icon-fvr+ em').text(),'abstract':item('.mob-sub').text()} for item in lis ] return data

最后,定义一个 on_result() 方法,该方法专门用来获取 return 的结果数据。这里用来接收上面 parse_page() 返回的 data 数据,在该方法可以将数据保存到 MongoDB 中。

'''
遇到不懂的问题?Python学习交流群:821460695满足你的需求,资料都已经上传群文件,可以自行下载!
'''# 页面每次返回的数据            def on_result(self,result):if result:self.save_to_mongo(result)            # 存储到mongo数据库def save_to_mongo(self,result):df = pd.DataFrame(result)  content = json.loads(df.T.to_json()).values()if collection.insert_many(content):print('存储数据成功')# 暂停1stime.sleep(1)

好的,保存代码,修改每秒运行次数和并发数

点击run将代码跑起来,不过当跑起来之后,就会发现抓取一个页面之后程序就停止了, pyspider 以 URL的 MD5 值作为 唯一 ID 编号,ID 编号相同,就视为同一个任务, 不会再重复爬取。

GET 请求的分页URL 一般不同,所以 ID 编号会不同,能够爬取多页。 POST 请求的URL是相同的,爬取第一页之后,后面的页数便不会再爬取。

解决办法,需要重新写下 ID 编号的生成方式,在 on_start() 方法前面添加下面代码即可:

    def get_taskid(self,task):return md5string(task['url']+json.dumps(task['fetch'].get('data','')))

基本操作之后,文章入库

分页请求json数据_pyspider抓取虎嗅网文章数据相关推荐

  1. java股票数据_java抓取东方财富股票数据(附源码)

    背景 前段时间给朋友写了一个自动抓取同花顺股票数据的程序,不少人觉得不错. 这几天后台有粉丝给我留言让我也抓一下东方财富的数据,说东方财富的数据特别难抓,我还真不一定能搞得定. 本来我是一个德艺双磬且 ...

  2. python抓取股票竞价数据_Python 抓取新浪财经股票数据

    新浪并未提供 API,但我们可以通过抓包来获取实时或历史行情数据. 实时行情 比如我们可以通过浏览器访问: http://hq.sinajs.cn/?format=text&list=sh60 ...

  3. php 获取新浪股票行情数据,python 抓取新浪财经股票数据

    新浪并未提供API,但我们可以通过抓包来获取实时或历史行情数据. 实时行情 比如我们可以通过浏览器访问: ?== 来获取证券代码为的实时行情数据,可以看到内容为: ="华泰证券,,,,20. ...

  4. 分页请求json数据_Python爬虫入门教程 28-100 虎嗅网文章数据抓取 pyspider

    1. 虎嗅网文章数据----写在前面 今天继续使用pyspider爬取数据,很不幸,虎嗅资讯网被我选中了,网址为 https://www.huxiu.com/ 爬的就是它的资讯频道,本文章仅供学习交流 ...

  5. 【R语言爬虫】R语言提交post请求抓取盈盈理财数据

    一.需求分析 抓取盈盈理财数据 抓取url: https://licai.yingyinglicai.com/product/list.htm 二.效果 三.实现源代码 rm(list=ls()) l ...

  6. vba 提取 json某个值_VBA利用IE,抓取解禁股票数据

    大家好,我们今日讲解"VBA信息获取与处理"教程中第九个专题"利用IE抓取网络数据"的第三节"利用IE,抓取解禁股票数据",这个专题是非常有 ...

  7. Java版 QQ空间自动登录无需拷贝cookie一天抓取30WQQ说说数据流程分析【转】

    Java版 QQ空间自动登录无需拷贝cookie一天抓取30WQQ说说数据&流程分析 QQ空间说说抓取难度比较大,花了一个星期才研究清楚! 代码请移步到GitHub GitHub地址:http ...

  8. 如何使用浏览器控制台通过JavaScript抓取并将数据保存在文件中

    by Praveen Dubey 通过Praveen Dubey 如何使用浏览器控制台通过JavaScript抓取并将数据保存在文件中 (How to use the browser console ...

  9. Fiddler 详尽教程与抓取移动端数据包

    转载自:http://blog.csdn.net/qq_21445563/article/details/51017605 阅读目录 1. Fiddler 抓包简介 1). 字段说明 2). Stat ...

最新文章

  1. SylixOS DSP upgrade命令解析
  2. lstm 根据前文预测词_干货 | Pytorch实现基于LSTM的单词检测器
  3. freertos之任务
  4. 微信小程序轮播中的current_微信小程序 swiper轮播图的按钮切换
  5. .NET下安装卸载WindowsService批处理脚本
  6. 记录一次withRouter的实际应用场景
  7. dedecms批量删除文档关键词可以吗
  8. Windows下搭建elasticsearch集群案例
  9. 基于扩展性考虑,不同场景选择的不同方案
  10. python web异步_如何使用python中的理解来批处理异步web请求?
  11. 称重仪表显示ol怎么解决_电脑显示器无信号怎么解决呢?
  12. 安卓简单实现百度地图
  13. 清新简约的24小时在线要饭网站源码 全开源版+免费分享
  14. python调用WinRAR暴力获取压缩密码 用网址做解压密码
  15. Python 语感训练100题
  16. 基于SSH商场管理系统
  17. 自然语言处理,计算机与人类“谈心”的关键
  18. Entersekt欢迎Nicolas Huss加入董事会
  19. 在努力的途中 忤逆满路荆棘
  20. javafx与MySQL的连接_如何让javafx界面直接连接数据库?

热门文章

  1. tensorflow从入门到精通100讲(二)-IRIS数据集应用实战
  2. 遗传算法与直接搜索工具箱学习笔记 -----从直接搜索算法开始
  3. python怎么把程序封装成函数_PYTHON中如何把固定格式代码,封装成一个函数?
  4. 关于后端java项目使用SpringBoot框架的报错总结
  5. Golang中的自动伸缩和自防御设计
  6. 利用spring session解决共享Session问题
  7. xss攻击汇总--转
  8. 【模型调优】风控模型调优相关知识
  9. 五大因素推动中国AI崛起,生态报告概览中国AI产业 By 机器之心2017年7月17日 12:51 中国的人工智能将会在全世界扮演什么样的角色?最近,风险投资机构Vertex发表了一份生态研究报告
  10. Apache ZooKeeper - 使用Apache Curator操作ZK