今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0%E9%97%BB  为例来采集列表的文章

用谷歌浏览器打开链接,右键点击“审查”在控制台切换至network并点击XHR,这样就可以过滤图片、文件等等不必要的请求只看页面内容的请求

由于页面是ajax加载的,所以将页面拉至最底部,会自动加载出更多文章,这时候控制台抓取到的链接就是我们真正需要的列表页链接:

在蓝天采集中创建一个任务

创建完毕点击“采集设置”,在“起始页网址”中填入上面抓取到的链接

接下来匹配内容页网址,头条的文章网址格式是https://www.toutiao.com/group/数字/

点击“内容页网址”编写“匹配内容网址”规则:

(?http://toutiao.com/group/\d+/)

这是个正则规则,意思就是把匹配的网址装进捕获组content1中,然后在下面填写[内容1]即对应上面的content1 就可获取到内容页链接

可以点击测试查看是否成功抓取到了链接

抓取成功就可以开始获取内容了

点击“获取内容”在字段列表右边可以添加默认的字段,如标题、正文等都可以智能识别,如需精准还可以自行编辑字段,支持正则、xpath、json等匹配内容

我们需要抓取文章的标题和正文,由于是ajax显示的所以要写规则匹配出内容,分析篇源码:https://www.toutiao.com/a6358823350874145025/ ,找到文章位置

标题规则:articleInfo\s*:\s*{\s*title:\s*'[内容1]',

正文规则:content\s*:\s*'[内容1]',\s*groupId

规则必须保证唯一性,不然会匹配到其他内容上去,将规则添加到字段中,获取方式选规则匹配:

规则编写完后点击保存,点击“测试”看看效果如何

规则无误,抓取正常,抓取到的数据还可以发布到cms系统、直接数据库入库、保存为excel文件等,点击底部导航条的“发布设置”即可,好了今日头条的采集到这里就结束了,大家不妨动手试试!

php采集今日头条出现问题,使用php蓝天采集抓取今日头条ajax的文章内容相关推荐

  1. 用python爬取今日头条上的图片_Python爬虫:抓取今日头条图集

    今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析 从 ...

  2. (廿五)Python爬虫:抓取今日头条图片

    此次完成抓取今日头条动漫图片,并将图片保存在本地.最后结果如下: 分析 打开今日头条首页搜索"动漫",查看源代码我们会发现只包含少量的HTML,所以可以判断页面是AJAX加载的.打 ...

  3. 使用php蓝天采集器抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...

  4. php文章自动采集器,使用php蓝天采集器抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...

  5. 用php蓝天采集器抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/searc... 为例来采集列表的文章 用谷歌浏览器 ...

  6. 分析Ajax抓取今日头条街拍美图

    声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址https://cuiqingcai.com/ 实现流程介绍 1.抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码, ...

  7. Python爬虫实战02:分析Ajax请求并抓取今日头条街拍

    1 目标网站分析 首先我们打开今日头条网站,搜索 街拍,点击图集,这里每就是我们要爬取的目录,我们称为索引页.1 点开一个标题,进去,称为详情页.2这里面的图是我们所要爬取的.比如这里可以点击图片,共 ...

  8. 分析Ajax请求并抓取今日头条街拍美图

    1.抓取索引页内容 利用requests请求目标站点,得到索引网页HTML代码,返回结果 2.抓取详情页内容 解析返回结果,得到详情的链接,并进一步抓取详情页的信息 3.下载图片与保存数据库 将图片下 ...

  9. php抓取今日头条,分析Ajax来抓取今日头条街拍美图

    一.介绍 还是根据崔大大的视频来码的文章,不得不说,抓取文件并下载下来比抓取网页内容信息复杂多了 二.流程 目标站点分析 用浏览器打开今日头条输入'街拍',打开审查元素,点击'图集' 1.首先我们要找 ...

最新文章

  1. 中班游戏电子计算机,计算器中班歌唱活动教案
  2. JS技巧:兼容性导出表格为Excel文件
  3. css有些效果不显示,css导入成功但没有效果怎么办
  4. 时序分析:手势--空间轨迹模式识别
  5. vue 前端显示图片加token_前端甩锅神器:vue中的mock使用
  6. matlab 多项式表达,Matlab多项式运算
  7. php 连接sap rfc 乱码,[RFC] sap rfc调用时判断连接状态
  8. SiriKit 描述
  9. 电子初学者需要掌握的几款电子设计软件
  10. 知了课堂python_Python框架Flask系列课程(2)—全栈开发[知了课堂]
  11. 吉林大学计算机学院控制与应用实验室,2019计算机考研吉林大学国家物联网虚拟仿真实验教学中心简...
  12. OV5640摄像头驱动开发讲解
  13. html 字体图标库,阿里字体图标库介绍及图标字体的使用方法
  14. JAVA 如何将class文件转换成java文件
  15. 微型计算机硬盘安装在哪,微型计算机的硬盘是该机的
  16. 论坛数据库设计与性能优化
  17. 番茄工作法总结-第四章:中断
  18. Cindy User Guide
  19. 基于PHP的校园财务管理系统
  20. 怎么在SAP MM库存管理中使用简单的货架管理功能

热门文章

  1. vue createElement后删除这个元素 the node to be removed is not a child of this node
  2. 搭建属于自己的云测试平台
  3. 如何取消福昕阅读器的手型光标里面的向下的箭头
  4. jieba分词增加自定义词表
  5. 微信公众号数据2019_年度大榜!2019全国县级媒体公众号百强数据看过来
  6. Java处理CSV或者制表符等分隔文件,比如Maf文件
  7. Oracle Forensics t00ls
  8. 应用商店-华为应用市场
  9. 移动互联网业务的产业链
  10. [Windows] 迅雷 无修改 无限制 无视封锁