今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0%E9%97%BB 为例来采集列表的文章

用谷歌浏览器打开链接,右键点击“审查”在控制台切换至network并点击XHR,这样就可以过滤图片、文件等等不必要的请求只看页面内容的请求

由于页面是ajax加载的,所以将页面拉至最底部,会自动加载出更多文章,这时候控制台抓取到的链接就是我们真正需要的列表页链接:

https://www.toutiao.com/search_content/?offset=20&format=json&keyword=%E6%96%B0%E9%97%BB&autoload=true&count=20&cur_tab=1&from=search_tab

在蓝天采集中创建一个任务

创建完毕点击“采集设置”,在“起始页网址”中填入上面抓取到的链接

接下来匹配内容页网址,头条的文章网址格式是https://www.toutiao.com/group/数字/

点击“内容页网址”编写“匹配内容网址”规则:

(?<content1>http://toutiao.com/group/\d+/)

这是个正则规则,意思就是把匹配的网址装进捕获组content1中,然后在下面填写[内容1] 即对应上面的content1 就可获取到内容页链接

可以点击测试查看是否成功抓取到了链接

抓取成功就可以开始获取内容了

点击“获取内容”在字段列表右边可以添加默认的字段,如标题、正文等都可以智能识别,如需精准还可以自行编辑字段,支持正则、xpath、json等匹配内容

我们需要抓取文章的标题和正文,由于是ajax显示的所以要写规则匹配出内容,分析篇源码:https://www.toutiao.com/a6358823350874145025/ ,找到文章位置

标题规则:articleInfo\s:\s{\stitle:\s'[内容1]',

正文规则:content\s:\s'[内容1]',\s*groupId

规则必须保证唯一性,不然会匹配到其他内容上去,将规则添加到字段中,获取方式选规则匹配:

规则编写完后点击保存,点击“测试”看看效果如何

规则无误,抓取正常,抓取到的数据还可以发布到cms系统、直接数据库入库、保存为excel文件等,点击底部导航条的“发布设置”即可,好了今日头条的采集到这里就结束了,大家不妨动手试试!

转载于:https://blog.51cto.com/10051155/2113774

使用php蓝天采集器抓取今日头条ajax的文章内容相关推荐

  1. 用php蓝天采集器抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/searc... 为例来采集列表的文章 用谷歌浏览器 ...

  2. php文章自动采集器,使用php蓝天采集器抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...

  3. php采集今日头条出现问题,使用php蓝天采集抓取今日头条ajax的文章内容

    今日头条的数据都是ajax加载显示的,按照正常的url是抓取不到数据的,需要分析出加载出址,我们以 https://www.toutiao.com/search/?keyword=%E6%96%B0% ...

  4. 求助:为什么用八爪鱼采集器抓取特定时间段的微博会出现漏抓情况?

    八爪鱼采集器抓取微博内容出现抓取不完整的问题 在原微博网址设置了特定的时间段,导入八爪鱼采集器后也显示了相应时间段内容.例如按一小时抓取,但采集完成后导出的数据发现,一般只抓取了半个小时就停止了. 微 ...

  5. (廿五)Python爬虫:抓取今日头条图片

    此次完成抓取今日头条动漫图片,并将图片保存在本地.最后结果如下: 分析 打开今日头条首页搜索"动漫",查看源代码我们会发现只包含少量的HTML,所以可以判断页面是AJAX加载的.打 ...

  6. 用python爬取今日头条上的图片_Python爬虫:抓取今日头条图集

    今天我们来爬取今日头条图集,老司机以街拍为例. 运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器 1.网页分析 从 ...

  7. 用后羿采集器抓取文件并批量更改文件名

    引言 最近接触到了一款图形化爬虫,试用了一下还挺好用的,能省不少事,然而笔者在爬一个图片网站上发现这个软件要自己设置下载文件的文件名的功能居然是付费的!而且价格过于高昂所以笔者决定自己动手来给图片文件 ...

  8. 分析Ajax抓取今日头条街拍美图

    声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址https://cuiqingcai.com/ 实现流程介绍 1.抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码, ...

  9. Python爬虫实战02:分析Ajax请求并抓取今日头条街拍

    1 目标网站分析 首先我们打开今日头条网站,搜索 街拍,点击图集,这里每就是我们要爬取的目录,我们称为索引页.1 点开一个标题,进去,称为详情页.2这里面的图是我们所要爬取的.比如这里可以点击图片,共 ...

最新文章

  1. 一维数组求平均值c语言编程软件,c语言编程:用数组名作函数参数,编写一个对一维数组求平均值的函数,并在主函数中调用它...
  2. 10款jQuery/CSS3动画应用 超有用
  3. python—多线程之死锁
  4. 如何让一个对话框全屏对话框
  5. 多元化思维其二:“马太效应”之道
  6. ajax从mysql提取数据在html中_提取图片中数据的科研利器
  7. POJ 3461 字符串匹配(KMP / 哈希(有推导))
  8. windows PE 文件格式图(AI实现)
  9. python词云下载什么_python词云安装什么库
  10. 几款电子教室软件推荐
  11. XMind2TestCase自定义测试用例设计模板
  12. Linux使用PulseAudio设置音频card的默认profile
  13. python绘制风玫瑰图_python绘制风向玫瑰图和污染物玫瑰图
  14. 多元线性回归预测:餐馆营业额与多因素实战
  15. PAT A1034 Head of a Gang (30 分)
  16. 排序算法——快速排序(图解+代码)
  17. JZOJ2020年8月11日提高组T3 页
  18. 童话故事 --- CPU的贴身侍卫ITCM和ICache
  19. WPF简易局部地图 实现标记 绘制轨迹
  20. linux 进程亲缘性,Linux线程亲缘性

热门文章

  1. MySQL DELETE 语句的一个简单介绍
  2. vector插入/删除元素
  3. 使用免费的云服务 AWS EC2
  4. Maven引入依赖后自动下载并关联源码(Source)
  5. java.lang.NumberFormatException: For input string: F
  6. 思考题目,仔细检查,外加一个ceil函数
  7. j2ee之页面无刷新上传附件
  8. 35-面试:如何找出字符串的字典序全排列的第N种
  9. java 基础知识总结
  10. [国嵌攻略][085][共享内存通讯]