采集场景

点击文章标题链接,可进入文章详情页,查看文章正文(文字+图片)。

采集字段

文章标题、文章链接、发布时间、阅读数、评论数等字段。

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

采集结果

采集结果可导出为Excel,CSV,HTML,数据库等多种格式。导出为Excel示例:

教程说明

本篇制作时间:2020/4/29八爪鱼版本:V8.1.8

如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。

采集步骤

步骤一:打开网页

步骤二、创建【循环列表】,采集所有文章列表中的数据

步骤三、点击进入文章详情,采集文章正文

步骤四、编辑字段

步骤五、设置页面滚动

步骤六、启动采集

以下为具体步骤:

步骤一、打开网页

在首页【输入框】中输入目标网址 https://www.toutiao.com/c/user/52255723016/#mid=52255723016,点击【开始采集】,八爪鱼自动打开网页。

特别说明:

a. 打开网页后,如果开始开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看

c.可以根据需求,更换头条号的网址。

步骤二、创建【循环列表】,采集所有文章列表中的数据

通过以下连续4步完成:

1、选中页面上1个文章列表(注意一定要选中整个列表,包含所有所需字段)

2、在黄色操作提示框中,点击【选中子元素】

3、点击【选择全部】

4、点击【采集数据】

特别说明:

a. 经过以上连续4步,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有文章列表,【提取数据】中的字段,对应着每个文章列表中的字段。启动采集以后,八爪鱼就会按照循环中的顺序依次提取每个列表中的字段。

b. 为何通过以上4步,可建立【循环-提取数据】?详情点击查

步骤三、点击文章链接进入详情页,采集正文和图片

1、点击文章链接进入详情页

在当前文章列表中(在网页中用红色框框起来),选中文章标题,在操作提示框中点击【点击该链接】,点击后自动进入该文章详情页。

特别说明:

a. 一定要在当前文章列表中选中文章链接做【点击该链接】,否则【点击元素】步骤无法与【循环】中的文章列表产生联动,会一直重复点击某一条文章链接,进入其文章详情页,无法实现依次点击每个文章链接。

b. 如何找到当前文章列表?在【循环列表】中查看当前项(蓝色背景),然后点击【提取列表数据】,网页中被红色框框起来的就是当前文章列表。

2、采集文章详情页中的字段

选中页面中的文本,然后在操作提示框中,点击【采集该元素文本】。

文本类字段都可以按照这样的方式提取。示例中我们提取了文章标题、作者、发布时间、正文等字段。

特别说明:

a. 文本、图片、视频、源码是不同的数据形式,在操作提示框选择提取方式时稍有不同。文本一般为【采集该元素文本】,图片一般为【采集该图片地址】,更多提取方式请点击查看

3、建立【循环列表】,提取正文内所有图片地址

一篇文章内可能有多张图片,通过以下几步,采集文章内的所有图片地址:

① 选中一张图片

② 在黄色操作提示框中,选择【选中全部】

③ 选择【采集以下图片地址】

特别说明:

a. 经过以上连续3步,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有图片,【提取数据】中的字段,对应着每个图片的图片地址。启动采集以后,八爪鱼就会按照循环中的顺序依次提取每个图片地址。

b。为何通过以上3步,可建立【循环-提取数据】?点击查

步骤四、编辑字段

进入【提取数据】设置页面,可删除多余字段,修改字段名,移动字段顺序等。

步骤五、设置页面滚动

打开头条号网页后,向下滚动页面加载出更多文章列表,在八爪鱼中也需进行滚动设置。

进入【打开网页】设置页面,点开【页面加载后】,设置【页面加载后向下滚动】,滚动方式为【向下滚动一屏】,【滚动次数】为10次,【每次间隔】0.5秒 并保存。

特别说明:

a. 设置中的滚动次数和时间间隔,请根据采集需求和网页加载情况进行设置,并非是一成不变的,具体请点击查看 处理滚动加载数据的网页教程

步骤六、启动采集

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

特别说明:

a. 【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看 本地采集与云采集详解。

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例:

作者:Tovehy

编辑:Aisling

php今日头条抓取正文,今日头条文章爬虫采集 - 八爪鱼采集器相关推荐

  1. 使用代理抓取反爬微信文章

    2019独角兽企业重金招聘Python工程师标准>>> 声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址:https://cuiqingcai.com/ 在抓取网页时,某些 ...

  2. java 微信文章评论点赞_使用fiddler抓取微信公众号文章的阅读数、点赞数、评论数...

    1 设置fiddler支持https 打开fiddler,在菜单栏中依次选择 [Tools]->[Options]->[HTTPS],勾上如下图的选项: 单击Actions,选择Expor ...

  3. 从抓取豆瓣电影聊高性能爬虫思路(纯干货)

    从抓取豆瓣电影聊高性能爬虫思路 本篇文章将以抓取豆瓣电影信息为例来一步步介绍开发一个高性能爬虫的常见思路. 寻找数据地址 爬虫的第一步,首先我们要找到获取数据的地址.可以先到豆瓣电影 首页 去看看. ...

  4. python公众号文章_Python 抓取微信公众号文章

    起因是刷微信的时候看到一篇文章,Python 抓取微信公众号文章保存成pdf,很容易搜到,就不贴出来了 先用chrome登陆微信公众号后台,先获取一下自己的cookie,复制下来就行,解析一下转换成 ...

  5. 记一次批量定时抓取微信公众号文章的实现

    记一次批量定时抓取微信公众号文章的实现 抓取前的说明和准备 数据的抓取 批量抓取 定时抓取 对爬虫防抓取机制的一些解决办法 最后 抓取前的说明和准备 本次抓取的选择的语言是java,本文章不会将整个工 ...

  6. Python实现抓取微信公众号文章

    本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 前言 对于抓取微信公众号文章主要通过代理ip抓包进行的操作,总会出现一些问题,以下问题导致无法抓包. ...

  7. python抓取京东联盟优惠券_[爬虫]使用python抓取京东全站数据(商品,店铺,分类,评论)...

    网上抓取京东数据的文章,现在要么无法抓取数据,要么只能抓取部分数据,本文将介绍如何抓取京东全站数据,包括商品信息.店铺信息,评论信息,分类信息等. -------------------------- ...

  8. java爬取今日头条_今日头条抓取街拍图片数据集

    spider1: 抓取街拍页面的所有入口链接: 1.数据查看到,街拍页面需要的数据集都在data这个集合中,而data是整个数据集字典的一个键,data这个键又包括了一个list,list中是一个个字 ...

  9. Python轻松抓取微信公众号文章

    今天继续向 Python 头条添加数据信息,完成了微信公号的爬虫,接下来会继续通过搜狗的知乎搜索抓取知乎上与 Python 相关的文章.问答.微信公众号的文章链接有些是具有时效性的,过一段时间会变成参 ...

  10. 利用Python爬虫抓取小说网站全部文章

    我们先来选定爬取目标,我爬取的网站是https://www.17k.com/ ,一些大型的网站(如起点.豆瓣等)做了反爬虫的部署,这会大大增加我们抓取的难度,所以尽量还是选一些不那么热门的网站. 爬虫 ...

最新文章

  1. 如何在linux下解压缩rar格式的文件压缩包
  2. 2021.4.7 美团买菜后端开发实习生(二面)(含总结)(已oc)
  3. where and when is Angular scope initialized
  4. PHP开发的爱情盲盒交友系统网站源码
  5. MySQL数据库加密和解密~认证登陆密码(mysql.user)和MySQL不区分大小写
  6. stringstream 使用方法
  7. 挑战程序设计竞赛(第2版)1.6.1题
  8. 印刷机软件测试,印刷测控条与测试版
  9. idea设置修改字体大小与样式【亲测好用】
  10. kali攻击139端口_简易入侵139端口
  11. win10系统计算机如何分盘,win10新电脑怎么合理分盘?给win10电脑合理分盘的设置方法...
  12. 阿里巴巴中台战略--共享服务体系
  13. CC00054.bigdatajava——|Java分支结构.V04|——|Java.v04|ifelse.v02|判断负数和非负数|
  14. 华为机试真题 C++ 实现【叠积木】
  15. 对HTML语义化标签理解
  16. Linux命令-程序启动
  17. 【C#】SharpDevelop使用教程,C#写windows下第一个窗口程序,简单粗暴,初学者进,全图文,一看就明白
  18. FIP: A fast overlapping community-based influence maximization algorithm using probability coefficie
  19. 想多活几年吗??在中国到底什么能吃什么不能吃!(转)
  20. Java码农进阶之路~面向对象之对象和类

热门文章

  1. jw player 6 断点续播 seek()
  2. Java实现 简体中文 与 阿拉伯数字 互转
  3. 四叶草的python代码_python绘图四叶草
  4. Topcoder参赛入门
  5. 对计算机课程的意见和建议对老师,对计算机应用基础课程的探讨
  6. activity劫持学习与复现
  7. 第1关:MapReduce综合应用案例 — 电信数据清洗
  8. 冬瓜哥直播:小白一小时掌握机器学习底层原理
  9. 解决:“redis.clients.jedis.exceptions.JedisClusterMaxAttemptsException: No more cluster attempts left”
  10. 猜拳游戏android报告,android 之猜拳游戏练习