古人云:“工欲善其事,必先利其器”。在简书写了将近123篇文章,仅粗略分析过几次数据,使用的方式均是手工采集数据,效率上相对比较慢,此前,有用过火头采集器,效率上比手工采集快好几倍。因此,将自己使用心得分享一下,该教程属于火车头采集器初级版。

本文目录:

采集背景介绍

采集方法步骤说明

个人经验小结

一、采集背景####

采集背景:采集简书文章标题、网址、阅读数

目的:用来做数据分析

使用工具:火车头采集器(火车采集器是一款互联网数据抓取、处理、分析,挖掘软件。)

二、采集方法步骤说明####

步骤1:安装火车头采集器(注意:需要安装net4.0框架才能运行)

步骤2:注册账号

步骤3:了解基本界面

a.点击开始——>新建文件夹(并重新命名,以便你自己清楚采集的是什么)——>新建任务

b.新建任务后,弹出设定任务规则框(以下几点要注意)

(1)填写你所要采集的内容所在的网址。如果是有规律的话,可以通过【向导添加】相关规则,如下:简书为例,我要采集自己简书中的内容数据,进行分析。主要采集的内容在列表页,但因为简书采用的是惰性加载方式,翻页的内容我是无法采的,于是就需要查看源代码(这里需要懂一定代码知识的童鞋才能找到),然后在源代码中,找到相关的链接,而且是有规律的,于是我就可以通过【向导添加】添加相关规则。具体的规则继续看下面的步骤4.

向导添加界面:

步骤4:写网址提取规则

我在源代码中找到的列表链接,要采集所有的链接就必须把所有的翻页找出来,翻页是有规律的,于是得到下面这个规则。只有链接中的“page=”后面的地址参数是变化的,于是我们可以对参数用[地址参数]进行设定。然后选择【地址参数】中的数字变化,因为是数字。共有14个,于是有14项。

设定好地址格式后,我们可以进一步设置自己在该页面所要采集的内容了。那就是,我们要通过列表页采集每篇文章的网址,方法如下:

(1)在获取内容网址,选择获取方式:自动获取地址链接。

(2)使用链接过滤:提取文章链接,文章的链接是有共性的 。

填写完这些后,点击【网址采集测试】,这时候你可以验证规则是否正确。

验证OK!规则正确!棒棒哒!写完规则,记得要保存!

步骤5:写内容提取规则

采集到每篇文章的网址后,我们接下来就是要采集每篇文章的相关信息:标题、网址、阅读数、喜欢数!这是我们的终级目标! 写完规则,记得要保存! 方法见下图:

PS:这个同样是需要懂一定的html代码知识。

添加规则如下:

(1)在标签列表添加要采集的标签名称,该框右侧有个“+”可以加多个标签。

(2)数据获取方式选择:从源代码中获取数据,提取方式选择“前后截取”,然后在源代码中提取我们所要信息的前后代码,记住,要是唯一的代码,避免提取出来出错。

补充:教大家提取前后代码

在网页中,右键查看源代码。找到标题。我们会发现重复的标题有多个。但要选择那个前后代码是唯一的那个,可以通过ctrl+f进行验证是否是唯一的。下面这个为标题的前后代码,剩下的几个元素前后代码,大家自行练习下哈。

步骤6: 设定储存位置

点击内容发布规则——>保存为本地文件——>启用本地文件保存——>保存设置文件格式选txt(原因是我们使用的是免费软件)——>设定保存位置

步骤7: 启动采集,设定储存位置设定好规则后,保存并退出,回到工具首页,启动采集——>这3处一定要勾选,然后右键选择——>开始。见下图:

献上采集后的初级数据:

献上清洗后的数据及相关的数据分析,见下图:

三、个人经验小结####

附:数据分析小结——阅读量高的原因

1.在搜索引擎有排名,从搜索引擎获得一定的流量。(秘诀在标题上,可先借助百度指数挖掘有搜索量的关键词,且该关键词与你的文章主题相契合。当你的文章写得不错,且有一定的互动性,又获得其它人的转载后,将有机会获得排名)

2.部分文章是因为早期获得简书首页推荐,这个与简书首页早期首页推荐规则有关系,早期的首页推荐一旦上首页,阅读量等相关的用户数据都是比较可观的。但简书为了更好的用户体验,已进行调整了推荐规则(个性化首页定制,根据用户自选的主题,推荐热门的内容)。因此,要想在简书获得好的阅读量,内容好是一方面,另一方面还要注意平台产品新规。

3.用好简书的相关专题,将写好的文章进行投稿到对应主题的专题,也有利于提升文章的曝光度。

最后小结:

这是个大数据时代,要有大数据的思维,通过数据分析,我们可以了解到文章背后的一些影响因素,从而,让我们在运营自媒体账号方面,会更加的有的放矢,而懂一门编程语言,或者采集工具的使用方法,则是锦上添花的一种方式。

最大化参数 火车头_初级火车头采集器教程分享相关推荐

  1. 疯子网页采集器教程之采集需要保存图片的教程

    疯子网页采集器教程之采集需要保存图片的教程 第一步:选中 "保存图片"第二步:填写规则图片开始标签:默认为 (?:src)=" 一般不需要修改图片规则:(.*?\.jpg ...

  2. 疯子网页采集器教程之图片本地化教程

    疯子网页采集器教程之图片本地化教程 第一步: 选中 "图片本地化" 填写首页地址,比如http://www.zhuvl.com 必需填写http://否则会出错 第二步:在服务器根 ...

  3. 最大化参数 火车头_火车头采集器教程:使用正则匹配模式采集数据

    使用正则匹配模式采集数据 正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车 采集器就支持正则规则的编写了,这给喜欢用正则来 ...

  4. 后羿采集器怎么导出数据_后羿采集器教程:如何采集东方财富网股票数据

    本文介绍如何使用采集器的智能模式,实时采集东方财富网行情中心新三板股票数据 采集工具简介: 后羿采集器是一款基于人工智能技术的网页采集器,只需要输入网址就能够自动识别网页数据,无需配置即可完成数据采集 ...

  5. 杰奇python采集器_极速杰奇采集器

    一,功能特色 本程序是杰奇小说系统的辅助采集器,使用的是杰奇后台采集规则,不像网上其他一些采集器,还需要重新编写采集规则,杰奇后台的采集规在网上随处都可以下到,并且本程序在所有windows系统上都可 ...

  6. python做动态数据采集仪代理_九四采集器(py/python)采集器设置动态代理IP图文教程...

    说明:为什么要使用动态代理进行采集,主要是因为针对封ip之类问题解决,使用了动态代理ip就无法进行ip封禁,不影响采集. 直入正题,首先要配置搭建采集器,这里不做赘述. 注:下载地址在底部. 采集器配 ...

  7. 站长利器,全自动采集发布,开源免费-蓝天采集器-教程(1-简介)

    作为一个小白站长,接触了很多自动采集的软件(手头拮据,所以都是免费的),从火车头,杰奇,YGBOOK,苹果CMS,WP-AutoPost,等等,每个软件都有难以容忍的缺陷,或者采集规则过时,不适应JS ...

  8. 站长利器,全自动采集发布,开源免费-蓝天采集器-教程(3-采集设置)

    抱歉各位,前两天有事情,一直没更新.今天开始讲解蓝天采集器的采集设置: 1.选择任务-添加任务: 2.填写任务名称,任务分组.方便后期管理,如果不选择更多选项,则默认为通用设置选项,参考(教程2),填 ...

  9. hibernate savealiasentity 保存后id为空_好程序员Java教程分享Java面试题之Hibernate

    好程序员Java教程分享Java面试题之Hibernate 1.简书一下Hibernated的开发流程 第一步:加载Hibernate的配置文件,读取配置文件的参数, 第二步:创建SessionFac ...

最新文章

  1. Windows与Linux区别3
  2. android frida 检测_frida测试方法整理
  3. Apache Mina2.x网络通信框架使用入门
  4. Perl 中的正则表达式
  5. mstar v56几路hdmi_Android TV : Mstar平台 GPIO 调试
  6. thinkserver rd650管理口地址_路由器WAN口和LAN口有什么区别【区别介绍】
  7. 金域与华为云联合AI辅助宫颈癌筛查技术创出国际最高水平
  8. Android保存用户名和密码
  9. Extjs 常见问题:如何提交combobox的值
  10. 查找有序数组中某个数首次出现的位置
  11. 用函数指针控制排序的顺序
  12. python第五章课后答案5.8_Python语言程序设计(美-梁勇)第5章习题解答
  13. visio2003 FK
  14. 【图像特征提取】基于matlab脉冲耦合神经网络(PCNN)图像特征提取【含Matlab源码 1868期】
  15. scratch制作彩虹猫病毒模拟器
  16. Mac和Windows中常见中文字体的英文名称
  17. 2020年被“冰封”的猫眼、淘票票、大麦们,还能看见春天吗?
  18. 【目标检测】YOLO和SSD的区别
  19. 14 数据库高可用
  20. Java中double类型输出小数点后两位

热门文章

  1. 休闲娱乐 - PS4游戏 Journey 风之旅人
  2. FreeBSD12.1管理用户和组
  3. 三台机器安装zookeeper集群
  4. JavaScript网页——动态生成表格
  5. 《统计学:从数据到结论》学习笔记(part1)--统计学是收集、分析、展示和解释数据的科学
  6. JSON版七彩影视双端百果炫彩UI前端主题
  7. 立创EDA学习---第一天
  8. 2021-2027全球及中国WiFi热点软件行业研究及十四五规划分析报告
  9. 整人不偿命的弹窗小项目(附源码)
  10. XXE(xml外部实体攻击)