一、采集背景

  采集背景:采集简书文章标题、网址、阅读数

  目的:用来做数据分析

  使用工具:火车头采集器(火车采集器是一款互联网数据抓取、处理、分析,挖掘软件。)

  二、采集方法步骤说明

  步骤1:安装火车头采集器(注意:需要安装net4.0框架才能运行)

  火车头采集器下载地址:

  http://www.locoy.com/

  步骤2:注册账号

  步骤3:了解基本界面

  a.点击开始——>新建文件夹(并重新命名,以便你自己清楚采集的是什么)——>新建任务

  b.新建任务后,弹出设定任务规则框(以下几点要注意)

  (1)填写你所要采集的内容所在的网址。如果是有规律的话,可以通过【向导添加】相关规则,如下:简书为例,我要采集自己简书中的内容数据,进行分析。主要采集的内容在列表页,但因为简书采用的是惰性加载方式,翻页的内容我是无法采的,于是就需要查看源代码(这里需要懂一定代码知识的童鞋才能找到),然后在源代码中,找到相关的链接,而且是有规律的,于是我就可以通过【向导添加】添加相关规则。具体的规则继续看下面的步骤4.

  向导添加界面:

  步骤4:写网址提取规则

  我在源代码中找到的列表链接,要采集所有的链接就必须把所有的翻页找出来,翻页是有规律的,于是得到下面这个规则。只有链接中的“page=”后面的地址参数是变化的,于是我们可以对参数用[地址参数]进行设定。然后选择【地址参数】中的数字变化,因为是数字。共有14个,于是有14项。

  设定好地址格式后,我们可以进一步设置自己在该页面所要采集的内容了。那就是,我们要通过列表页采集每篇文章的网址,方法如下:

  (1)在获取内容网址,选择获取方式:自动获取地址链接。

  (2)使用链接过滤:提取文章链接,文章的链接是有共性的 。

  填写完这些后,点击【网址采集测试】,这时候你可以验证规则是否正确。

  验证OK!规则正确!棒棒哒!写完规则,记得要保存!

  步骤5:写内容提取规则

  采集到每篇文章的网址后,我们接下来就是要采集每篇文章的相关信息:标题、网址、阅读数、喜欢数!这是我们的终级目标! 写完规则,记得要保存! 方法见下图:

  PS:这个同样是需要懂一定的html代码知识。

  添加规则如下:

  (1)在标签列表添加要采集的标签名称,该框右侧有个“+”可以加多个标签。

  (2)数据获取方式选择:从源代码中获取数据,提取方式选择“前后截取”,然后在源代码中提取我们所要信息的前后代码,记住,要是唯一的代码,避免提取出来出错。

  补充:教大家提取前后代码

  在网页中,右键查看源代码。找到标题。我们会发现重复的标题有多个。但要选择那个前后代码是唯一的那个,可以通过ctrl+f进行验证是否是唯一的。下面这个为标题的前后代码,剩下的几个元素前后代码,大家自行练习下哈。

  步骤6: 设定储存位置

  点击内容发布规则——>保存为本地文件——>启用本地文件保存——>保存设置文件格式选txt(原因是我们使用的是免费软件)——>设定保存位置

  步骤7: 启动采集,设定储存位置设定好规则后,保存并退出,回到工具首页,启动采集——>这3处一定要勾选,然后右键选择——>开始。见下图:

  献上采集后的初级数据:

  献上清洗后的数据及相关的数据分析,见下图:

  三、个人经验小结

  附:数据分析小结——阅读量高的原因

  1.在搜索引擎有排名,从搜索引擎获得一定的流量。(秘诀在标题上,可先借助百度指数挖掘有搜索量的关键词,且该关键词与你的文章主题相契合。当你的文章写得不错,且有一定的互动性,又获得其它人的转载后,将有机会获得排名)

  2.部分文章是因为早期获得简书首页推荐,这个与简书首页早期首页推荐规则有关系,早期的首页推荐一旦上首页,阅读量等相关的用户数据都是比较可观的。但简书为了更好的用户体验,已进行调整了推荐规则(个性化首页定制,根据用户自选的主题,推荐热门的内容)。因此,要想在简书获得好的阅读量,内容好是一方面,另一方面还要注意平台产品新规。

  3.用好简书的相关专题,将写好的文章进行投稿到对应主题的专题,也有利于提升文章的曝光度。

  最后小结:

  这是个大数据时代,要有大数据的思维,通过数据分析,我们可以了解到文章背后的一些影响因素,从而,让我们在运营自媒体账号方面,会更加的有的放矢,而懂一门编程语言,或者采集工具的使用方法,则是锦上添花的一种方式。

文章源自:游侠

火车头采集器采集教程相关推荐

  1. 966SEO学习网:火车头采集器使用教程(入门+高级)

    火车头采集器技术控使用手册(高级)+火车头采集器使用教程(入门),对应没有基础的童学也是无所谓的,因为有入门学会掌握:学会火车头采集器的使用,实操教您自定义一些格式规则来采集,然后保存到word或者e ...

  2. 火车头 采集 java 生成正文_火车头采集器使用教程–采集内容发布规则设置

    火车头采集器使用教程–采集内容发布规则设置 前面我们讲了怎么寻找网站,以及采集文章链接和内容,下面我们就说一下内容发布相关的设置. 因为我教程里都是设置好的发布规则,所以这里我就简单介绍下各个项目. ...

  3. 火车头采集器 采集https网站 以及网站cookie 避免 蜘蛛 爬虫 程序等

    火车头采集器 采集https网站 并不是想象中的困难,有时https网站只是用了这个加密协议,但是事实上的数据并没有加密,所以仍然可以采集. 如果确实有困难的可以通过,http分析软件来确认地址,如H ...

  4. cmsplus实战之仿[我扫网]之十一:安装采集器采集并发布数据

    一:安装火车头采集器: 二:导出栏目信息到采集器: 三:配置火车头采集器采集数据并发布:

  5. 火车头采集器采集图片文章详细 教程

    火车头采集器怎么采集带图片文章?首先要更好的使用火车头采集器软件,必须需要有基本的HTML基础,能看得懂网页源码,网页结构. 同时如果用到web发布或数据库发布,则对自己文章系统及数据存储结构要非常了 ...

  6. 火车头传数据到mysql_火车头采集器采集文章使用教程实例

    任务: 采集某一个指定页面的文章包括(标题.图片.描述.内容)导入到自己网站数据库对应栏目(栏目id为57),数据库字段分别(title,thumb,descrption,content). 页面里面 ...

  7. 飞飞php2.8采集失败_飞飞影视系统火车头采集器采集发布免登录接口

    更改完免登陆代码后,就要写采集库接口了,打开\Lib\Action\Admin目录下的CollectAction.class.php文件,添加一个子函数,函数名称和第五步中的代码相同 //处理 火车头 ...

  8. 《火车头采集器采集网页数据》火车头配置规则采集信息文章数据。

    此为火车头采集器的页面 *左边建立分组,建议结构都和所需要采集的数据结构一致,不然数据多了起来,很容易混乱. 1, 创建任务 起始网址是指你需要抓取的网址,例如:http://www.day.gov. ...

  9. php耳朵音乐cns_PHPCNS火车采集器使用教程

    火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序.使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站.系统支持远程图片下载,图片批量水印,Fla ...

  10. 火车头采集器使用教程

    1.火车头介绍 2.什么是信息采集 3.什么是火车头 4.火车头是干啥的 5.火车头规则定制 6.规则编写流程 7.采网址详解 8.采内容详解 9.注意事项 什么是火车头? 我们打开一个网站,看到有一 ...

最新文章

  1. 装饰模式(Decorator)
  2. 刚毕业就能拿到56万年薪?对!看看Twitter机器学习大牛写给你的进阶手册吧
  3. 区块链BaaS云服务(14)华大BGI区块链“碎片分布式存储“
  4. Java保留小数点一位的方法
  5. Pycharm远程连接服务器,操作代码
  6. 一步一步写算法(之内存)
  7. pycharm 升级 pip
  8. 三个有用的SQL辅助工具
  9. Win7开机动画图片下载大全 修改攻略
  10. java输入语句怎么写_java中输入语句是怎么写的
  11. vs2003 下载地址
  12. 最新版校园招聘进大厂系列----------(5)百度篇 -----未完待续
  13. android 微博功能实现,android 新浪微博实现分享功能
  14. eclips开发工具的使用
  15. 通过 adb 设置音量
  16. 2022年全球与中国太阳传感器市场现状及未来发展趋势
  17. basler相机参数简要中文说明_basler设置相机参数
  18. Android 解决使用VLC实现视频播放报错 libvlc decoder: more than 5 seconds of late video
  19. 计算机课程MOOC,高校计算机基础课程MOOC教学模式的探索
  20. 大一c语言餐馆点菜对话,餐馆点餐英语情景对话练习

热门文章

  1. 罗技键盘鼠标接收器丢了 怎么连接别的接收器
  2. Eclipse代码格式化无效解决方案
  3. 【JS 逆向百例】HN政务服务网登录逆向,验证码形同虚设
  4. 抱薪者说 | 君莫:穿越山海,终成“C链小雷锋”
  5. 牛客 | C 选择颜色
  6. cf Educational Codeforces Round 47 E. Intercity Travelling
  7. IT运维外包甩不掉的包袱
  8. 网站服务器在本地是指,本地域名是什么意思?本地域名服务器在哪?
  9. 【报错记录】MybatisPlus报Mapped Statements collection does not contain value for...
  10. html如何实现自动登录,Js实现下次自动登录功能