此为火车头采集器的页面

*左边建立分组,建议结构都和所需要采集的数据结构一致,不然数据多了起来,很容易混乱。

1, 创建任务

起始网址是指你需要抓取的网址,例如:http://www.day.gov.cn/dayi/c108528/list_1.shtml

下面的获取内容的网址是指你需要起始网址里面你需要跳转的页面的网址,设置的区域是指那你所要跳转的页面的起始的字符串,这里我们一般选择手动设置规则获取网址,例如:

一般的重定向链接可通用的规则:

<a(*)href="[标签:重定向链接]"(*)>[标签:列表标题]</a>

2,接下来点击网址采集测试

会出现你需要抓取的网页的地址。

3,选中其中一条

双击进入 ,右下方的测试

这里的标签列表是指你在此网站的内容中需要抓取的内容和字段的配置,提取的字段也可以使用起始字符串。

测试的时候就会出现你所需要的字段。

3,内容发布规则会在后面具体讲解。

4,其它设置

如果抓取的内容包含图片附件或者视频,这里需要设置一下地址, 所有文件保存根目录是指本地路径,这里如果程序放在服务器上,需要把附件这些传到对应的服务器。

这里的文件链接地址前缀是指下载下来火车头采集器会把你的附件或图片的地址前缀加上如上。

(提示:这里的前缀地址要与你的服务器的部署的访问站点地址一致哦)

* web发布配置

点击保存或退出以后,返回界面,点击web发布配置。

可以新建一个,这里新建的一个信息类:

网站地址是指你需要发布数据起始地址

useragent可以使用fidder2 获取得到

cookie 也可以通过fidder2得到,同时也可以根据网站的f12检查得到,有些可能没有。

然后在右边建立一个发布的模块,这里的配置就是相当于要和数据库的字段相互对应,插入到数据库:

这里的发表地址是前面的地址加上你需要发布的地址的后缀,来源页面地址是指你需要发布在某个栏目下面配置的栏目id,也就是相当于一篇文章属于什么类型(文学,小说),这里的类型id。

发布的post数据:

post数据也可以根据fidder2获得。

后面会说明fidder2是怎么使用。

《火车头采集器采集网页数据》火车头配置规则采集信息文章数据。相关推荐

  1. 后羿采集器怎么导出数据_怎么安装后羿采集器?后羿网页数据采集器安装教程...

    许多网友向小编反映不知道怎么下载后羿采集器?下载完成后不知道怎么安装?今天极速小编为大家提供一个安装教程,希望对大家有帮助!首先我们下载后羿采集器(下载地址:http://www.jisuxz.com ...

  2. 最大化参数 火车头_火车头采集器教程:使用正则匹配模式采集数据

    使用正则匹配模式采集数据 正则表达式很强大,利用它我们可以获得一定格式的数据,比如网址,E-mail地址,数字,字母等等.可喜的是,从3.2版开始,火车 采集器就支持正则规则的编写了,这给喜欢用正则来 ...

  3. 全自动苹果CMS火车头采集器,苹果CMS火车头发布插件

    苹果CMS火车头采集器,苹果CMS影视建站系统有着丰富和强大的可定制性,做为CMS系统使用,更方便的管理和扩展您的网站.很多站长问我如何苹果CMS火车头采集指定网站或者全网文章关键词泛采集.批量伪原创 ...

  4. python从零写一个采集器:获取网页信息

    博客链接 https://uublog.com/article/20170216/python-extarct-html-info/ 前言 获取内容,比较纠结是用BeautifulSoup还是直接用正 ...

  5. 微信公众号数据2019_2019年微信公众号文章数据报告

    88.5万个微信公众号,平均一天才产出200多篇原创10w+.10w+对于绝大多数新媒体人来说,仍然是可望而不可及的目标. 那么,1w-(阅读量在1万以下的公众号文章)的世界又是什么样的呢? 01.每 ...

  6. 类似火车头的采集器-免费任意数据采集器

    类似火车头的采集器,首先我们了解一下火车采集原理,火车头采集内容主要靠您写入的规则.要获取某个网页的所有内容,您需要先获取此网页的网址,然后在写入代码标签获取到文章标题和内容(需要懂得HTML代码知识 ...

  7. 火车头采集器V10下载-火车头采集器免费

    火车头采集器V10下载,火车头采集器V10操作难吗?使用火车头采集器需要一定的代码技术,以及编程能力才能更好的运用好火车头采集器V10,建议你先看HTML代码方法撰写采集规则.今天给大家分享一款可视化 ...

  8. dz3.2火车头 php接口,DiscuzX3.4论坛火车头采集器免登陆发布模块(附测试接口)!...

    今天来分享"DiscuzX3.4论坛火车头采集器免登陆发布接口模块(可测试)"大家可以复制下面的百度云地址进行下载,本接口是亲测的,压缩包无加密,可以直接使用,并且我们附有了使用教 ...

  9. 最大化参数 火车头_初级火车头采集器教程分享

    古人云:"工欲善其事,必先利其器".在简书写了将近123篇文章,仅粗略分析过几次数据,使用的方式均是手工采集数据,效率上相对比较慢,此前,有用过火头采集器,效率上比手工采集快好几倍 ...

最新文章

  1. mvn如何执行java代码
  2. 开启Thread线程只执行一次
  3. javascript中变量
  4. 开启文件高级共享功能
  5. 让你更好使用Vista的设置技巧
  6. PHP提示Deprecated: mysql_connect(): The mysql extension is deprecated的解决方法
  7. git push -u origin master 上传出错问题
  8. Linux mint 17中文输入法安装,改动linux mint与windows7双系统启动顺序
  9. 关于预编绎网站的问题[已预编译此应用程序的错误]
  10. AudioContext
  11. 多用户文件系统java实现_小师妹学JavaIO之:文件系统和WatchService
  12. Python网络编程笔记二
  13. CSS实现导航栏半透明背景效果
  14. 广义pareto分布_帕累托分布
  15. 【字节面试-字符串】判断一组字符串能否首尾相连
  16. bootstrap 二级下拉菜单
  17. LZJ的圣剑,第二次模拟赛,贪心
  18. html怎么定义403页面,自定义 403 错误页面(示例代码)
  19. ubuntu设置共享文件夹
  20. Flickr和DasBlog以及地理标记和EXIF等等

热门文章

  1. mysql+分表+1168,MySQL使用MERGE進行分表實現
  2. MySQL之between and 临界值问题
  3. Jmeter压力测试,个人使用总结
  4. 七日年化收益率怎么算「知识普及」
  5. 从线代角度图解:通解、特解、非齐次通解、非齐次特解、齐次通解、齐次特解
  6. 移动端用户放大字体导致样式出问题
  7. 使用PowerShell替代WinDbg在高分辨率笔记本下调试、排错
  8. 三国志2霸王的大陆 武器大全
  9. 苹果开发者账号和证书那些事
  10. win10如何设置锁屏时间