文章目录[隐藏]

  • 前言
  • 采集内容规则设置
  • 总结

前言

昨天一篇文章简单教大家怎么设置网址的采集规则,今天这篇文章教大家如何设置内容的采集规则。

采集内容规则设置

1.  明确采集内容

首先我们要先明白需要采集什么内容,其实你采集的内容最终会进入数据库,一般情况下你的一个采集标签会对应一个数据库字段。
我们接着昨天的网站说。我的网站是一个资源收集网站。其实归根到底就是一个文章发布,及文章展示的网站。我们文章的内容就对应采集站文章的内容。
一般情况下,一篇文章最主要的就是文章标题和文章内容。如下所示。

2. 查看源代码,分析源代码

通过上图的方式,找到 html 代码: <h3 class="article_title"> 在线看美女图片源码+py 源码下载 </h3> 。
如果想获取其中的标题,我们需要用到编写采集规则最重要的思想: 截取。
如上标签我们可以这么想: 如果可以有方法通过前后截取的方式,前面从“<h3 class="article_title">”开始,到“ </h3> ” 为止,
这样不就可以截取到其中的标题了。很幸运火车头采集器提供这样的操作,我们只需要如下设置:

3. 火车头采集器标签内容获取

具体方法可参照下图说明:

总结

1. 我目前遇到的采集基本都是通过截取 html 标签实现的,这种方式基本适用于 80%的网站。所以不要怀疑,如果你没获取到肯定是你规则前后截取有问题。
2. 采集就是需要你不断测试,我那几晚上有个标签也是获取不到,结果到处百度看文章,然后测试,最终就是因为标签中漏写一个一些字符导致截取不准确。
3. 本方法是我自己测试过可行的,按照这种思路采集不会错的。我自己维护的一个采集站: mip.chiyuba.com 欢迎查看采集测试。
4. 如需要获取教程中的网址请关注公众号回复: 采集网址

http://www.taodudu.cc/news/show-6183674.html

相关文章:

  • 火车头采集细节(一)
  • 火车头采集器基本用法
  • 火车头采集列表页
  • 类似火车头的采集器-免费任意数据采集器
  • 火车头采集器在线发布模块制作教程
  • 【ACWing】1264. 动态求连续区间和
  • 1224
  • Leetcode力扣 MySQL数据库 1264 页面推荐
  • mysql 1264_关于MySQL的1264错误处理及sql_mode设置
  • 122-124
  • 1226
  • 1264. 动态求连续区间和
  • Mysql数据库报错1264
  • 1644 -- 字符串
  • MySQL的错误1264, 1406, 1329 ,1101 的修改方法
  • LeetCode-1264. 页面推荐(中等)
  • MYSQL 命令中常出现的error - 1046 1064 1264
  • 双向Rsync实时同步
  • 如何开启任务计划程序
  • 计划任务服务程序
  • TASK SCHEDULE(任务计划)服务无法运行 解决方案
  • windows服务与计划任务
  • 任务计划服务程序在哪里
  • 字符串输入的2种常用方法详解
  • C++字符串的几种输入方法(string和字符数组)
  • Activiti7工作流引擎:进阶篇(十) 多实例
  • SpringBoot整合Flowable工作流引擎框架
  • vue3使用sse
  • server-sent-Event (简称SSE)
  • SSE(Server-Sent Events)| 前后端demo参考

火车头采集之采集内容获取相关推荐

  1. 火车头php post提取内容,【火车头采集教程】轻而易举学会火车头采集(附带采集案例)...

    咔咔不会用python,也没打算为了爬点东西就去学python.时间成本不允许我这样做 于是咔咔使用了一款工具,火车头采集工具 这款工具学会了很简单,不会的全是问题 下来咔咔会把这个工具的从开始到结束 ...

  2. 【火车头采集教程】轻而易举学会火车头采集(附带采集案例)

    咔咔不会用python,也没打算为了爬点东西就去学python.时间成本不允许我这样做 于是咔咔使用了一款工具,火车头采集工具 这款工具学会了很简单,不会的全是问题 下来咔咔会把这个工具的从开始到结束 ...

  3. 火车头采集之采集规则编写

    文章目录[隐藏] 前言 目标网站分析 火车头采集器使用(mip.chiyuba.com 可搜索下载) 总结 前言 上一篇火车头采集系列主要给大家一个引导作用,让大家简单了解火车头采集器有什么功能,从次 ...

  4. php采集今日头条出现问题,PHP采集今日头条内容页时,解析页面上的JS转为json

    <PHP采集今日头条内容页时,解析页面上的JS转为json>要点: 本文介绍了PHP采集今日头条内容页时,解析页面上的JS转为json,希望对您有用.如果有疑问,可以联系我们. 在采集今日 ...

  5. 火车头按照关键词采集文章的平台有哪些?亲测实录!

    很多网站现在都是按照关键词进行采集的,定向采集指定的内容,淘小白使用火车头采集,通过搜索词采集也采集过很多站点,今天来给大家总结一下! 目录: 1.搜词采集头条文章 2.搜词采集悟空问答 3.搜词采集 ...

  6. 疯子网页采集器之提取内容教程

    疯子网页采集器之提取内容教程 第一步: 填写"链接开始",0就是第一个链接,4就是第五个链接,这里填0 填写"地址变化",比如4就会采集第1.5.9...的链接 ...

  7. .net版 类似火车头的网页采集

    最近因工作需要,需写一个类似火车头的web采集器 各位有什么建议啊? 由于正则不会,只能简单的写一个测试代码,代码如下 代码 protected void Button1_Click(object s ...

  8. php 采集不到内容_Thinkphp5与QueryList,也可以实现采集(爬虫)页面功能

    QueryList 是什么 QueryList是一套用于内容采集的PHP工具,它使用更加现代化的开发思想,语法简洁.优雅,可扩展性强.相比传统的使用晦涩的正则表达式来做采集,QueryList使用了更 ...

  9. 网易楚留香获取服务器信息,楚留香手游生活采集物有哪些 获取攻略

    楚留香手游中,生活技能合成需要众多的材料,除了一般材料外,还需要用到生活采集物,俺么游戏中生活采集物有哪些,该怎么获得,下面一起来看看. 生活技能的合成需要用到很多材料,除了通过[采草][伐木][挖矿 ...

最新文章

  1. svn import无法上传库文件lib.a
  2. python 仪表盘-python+仪表
  3. 计算机网络基础 单选题) 作业,南开大学《计算机网络基础》在线作业及答案
  4. C语言ftell()函数(返回文件当前位置)(返回给定流 stream 的当前文件位置)
  5. SpringBoot+layUI上传图片功能
  6. java.io.EOFException: Chunk stream does not exist at page: 0
  7. 姚期智:人工智能存在三大技术瓶颈
  8. oracle怎么查语句消耗时常,Oracle 查找常见耗性能的语句
  9. 协程与线程, 进程的区别
  10. 计算机应用从组织内部,全国2014年10月自考管理系统中计算机应用试题和答案
  11. jsp里table边框线_JSP好看表格边框
  12. R语言编写简单的函数
  13. http://www.qiantu.org/index.php?p=403#comments
  14. linux设置python环境变量
  15. Java项目实战:实现淡旺季飞机票打折
  16. Unity3D数字孪生开发笔记——软件基础篇
  17. 人脸识别+表情识别系统
  18. 常见名称解析_著名软件著名计算机语言
  19. 域格 ASR CAT4 系列模块FOTA 升级(HTTP 方式)
  20. wordpress外贸跨境电商独立站WooCommerce插件安装教程

热门文章

  1. 多商户商城系统-v2.2.3版本发布
  2. Pytorch 中的detach 和detach_
  3. 什么是单工通信、半双工通信、全双工通信?3种通信方式的区别是什么?
  4. 使用Gitbook写电子书
  5. 随机生成20个手机号码
  6. 教你从零开始搭建阿里云ESC服务器(建站)新手必看!
  7. 推荐几款好用的企业级文档管理软件
  8. 8、双目测距及3D重建python
  9. [ULK11]信号(三):从信号传递到原程序恢复执行
  10. Flink checkpoint机制以及恢复