一、原理

手动填写链接地址规则原理是编写脚本规则,去和源代码里的内容匹配,获取到自己设置的参数即可。

使用到的正则解释

[参数]

用来匹配某项准备提取信息的标记标签,如想要在以下代码中提取组合出某种格式。以从代码"mClk(this,'108484','134217', '168475','1');"中提取组合出新的地址格式为例。

"mClk(this,'[参数]','[参数]', '[参数]','1'); ",按照次序,108484参数就是参数1,依次类推。实际需要的地址为以下的地址格式:bbs/read.php?id=[参数1]&sort=[参数3]&action=[参数2],上面代码中的3个参数和下面地址中的id,soft和action参数要对应相应的值,次序不要颠倒。这样就组合成了新的地址格式。

(*)

(*)为通配符,在火车采集器可以在起始地址中代表页码数,在标签规则,模块或其他设置中可匹配代表任意字符串,如(*)可以匹配到xxx字符串也可以匹配到yy字符串。

二、使用场合和使用方法

1、一般可以使用自动获取网址链接的网页都是可以使用手动获取。手动填写链接地址的灵活性比较高!

2、网页源代码中的内容页链接不规范,或者网址中没有链接的时候,都可以使用手动填写链接地址规则。

举例说明:

例一、如ajax链接

http://ajax.qire123.com/vod-showlist-id-1-order-time-c-18056-p-1ajax?callback=jQuery17105933980392558583_1363931589968&_=1363931590312

查看源代码可知,网址链接不规范,这样的链接地址就不能直接使用自动获取网址了。

解决方法:

脚本规则:

实际链接:http://[参数1]/[参数2]/[参数3]/

例二、例如列表页里只有内容页的一个ID,其他的网址信息都没有的,这样也可以使用手动填写链接地址规则获取。

列表页网址:http://www.anshan.gov.cn/contentdoc/getdoclist.jsp?fieldid=1005&p=0&perpage=30&keyword=null

内容页网址:http://www.anshan.gov.cn/contentdoc/docContent.jsp?oid=55700

查看源代码可知,网址链接也是不规范的。

解决方法:

脚本规则:|(*),[参数],

实际链接:http://www.anshan.gov.cn/contentdoc/docContent.jsp?oid=[参数1]

如需网站采集相关服务,请联系我们:

QQ常年24h在线:389311875网址:『采集超市』www.locoymall.com

|||||||

python多级网址爬取_『采集超市』添加多级网址之手动填写链接地址规则相关推荐

  1. python如何全网爬取_如何通过Python爬取互联网

    大家用过谷歌,百度吧.这类搜索引擎是怎么对外提供服务的呢?显然,这不是本文要说的事情.但是,任何一个搜索引擎,都缺不了网页收录这个步骤,所以网络爬虫是搜素引擎最重要,也是最基本的组成部分.那么我们每个 ...

  2. python爬虫定时爬取_如何用框架给python爬虫定时?

    生活中需要按时的事情很多,如果一旦错过原定的时间,就会出现一些不必要的麻烦要处理.在编程中,我们用python做测试,需要某个程序在固定的时间点启用,这就要用到python爬虫的定时功能.常用的几种定 ...

  3. python如何全网爬取_如何爬取全网1200本Python书|爬虫实战篇

    这是菜鸟学Python的第98篇原创文章 阅读本文大概需要3分钟 引用 前面写了一篇文章关于爬取市面上所有的Python书思路,这也算是我们数据分析系列讲座里面的一个小的实战项目.上次代码没有写完,正 ...

  4. 爬取展示『王者荣耀』2020年-2021年2月收入流水线,看后发现.....

    1.前言 王者荣耀是最近几年包括现在一直都是最热销的手游,收益主要来源是游戏里面人物皮肤. 今天就来爬取展示王者荣耀近一年收入流水线动图,看看王者荣耀有多赚钱(哈哈哈哈) 主要可视化内容: App收入 ...

  5. python的pyaudio教程入门_『开发技巧』Python音频操作工具PyAudio上手教程

    『开发技巧』Python音频操作工具PyAudio上手教程 ​ 0.引子 当需要使用Python处理音频数据时,使用python读取与播放声音必不可少,下面介绍一个好用的处理音频PyAudio工具包. ...

  6. python处理音频的软件_『开发技巧』Python音频操作工具PyAudio上手教程

    『开发技巧』Python音频操作工具PyAudio上手教程 ​ 0.引子 当需要使用Python处理音频数据时,使用python读取与播放声音必不可少,下面介绍一个好用的处理音频PyAudio工具包. ...

  7. 小红书主页爬取_【小红书首页】小红书首页内容推荐依靠哪些规则?

    小红书首页内容推荐依靠哪些规则?如今很多年轻人都喜欢使用小红书,同时许多商家也纷纷入驻进来.那么大家是否知道小红书首页内容推荐依靠哪些规则呢? 1.根据内容相似度开展推荐 小红书首页feed流关键也是 ...

  8. Python爬虫:爬取喜马拉雅音频数据详解

    前言 喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...

  9. Python Scrapy 爬虫 - 爬取多级别的页面

    Python Scrapy 爬虫 - 爬取多级别的页面 互联网中众多的 scrapy 教程模板,都是爬取 下一页 → \rightarrow →下一页形式的,很少有 父级 → \rightarrow ...

  10. python使用selenium爬取联想官网驱动(一):获取遍历各驱动的下载网址

    python使用selenium爬取联想官网驱动(一):获取遍历各驱动的下载网址然后wget命令试验下载 由于初期学习,所以先拿一个型号的产品驱动试验. (1)以下为在联想某型号产品获取相关驱动下载的 ...

最新文章

  1. static和构造函数初始化顺序
  2. 浅谈文献总结(2018.9.28)——坚恒勇毅论文课笔记
  3. the serveice mysql_解决重启MySQL数据库The server quit without updating PID file问题
  4. c语言字符串数组的合并,C语言实现合并字符串
  5. 在Linux环境下给php添加mbstring扩展
  6. hadoop安装与配置
  7. w3c html5 客户端缓存数据格式,Html5应用程序缓存(Cache manifest)
  8. 宏基因组大数据分析的质量控制流程规范
  9. Pytest框架教程(一)
  10. oracle批量文件入库,C++ Oracle批量高效入库
  11. toma线攻略_AMNESIA WORLD 手打攻略【SCHOOL WORLD part】アムネシア
  12. 软件测试员工自述,软件测试人员的述职报告.docx
  13. 如何“谨慎”使用“数据驱动”的风控模型(三)——监控篇
  14. Linux: sd 0:0:1:0: timing out command, waited 1080s, 访问磁盘错误
  15. pandas自动化实战小任务1--对excel表格分 供应商 付款年月 进行汇总(涉及根据即有相同也有不同的index的表格合并)公司的数据
  16. 《树莓派项目实战》第十二节 使用PCA9685驱动板控制多个舵机
  17. 解决Ubuntu apt安装时连接超时Connection timed out [IP: 2001:67c:1562::16 80]
  18. Flink流处理过程的部分原理分析
  19. Zadig 完成 100% 开源:开启软件交付 3.0 时代
  20. 清华大学计算机基础实验部,2019计算机考研清华大学计算机基础教学部简介

热门文章

  1. 机器学习:02 特征工程和决策树回归
  2. 今年职高计算机数学高考试题,湖南职高对口数学高考试卷
  3. 互联网广告请求链路_微博广告推荐策略工程架构体系演进
  4. Chrome浏览器主页被hao123、360和2345篡改恢复到默认的方法
  5. html代码数字上下滚动特效,js实现数字滚动特效
  6. @人生随笔:一年一影帝,百年周星驰
  7. 自媒体平台搜狗号登陆 搜狗挑战百度、头条有胜算吗?
  8. php中的fpm_基于php-fpm的配置详解
  9. 微软正版验证_真正纯净无捆绑微软官方原版windows10安装教程无删减完整版
  10. SNAT、DNAT、MASQUERADE的区别