1分钟快速生成用于网页内容提取的xslt
2019独角兽企业重金招聘Python工程师标准>>>
1,项目背景
在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫,而且能节省程序员大半的时间,而焦点问题就是提取器使用的抓取规则需要快速生成。在《python使用xslt提取网页数据》一文,我们已经看到这个提取规则是xslt程序,在示例程序中,直接把一长段xslt赋值给变量,但是没有讲这一段xslt是怎么来的。
网友必然会质疑:这个xslt这么长,编写不是要花很长时间?
实际情况是,这个xslt是通过GooSeeker的MS谋数台的直观标注功能自动生成的,熟练的话1分钟就搞定了。
2,MS谋数台能做什么
MS谋数台有个图形化界面,把一系列html解析工具集成在一起,包括:
- 基于直观标注自动生成XSLT
- 即时测试XSLT的正确性
- 树状的DOM结构展示
- 剖析某个DOM节点的属性
- 为DOM节点生成XPath,可选择定位到class、或者id、或者绝对定位
- 根据xpath搜索DOM节点
MS谋数台界面分成三部分:DOM数窗口、内嵌浏览器窗口、工作台。在工作台上定义xslt转换规则。
3,用MS谋数台生成XSLT
假设我们要抓取论坛帖子列表,下面一步步讲解操作方法:
第一步,打开GooSeeker的MS谋数台,输入要抓取的网址
第二步,在MS谋数台的浏览器显示窗口里,直接选取要提取的内容,并且起个名字,点击确认
第三步,点击工作台的“测试”按钮,xslt就生成了,在“数据规则”窗口显示出来
通过以上的操作,不用编程,用图形化界面直接在页面上标注,1分钟就可以生成xslt。
4,怎样使用XSLT
在《python使用xslt提取网页数据》一文,我们把生成xslt作为一个字符串交给程序,给人感觉好像一下子回到了史前文明,前面讲的那么好,最后用了很原始的拷贝。其实不然,那个只是一个例子。在《python 即时网络爬虫项目: 内容提取器的定义》一文已经初见端倪了,有多种注入xslt的方式,最自动化的方式是api,将在后续文章中详细讲解。
5,文档修改历史
2016-05-28:V3.0,增加第二章
2016-05-26:V2.0,增补文字说明
转载于:https://my.oschina.net/gooseeker/blog/677913
1分钟快速生成用于网页内容提取的xslt相关推荐
- powerbi的功能介绍_Power BI:1分钟快速生成可视化报表
1.什么是Power BI ? Power BI 是微软推出的可视化工具,先来看看微软官方是怎么介绍的: 使用用于自助服务和企业商业智能 (BI) 的统一.可扩展平台(该平台易于使用,可帮助获取更深入 ...
- 【Vscode】快速生成用于排版效果测试的随机文本
引言 Vscode 中编写 HTML 时,输入 lorem 可自动生成"乱数假文",即乱序的并没有实际含义的文本,但可提高排版测试的效率. 但 Vscode 自带的 lorem 仅 ...
- ChatGPT自动化提高工作效率: 2分钟快速生成思维导图
一.简要说明 ChatGPT不止是一个聊天机器人,更是一个自然语言处理.文本内容生成模型,它可以理解语言规则,不仅仅是给你输出已有的知识内容,还会给到你一些创意点子:所以我们应该学会如何使用它,让它更 ...
- Unity插件 FogOfWord教程 1分钟快速生成战争迷雾(2D/3D)
前言 官网地址:点击前往 学习版插件下载地址:点击前往 笔记OneNote下载:点击前往 简介 1分钟上手 导入,然后找到脚本文件的位置 主镜头,绑个这个脚本 玩家身上绑上这个 怪物身上绑这个(迷雾隐 ...
- 商户完成支付宝宝注册,3分钟快速生成支付宝扫码点餐小程序餐饮小程序
企业支付宝完成后,商户设置完成登录密码即可在支付宝小程序登录企业支付宝, 商家设置好企业支付宝后用企业支付宝登录支付宝账号(推荐直接使用手机) 搜:支付宝开发者中心, 创建小程序 创建完成后即可完成小 ...
- php lmpl,tjx-cold: 用于根据配置模板,快速生成controller,service,serviceimpl 代码
用于根据配置模板,快速生成controller,service,serviceimpl 代码(交流群 623169994 ) 为什么要开发这款插件 市面上有很多基于数据库生成代码的工具,但是我自己的工 ...
- 使用 Visual Studio 2005 Team System 进行单元测试并生成用于 Unit Test Framework 的源代码...
PS:微软专家写的一往篇VSTS2005测试功能说明,非常详细.适合初学者查看. 适用于: Microsoft Visual Studio 2005 Team System Beta 2 Team A ...
- 云小课 | 一个三分钟快速定制OCR应用的神器,要不?
摘要:ModelArts Pro提供了文字识别套件,基于丰富的文字识别算法和行业知识积累,帮助客户快速构建满足不同业务场景需求的文字识别服务.三分钟即可快速定制OCR服务,实现多种版式图像的文字信息结 ...
- 转载文章-【工具】10分钟快速搭建属于自己的文档网站-来自掘金
掘金 首页 探索掘金 搜索 lvhanghmm的头像 Gopal lv-4 2021年03月09日 阅读 9930 关注 [工具]10分钟快速搭建属于自己的文档网站 前言 很多同学都希望能够拥有自己的 ...
最新文章
- 不要痴迷蓝牙耳机了,出门选这个准没错,99W+人的选择
- SQL与NoSQL区别-扩展方式
- 计算机办公知识考试,电脑办公系统基础知识考试试题
- python-常用函数模块学习-subprocess
- 【转】VC窗口刷新InvalidateRect和UpdateWindow RedrawWindow
- 评估应用使用oracle磁盘空间,Oracle磁盘空间使用统计
- 安装和配置VNC服务器的法则
- 前端性能测试--启动时间监控数值获取方法
- 论文都看不懂,你还搞什么人工智能?
- 解决Ubuntu 9.04无线网络的不稳定问题-转
- 如何在VS2013中隐藏引用计数?
- UVA148 ZOJ1166 Anagram checker【DFS】
- 【codevs1048】石子归并
- Android -- 背景虚化
- pdf阅读,保存上次阅读位置
- 智伴机器人wifi键在哪里_智伴机器人连不上WiFi
- 模拟器:思科 给路由器配置IP地址和子网掩码
- Ubuntu 安装之后无法连接网络问题
- 余压监控系统保证火灾发生时消防疏散通道的通畅,为大型高层建筑的安全运行和人民生命财产安全保驾护航
- flash花屏 html,Flash中轻松制作电视花屏闪屏的效果
热门文章
- 利用InfoPath实现SharePoint Server 2013列表的级联选择(Cascading Drop Down List)
- HOJ 1991 Happy 2005 HOJ 2635 Weights 快速幂
- (自已看的东西)java通过get和post直接提交
- Windows核心编程 第2 5章 未处理异常和C ++异常(上)
- 虚拟桌面模拟查找点击自绘控件
- LA3708墓地雕塑
- 【错误记录】Groovy 注入方法报错 ( Cannot add new method [hello] for arguments [[]]. It already exists )
- 【Android 事件分发】事件分发源码分析 ( ViewGroup 事件传递机制 六 )
- 【组合数学】排列组合 ( 多重集组合数示例 | 三个计数模型 | 选取问题 | 多重集组合问题 | 不定方程非负整数解问题 )
- 【Android 性能优化】应用启动优化 ( 启动白屏问题 | 应用启动时间测量 | 冷启动 | 热启动 | 应用启动时间计算源码分析 )