2019独角兽企业重金招聘Python工程师标准>>>

1,项目背景

在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫,而且能节省程序员大半的时间,而焦点问题就是提取器使用的抓取规则需要快速生成。在《python使用xslt提取网页数据》一文,我们已经看到这个提取规则是xslt程序,在示例程序中,直接把一长段xslt赋值给变量,但是没有讲这一段xslt是怎么来的。

网友必然会质疑:这个xslt这么长,编写不是要花很长时间?

实际情况是,这个xslt是通过GooSeeker的MS谋数台的直观标注功能自动生成的,熟练的话1分钟就搞定了。

2,MS谋数台能做什么

MS谋数台有个图形化界面,把一系列html解析工具集成在一起,包括:

  • 基于直观标注自动生成XSLT
  • 即时测试XSLT的正确性
  • 树状的DOM结构展示
  • 剖析某个DOM节点的属性
  • 为DOM节点生成XPath,可选择定位到class、或者id、或者绝对定位
  • 根据xpath搜索DOM节点

MS谋数台界面分成三部分:DOM数窗口、内嵌浏览器窗口、工作台。在工作台上定义xslt转换规则。

3,用MS谋数台生成XSLT

假设我们要抓取论坛帖子列表,下面一步步讲解操作方法:

第一步,打开GooSeeker的MS谋数台,输入要抓取的网址

第二步,在MS谋数台的浏览器显示窗口里,直接选取要提取的内容,并且起个名字,点击确认

第三步,点击工作台的“测试”按钮,xslt就生成了,在“数据规则”窗口显示出来

通过以上的操作,不用编程,用图形化界面直接在页面上标注,1分钟就可以生成xslt。

4,怎样使用XSLT

在《python使用xslt提取网页数据》一文,我们把生成xslt作为一个字符串交给程序,给人感觉好像一下子回到了史前文明,前面讲的那么好,最后用了很原始的拷贝。其实不然,那个只是一个例子。在《python 即时网络爬虫项目: 内容提取器的定义》一文已经初见端倪了,有多种注入xslt的方式,最自动化的方式是api,将在后续文章中详细讲解。

5,文档修改历史

2016-05-28:V3.0,增加第二章
2016-05-26:V2.0,增补文字说明

转载于:https://my.oschina.net/gooseeker/blog/677913

1分钟快速生成用于网页内容提取的xslt相关推荐

  1. powerbi的功能介绍_Power BI:1分钟快速生成可视化报表

    1.什么是Power BI ? Power BI 是微软推出的可视化工具,先来看看微软官方是怎么介绍的: 使用用于自助服务和企业商业智能 (BI) 的统一.可扩展平台(该平台易于使用,可帮助获取更深入 ...

  2. 【Vscode】快速生成用于排版效果测试的随机文本

    引言 Vscode 中编写 HTML 时,输入 lorem 可自动生成"乱数假文",即乱序的并没有实际含义的文本,但可提高排版测试的效率. 但 Vscode 自带的 lorem 仅 ...

  3. ChatGPT自动化提高工作效率: 2分钟快速生成思维导图

    一.简要说明 ChatGPT不止是一个聊天机器人,更是一个自然语言处理.文本内容生成模型,它可以理解语言规则,不仅仅是给你输出已有的知识内容,还会给到你一些创意点子:所以我们应该学会如何使用它,让它更 ...

  4. Unity插件 FogOfWord教程 1分钟快速生成战争迷雾(2D/3D)

    前言 官网地址:点击前往 学习版插件下载地址:点击前往 笔记OneNote下载:点击前往 简介 1分钟上手 导入,然后找到脚本文件的位置 主镜头,绑个这个脚本 玩家身上绑上这个 怪物身上绑这个(迷雾隐 ...

  5. 商户完成支付宝宝注册,3分钟快速生成支付宝扫码点餐小程序餐饮小程序

    企业支付宝完成后,商户设置完成登录密码即可在支付宝小程序登录企业支付宝, 商家设置好企业支付宝后用企业支付宝登录支付宝账号(推荐直接使用手机) 搜:支付宝开发者中心, 创建小程序 创建完成后即可完成小 ...

  6. php lmpl,tjx-cold: 用于根据配置模板,快速生成controller,service,serviceimpl 代码

    用于根据配置模板,快速生成controller,service,serviceimpl 代码(交流群 623169994 ) 为什么要开发这款插件 市面上有很多基于数据库生成代码的工具,但是我自己的工 ...

  7. 使用 Visual Studio 2005 Team System 进行单元测试并生成用于 Unit Test Framework 的源代码...

    PS:微软专家写的一往篇VSTS2005测试功能说明,非常详细.适合初学者查看. 适用于: Microsoft Visual Studio 2005 Team System Beta 2 Team A ...

  8. 云小课 | 一个三分钟快速定制OCR应用的神器,要不?

    摘要:ModelArts Pro提供了文字识别套件,基于丰富的文字识别算法和行业知识积累,帮助客户快速构建满足不同业务场景需求的文字识别服务.三分钟即可快速定制OCR服务,实现多种版式图像的文字信息结 ...

  9. 转载文章-【工具】10分钟快速搭建属于自己的文档网站-来自掘金

    掘金 首页 探索掘金 搜索 lvhanghmm的头像 Gopal lv-4 2021年03月09日 阅读 9930 关注 [工具]10分钟快速搭建属于自己的文档网站 前言 很多同学都希望能够拥有自己的 ...

最新文章

  1. 不要痴迷蓝牙耳机了,出门选这个准没错,99W+人的选择
  2. SQL与NoSQL区别-扩展方式
  3. 计算机办公知识考试,电脑办公系统基础知识考试试题
  4. python-常用函数模块学习-subprocess
  5. 【转】VC窗口刷新InvalidateRect和UpdateWindow RedrawWindow
  6. 评估应用使用oracle磁盘空间,Oracle磁盘空间使用统计
  7. 安装和配置VNC服务器的法则
  8. 前端性能测试--启动时间监控数值获取方法
  9. 论文都看不懂,你还搞什么人工智能?
  10. 解决Ubuntu 9.04无线网络的不稳定问题-转
  11. 如何在VS2013中隐藏引用计数?
  12. UVA148 ZOJ1166 Anagram checker【DFS】
  13. 【codevs1048】石子归并
  14. Android -- 背景虚化
  15. pdf阅读,保存上次阅读位置
  16. 智伴机器人wifi键在哪里_智伴机器人连不上WiFi
  17. 模拟器:思科 给路由器配置IP地址和子网掩码
  18. Ubuntu 安装之后无法连接网络问题
  19. 余压监控系统保证火灾发生时消防疏散通道的通畅,为大型高层建筑的安全运行和人民生命财产安全保驾护航
  20. flash花屏 html,Flash中轻松制作电视花屏闪屏的效果

热门文章

  1. 利用InfoPath实现SharePoint Server 2013列表的级联选择(Cascading Drop Down List)
  2. HOJ 1991 Happy 2005 HOJ 2635 Weights 快速幂
  3. (自已看的东西)java通过get和post直接提交
  4. Windows核心编程 第2 5章 未处理异常和C ++异常(上)
  5. 虚拟桌面模拟查找点击自绘控件
  6. LA3708墓地雕塑
  7. 【错误记录】Groovy 注入方法报错 ( Cannot add new method [hello] for arguments [[]]. It already exists )
  8. 【Android 事件分发】事件分发源码分析 ( ViewGroup 事件传递机制 六 )
  9. 【组合数学】排列组合 ( 多重集组合数示例 | 三个计数模型 | 选取问题 | 多重集组合问题 | 不定方程非负整数解问题 )
  10. 【Android 性能优化】应用启动优化 ( 启动白屏问题 | 应用启动时间测量 | 冷启动 | 热启动 | 应用启动时间计算源码分析 )