这篇文章是对第四篇文章《知识管理系统Data Solution研发日记之四 片段式数据解决方案》的补充,提供一套完整的解决方案。请先阅读那一篇文章来了解它的原理。

Rule Editor抓取数据

这里,主要的工作是设定目标地址,正则表达式规则。我生活在深圳,对深圳的IT行业比较关注,所以经常看下面的地址,http://www.iteer.net/modules/xdirectory/viewcat.php?cid=217来了解深圳的IT公司现状。

经常想到把这些数据抓取到自己的电脑中,这也是制作Data Loader的一个原因。请设定一个测试的页面地址为http://www.iteer.net/modules/xdirectory/singlelink.php?cid=217&lid=2558,然后应用下面的正则表达式来抓取数据。

公司名称: <div\sclass="*company_title"*>(?<title>\w*)\s?<?

地址:</STRONG>(?<address>.*)\s*

规模:</STRONG>(?<count>.*)人

联系电话.* </STRONG>(?<tel>.*)\s*<br>?

传真.* </STRONG>(?<fax>.*)\s*<br>?

邮件 :Email.*</strong>.*mailto:(?<mail>\w*@.*)"

网站.*\s*</STRONG><A\s*href="(?<website>.*)"\s*target

评分:id=xspace-rates-tip>(?<rating>.*)</SPAN>

评论时间: class=comDateCaption>.*(?<time>\d{4}-\d{2}-\d{2})

这一步做好了,保存规则。再打开Segment Run来选择你需要运行的规则,后台启动分析下载程序。

Form Designer 设计数据呈现界面

这一节的内容,可以参考窗体设计器一章的主题,效果如下图所示

之后,打开Segment Explorer,浏览运行这个窗体。可以轻松的实现以自定义的方式浏览数据。

Data Explorer 数据导出

当您对数据的内容感兴趣后,您可能会想到把这些数据导出系统,以做进一步的加工处理。Data Explorer则可以达到这个目的,实现在数据的导出功能。导出格式为Excel和Xml。请看下图

在Setting中配置连接字符串,第一行的右边则显示这个连接字符串下面的表,选择你需要的表数据,显示数据。

最右下角有两个按钮,Export Xls和Export Xml用于实现导出数据。

在这里,还有一个复杂的功能正在开发中。当您在Grid中点击一笔数据时,它应该可以弹出一个窗体,这个窗体就是前面的Form Designer中设计的窗体,并且把数据传递到这个新窗体中,以Detail明细的方式显示数据,像这样的效果

在前面显示的窗体,以自定义窗体的方式显示出来。这样做出来,即可以用Data Explorer以网格形式显示数据,如果对明细感兴趣,又可以以单一窗体的形式显示数据。这两者的结合,我以为是数据呈现的最佳方式。

通过对这几个应用程序组的学习,您应该对数据的抓取,呈现,导出有了完整的认识。这就是我设计片断式数据的处理流程。它达到的效果,可以很轻松的对数据进行再加工,再处理,而不仅仅是限于下载。

请到epn.codeplex.com(http://epn.codeplex.com/releases/view/68647)中下载最新版的Data Loader。

转载于:https://www.cnblogs.com/JamesLi2015/archive/2011/11/18/2254216.html

知识管理系统Data Solution研发日记之十二 网页数据抓取Fetch,呈现Render,导出Export...相关推荐

  1. 知识管理系统Data Solution研发日记之六 窗体设计器

    知识管理系统Data Solution已经有五篇文章对它进行介绍,可以通过下面的连接,找到前面的文章 知识管理系统Data Solution研发日记之一 场景设计与需求列出 知识管理系统Data So ...

  2. 5.4UiPath数据抓取Data Scraping的介绍和使用

    UiPath数据抓取Data Scraping的介绍和使用 一.数据抓取(Data Scraping)的介绍 二.Data Scraping在UiPath中的使用 1.打开设计器,在设计库中新建一个S ...

  3. 风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量

    风控建模十二:数据淘金--如何从APP数据中挖掘出有效变量 1.常识知识 2.个例分析 3.分布排查 智能手机的诞生改变了人类的生活方式,智能手机所承载的功能日臻完善.强大,人们在衣.食.住.行.工作 ...

  4. python爬取数据总结_2020-10-23Python——网页数据爬取知识总结

    一.爬虫请求方法 1.模块名:urllib.resquest 2.导入的方式: import urllib.resquest from urllib import request 3.使用的方法 re ...

  5. [知识图谱实战篇] 一.数据抓取之Python3抓取JSON格式的电影实体

    前面作者讲解了很多知识图谱相关的原理知识,包括知识图谱相关技术.Neo4j绘制关系图谱等,但还是缺少一个系统全面的实例.为了加深自己对知识图谱构建的认识,为后续创建贵州旅游知识图谱打下基础,作者学习了 ...

  6. 《DAMA数据管理知识体系指南》读书笔记-第十二章(元数据管理)

    目录 一.前言 二.内容结构 三.主要内容 1.引言 2.活动 3.工具 4.方法 5.实施指南 6.元数据治理 四.思考与总结 一.前言 本文是<DAMA数据管理知识体系指南>第12章的 ...

  7. Leetcode刷题日记(十二)

    又是老台词:欢迎大家来到一晚一度的leetcode刷题日记时间.今天我们来讲讲队列的问题,队列这方面的基础知识需要的同学到博主前面的文章找吧.队列这方面的问题平时博主也是接触得比较少的.下面是一道利用 ...

  8. 我的日记 (第十二篇 忙而不乱?) 00:45 2007-11-8

    三个多月没写日记了,主要是因为太忙了!忙的有点累,以至于无法组织自己清晰的思路.不过这种"写"的情愫,在心头不断的凝结,好像在等待着量的集聚,集聚到某一刻度,去喷发,酣畅淋漓的. ...

  9. 企鹅日记(十二):磁盘配额(quota)

    磁盘配额(quota)比较常用的几个情况是: * 针对WWW server,例如:每个人的网页空间的容量限制 * 针对mail server,例如:每个人的邮件空间限制 * 针对file server ...

最新文章

  1. pycharm的安装与python解释器的安装,pip环境变量的配置要不然使用pip时报不是内部命令
  2. Linux下C语言程序的内存布局(内存模型)
  3. harbor pull 失败
  4. java串口发送16进制数据_MFC串口通信发送16进制数据的方法
  5. 重庆大学校友会计算机,资环学院联谊会隆重举行
  6. android material 颜色值,Android Material Colors 谷歌 Material Design 标准颜色
  7. 【转】记使用Kali linux 2.0的一些坑
  8. Linux 命令(84)—— id 命令
  9. wsimport命令讲解
  10. android之wifi开发
  11. Android 热修复的相关总结(主要是阿里百川的)
  12. 2019年老电脑E5450+硬改775 无故死机故障排除记录
  13. MybatisPlus的CRUD操作
  14. 2021年下半年软件设计师下午真题试题(案例分析)及答案
  15. 第三十二讲:循环思想(项目三十二:输出小星星图案)
  16. php网页通过鼠标画图,一个神奇的网站:三步秒速画图,一键鼠标发文章
  17. PPT突然不能翻页了
  18. 求两个三维向量的夹角(带正负)
  19. 博通wifi驱动详解(四)
  20. 【计算机网络】网络分层:五层或七层因特网协议栈

热门文章

  1. 前端学习(3300):三种usecontent的
  2. javascript学习系列(3):数组中的foreach方法
  3. Taro+react开发(2)--简介2
  4. 前端学习(2912):MvvM的实现原理
  5. [css] 使用css实现一个loading的效果
  6. 前端学习(2486):$emit
  7. 前端学习(1551):补充cloak
  8. 前端学习(1494):表格案例--axios-搜索功能
  9. 前端学习(616):变量的定义
  10. mybatis学习(21):MySQL 字符串 转换 CAST与CONVERT 函数的用法