知识管理系统Data Solution研发日记之十二 网页数据抓取Fetch,呈现Render,导出Export...
这篇文章是对第四篇文章《知识管理系统Data Solution研发日记之四 片段式数据解决方案》的补充,提供一套完整的解决方案。请先阅读那一篇文章来了解它的原理。
Rule Editor抓取数据
这里,主要的工作是设定目标地址,正则表达式规则。我生活在深圳,对深圳的IT行业比较关注,所以经常看下面的地址,http://www.iteer.net/modules/xdirectory/viewcat.php?cid=217来了解深圳的IT公司现状。
经常想到把这些数据抓取到自己的电脑中,这也是制作Data Loader的一个原因。请设定一个测试的页面地址为http://www.iteer.net/modules/xdirectory/singlelink.php?cid=217&lid=2558,然后应用下面的正则表达式来抓取数据。
公司名称: <div\sclass="*company_title"*>(?<title>\w*)\s?<?
地址:</STRONG>(?<address>.*)\s*
规模:</STRONG>(?<count>.*)人
联系电话.* </STRONG>(?<tel>.*)\s*<br>?
传真.* </STRONG>(?<fax>.*)\s*<br>?
邮件 :Email.*</strong>.*mailto:(?<mail>\w*@.*)"
网站.*\s*</STRONG><A\s*href="(?<website>.*)"\s*target
评分:id=xspace-rates-tip>(?<rating>.*)</SPAN>
评论时间: class=comDateCaption>.*(?<time>\d{4}-\d{2}-\d{2})
这一步做好了,保存规则。再打开Segment Run来选择你需要运行的规则,后台启动分析下载程序。
Form Designer 设计数据呈现界面
这一节的内容,可以参考窗体设计器一章的主题,效果如下图所示
之后,打开Segment Explorer,浏览运行这个窗体。可以轻松的实现以自定义的方式浏览数据。
Data Explorer 数据导出
当您对数据的内容感兴趣后,您可能会想到把这些数据导出系统,以做进一步的加工处理。Data Explorer则可以达到这个目的,实现在数据的导出功能。导出格式为Excel和Xml。请看下图
在Setting中配置连接字符串,第一行的右边则显示这个连接字符串下面的表,选择你需要的表数据,显示数据。
最右下角有两个按钮,Export Xls和Export Xml用于实现导出数据。
在这里,还有一个复杂的功能正在开发中。当您在Grid中点击一笔数据时,它应该可以弹出一个窗体,这个窗体就是前面的Form Designer中设计的窗体,并且把数据传递到这个新窗体中,以Detail明细的方式显示数据,像这样的效果
在前面显示的窗体,以自定义窗体的方式显示出来。这样做出来,即可以用Data Explorer以网格形式显示数据,如果对明细感兴趣,又可以以单一窗体的形式显示数据。这两者的结合,我以为是数据呈现的最佳方式。
通过对这几个应用程序组的学习,您应该对数据的抓取,呈现,导出有了完整的认识。这就是我设计片断式数据的处理流程。它达到的效果,可以很轻松的对数据进行再加工,再处理,而不仅仅是限于下载。
请到epn.codeplex.com(http://epn.codeplex.com/releases/view/68647)中下载最新版的Data Loader。
转载于:https://www.cnblogs.com/JamesLi2015/archive/2011/11/18/2254216.html
知识管理系统Data Solution研发日记之十二 网页数据抓取Fetch,呈现Render,导出Export...相关推荐
- 知识管理系统Data Solution研发日记之六 窗体设计器
知识管理系统Data Solution已经有五篇文章对它进行介绍,可以通过下面的连接,找到前面的文章 知识管理系统Data Solution研发日记之一 场景设计与需求列出 知识管理系统Data So ...
- 5.4UiPath数据抓取Data Scraping的介绍和使用
UiPath数据抓取Data Scraping的介绍和使用 一.数据抓取(Data Scraping)的介绍 二.Data Scraping在UiPath中的使用 1.打开设计器,在设计库中新建一个S ...
- 风控建模十二:数据淘金——如何从APP数据中挖掘出有效变量
风控建模十二:数据淘金--如何从APP数据中挖掘出有效变量 1.常识知识 2.个例分析 3.分布排查 智能手机的诞生改变了人类的生活方式,智能手机所承载的功能日臻完善.强大,人们在衣.食.住.行.工作 ...
- python爬取数据总结_2020-10-23Python——网页数据爬取知识总结
一.爬虫请求方法 1.模块名:urllib.resquest 2.导入的方式: import urllib.resquest from urllib import request 3.使用的方法 re ...
- [知识图谱实战篇] 一.数据抓取之Python3抓取JSON格式的电影实体
前面作者讲解了很多知识图谱相关的原理知识,包括知识图谱相关技术.Neo4j绘制关系图谱等,但还是缺少一个系统全面的实例.为了加深自己对知识图谱构建的认识,为后续创建贵州旅游知识图谱打下基础,作者学习了 ...
- 《DAMA数据管理知识体系指南》读书笔记-第十二章(元数据管理)
目录 一.前言 二.内容结构 三.主要内容 1.引言 2.活动 3.工具 4.方法 5.实施指南 6.元数据治理 四.思考与总结 一.前言 本文是<DAMA数据管理知识体系指南>第12章的 ...
- Leetcode刷题日记(十二)
又是老台词:欢迎大家来到一晚一度的leetcode刷题日记时间.今天我们来讲讲队列的问题,队列这方面的基础知识需要的同学到博主前面的文章找吧.队列这方面的问题平时博主也是接触得比较少的.下面是一道利用 ...
- 我的日记 (第十二篇 忙而不乱?) 00:45 2007-11-8
三个多月没写日记了,主要是因为太忙了!忙的有点累,以至于无法组织自己清晰的思路.不过这种"写"的情愫,在心头不断的凝结,好像在等待着量的集聚,集聚到某一刻度,去喷发,酣畅淋漓的. ...
- 企鹅日记(十二):磁盘配额(quota)
磁盘配额(quota)比较常用的几个情况是: * 针对WWW server,例如:每个人的网页空间的容量限制 * 针对mail server,例如:每个人的邮件空间限制 * 针对file server ...
最新文章
- pycharm的安装与python解释器的安装,pip环境变量的配置要不然使用pip时报不是内部命令
- Linux下C语言程序的内存布局(内存模型)
- harbor pull 失败
- java串口发送16进制数据_MFC串口通信发送16进制数据的方法
- 重庆大学校友会计算机,资环学院联谊会隆重举行
- android material 颜色值,Android Material Colors 谷歌 Material Design 标准颜色
- 【转】记使用Kali linux 2.0的一些坑
- Linux 命令(84)—— id 命令
- wsimport命令讲解
- android之wifi开发
- Android 热修复的相关总结(主要是阿里百川的)
- 2019年老电脑E5450+硬改775 无故死机故障排除记录
- MybatisPlus的CRUD操作
- 2021年下半年软件设计师下午真题试题(案例分析)及答案
- 第三十二讲:循环思想(项目三十二:输出小星星图案)
- php网页通过鼠标画图,一个神奇的网站:三步秒速画图,一键鼠标发文章
- PPT突然不能翻页了
- 求两个三维向量的夹角(带正负)
- 博通wifi驱动详解(四)
- 【计算机网络】网络分层:五层或七层因特网协议栈
热门文章
- 前端学习(3300):三种usecontent的
- javascript学习系列(3):数组中的foreach方法
- Taro+react开发(2)--简介2
- 前端学习(2912):MvvM的实现原理
- [css] 使用css实现一个loading的效果
- 前端学习(2486):$emit
- 前端学习(1551):补充cloak
- 前端学习(1494):表格案例--axios-搜索功能
- 前端学习(616):变量的定义
- mybatis学习(21):MySQL 字符串 转换 CAST与CONVERT 函数的用法