正则表达式与html信息提取,基于正则表达式的HTML信息提取.pdf
基于正则表达式的HTML信息提取
文章编号 :1003—5850(2012)04·0044—03
基于正则表达式的HTML信息提取
李文华,杨亚仿 ,吴 昊
(长江大学计算机科学学院,湖北 荆州 434023)
摘 要:在实际应用中经常需要分析Web页面的源代码,对HTML标记进行分析提取有用的数据。研究了如何利用正则表达
式获取常见的HTML标记内容 ,实现了对 HTML信息的定制提取,并以如何抓取一个学生成绩表的数据信息为例介绍了其实现
过程 。
关键词:正则表达式,HTML,信息提取
中图分类号:TP311 文献标识码:A
TheHTM L Information Extraction Based on RegularExpressions
LIW en—hua,YANG Ya-fang,W uHao
(CollegeofComputerScience,YangtzeUniversity,Jingzhou434023,China)
Abstract:Under theactualapplication,we need to analyse source code ofweb and extractuseful
informationfrom htmltags.Thepaperresearchedhow togetcommonhtmltagcontentbyregularexpressions,
realized toextractcustom htmltag information,and took grabingastudentscoredataasan exampleto
illustratetheimplementationprocess.
Keywords:regularexpressions,HTM L,informationextraction
如何从Web页面定制提取数据是当前信息研究
的热点之一。大部分的Web页面内容由HTML标记 1 正则表达式
组成 ,少数 web页面基于XML标记。无论基于哪一
正则表达式是用来进行文本匹配的工具 。通配符
种标记 ,Web页面 内容都遵循一定的标记规则和模
就是最简单的正则表达式 ,只不过比起通配符,它能更
式。很多学者已经研究了各种各样的网页信息抽取包
精确地描述文本匹配的模式。如复杂用户名检测、密码
装器[ ,这些包装器能分析指定的Web页面。通过其
复杂度判断以及邮箱名等,它广泛应用在处理各种复
白定义的算法生成并存储抽取规则供应用程序使用,
杂字符串规则的程序中。
但包装器生成的规则总不能尽如人意,需要加以改进 ,
正则表达式是由普通字符和特殊字符 (称为元字
而且这些规则并不是适合每一种程序开发语言。
符)组成的文字模式。普通字符包括单词字符a-z,数字
正则表达式(regularexpression)描述 了一种字符
0-9,底划线正则表达式作为一个模板 ,将某个字符模
串匹配的模式,可以用来检查一个串是否含有某种子
式与所搜索的字符串进行匹配。本文中用到的元字符
串、将匹配的子串做替换或者从某个串中取出符合某
如下页表 1C。.5]所示 。
个条件的子串等 。它非常适合用于查找、匹配
正则表达式与html信息提取,基于正则表达式的HTML信息提取.pdf相关推荐
- java 文本查找_Java基于正则表达式实现查找匹配的文本功能【经典实例】
本文实例讲述了Java基于正则表达式实现查找匹配的文本功能.分享给大家供大家参考,具体如下: REMatch.java: package reMatch; import java.util.regex ...
- Spring Aop(九)——基于正则表达式的Pointcut
基于正则表达式的Pointcut JdkRegexpMethodPointcut Spring官方为我们提供了一个基于正则表达式来匹配方法名的Pointcut,JdkRegexpMethodPoint ...
- 基于正则表达式(python)对东方财富网上证指数吧爬虫实例
这一周没有写博客,倒腾了好几天gitlab,白天一直在写爬虫,遇到了很多问题,一一解决了 这个爬虫目的是从东方财富网的 上证指数吧 爬取一天的所有发帖 http://guba.eastmoney.co ...
- python爬虫实战 获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式 二.确定页面内容 爬虫地址:https://movie.douban.co ...
- java 正则表达式 电话_Java读取文件及基于正则表达式的获取电话号码功能详解...
本文实例讲述了Java读取文件及基于正则表达式的获取电话号码功能.分享给大家供大家参考,具体如下: 1.正则表达式 正则表达式,又称 正规表示法 . 常规表示法 (英语:Regular Express ...
- python 法律检索_Python基于正则表达式实现检查文件内容的方法【文件检索】
本文实例讲述了Python基于正则表达式实现检查文件内容的方法分享给大家供大家参考,具体如下: 这个是之前就在学python,欣赏python的小巧但是功能强大,是连电池都自带的语言.平时工作中用Ja ...
- JAVA编写的基于正则表达式的SNL词法分析器
JAVA编写的基于正则表达式的SNL词法分析器 主要思想是利用正则表达式将SNL代码依次分辨提取为TOKEN序列 我先把我使用的例子举出来 program p type t1 = integer; v ...
- 基于正则表达式的词行词法分析|自然语言处理
目录 1.任务一:邮箱地址和网址提取 1.1任务描述 1.2代码 2.任务二:密码提取 2.1任务描述 2.2代码 1.任务一:邮箱地址和网址提取 1.1任务描述 ∙ \bullet ∙ 实现基于正则 ...
- php 正则表达式 文档,php的正则表达式完全手册
php的正则表达式完全手册 更新时间:2011年02月06日 17:12:49 作者: 正则表达式是烦琐的,但是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感.只要认真去阅读这 ...
最新文章
- 【嵌入式】C语言高级编程-内联函数(10)
- kafka 运行一段时间报错Too many open files
- 安卓9 webview打开指定url报错或者空白
- node.js抓取数据(fake小爬虫)
- eclipse里面自动添加get和set方法
- AcWing 851. spfa求最短路(解决负边权最短路)
- 阶段1 语言基础+高级_1-3-Java语言高级_06-File类与IO流_04 IO字节流_12_练习_文件复制...
- ASP.NET MVC diyUpload上传文件!
- 啃完999页Java面试高频宝典,最新整理
- 五子棋项目结束总结_五子棋比赛活动总结
- 《指弹:The Sprinter》
- Openstack rocky 部署四: neutron 部署与验证(控制节点)
- 基于面部视频的实时心率检测系统 day four
- DestroyWindow无法销毁的问题
- vue项目 使用百度云 cyberplayer.js插件方法
- Service层在分层中的作用
- 2020年总结:平安辞旧岁,老牛自奋蹄!
- sql查询大于平均得分的球员的名字和得分,并追加显示平均得分的列
- c++中fabs()和abs()的区别
- js 下载Base64格式数据图片(兼容主流浏览器)
热门文章
- LeetCode C语言刷题——day2
- 基于生命周期理论的农业科学数据中心化管理模式
- 踵事增华:新形势下如何高效撰写科技论文!
- 数据驱动的软件开发者智能协作技术
- 作者:刘建楠(1963-),男,就职于中国石油天然气股份有限公司庆阳石化分公司...
- 作者:张晴晴,山东农业大学硕士生。
- 【Python】AttributeError: module ‘numpy’ has no attribute ‘unit8’ 的解决方法
- 回文质数(洛谷P1217题题解,Java语言描述)
- 清空了回收站怎么找回?你没用过的方法
- Live预告 | 地平线李星宇:智能汽车电子构架如何变革迎接数字化重塑?...