基于正则表达式的HTML信息提取

文章编号 :1003—5850(2012)04·0044—03

基于正则表达式的HTML信息提取

李文华,杨亚仿 ,吴 昊

(长江大学计算机科学学院,湖北 荆州 434023)

摘 要:在实际应用中经常需要分析Web页面的源代码,对HTML标记进行分析提取有用的数据。研究了如何利用正则表达

式获取常见的HTML标记内容 ,实现了对 HTML信息的定制提取,并以如何抓取一个学生成绩表的数据信息为例介绍了其实现

过程 。

关键词:正则表达式,HTML,信息提取

中图分类号:TP311 文献标识码:A

TheHTM L Information Extraction Based on RegularExpressions

LIW en—hua,YANG Ya-fang,W uHao

(CollegeofComputerScience,YangtzeUniversity,Jingzhou434023,China)

Abstract:Under theactualapplication,we need to analyse source code ofweb and extractuseful

informationfrom htmltags.Thepaperresearchedhow togetcommonhtmltagcontentbyregularexpressions,

realized toextractcustom htmltag information,and took grabingastudentscoredataasan exampleto

illustratetheimplementationprocess.

Keywords:regularexpressions,HTM L,informationextraction

如何从Web页面定制提取数据是当前信息研究

的热点之一。大部分的Web页面内容由HTML标记 1 正则表达式

组成 ,少数 web页面基于XML标记。无论基于哪一

正则表达式是用来进行文本匹配的工具 。通配符

种标记 ,Web页面 内容都遵循一定的标记规则和模

就是最简单的正则表达式 ,只不过比起通配符,它能更

式。很多学者已经研究了各种各样的网页信息抽取包

精确地描述文本匹配的模式。如复杂用户名检测、密码

装器[ ,这些包装器能分析指定的Web页面。通过其

复杂度判断以及邮箱名等,它广泛应用在处理各种复

白定义的算法生成并存储抽取规则供应用程序使用,

杂字符串规则的程序中。

但包装器生成的规则总不能尽如人意,需要加以改进 ,

正则表达式是由普通字符和特殊字符 (称为元字

而且这些规则并不是适合每一种程序开发语言。

符)组成的文字模式。普通字符包括单词字符a-z,数字

正则表达式(regularexpression)描述 了一种字符

0-9,底划线正则表达式作为一个模板 ,将某个字符模

串匹配的模式,可以用来检查一个串是否含有某种子

式与所搜索的字符串进行匹配。本文中用到的元字符

串、将匹配的子串做替换或者从某个串中取出符合某

如下页表 1C。.5]所示 。

个条件的子串等 。它非常适合用于查找、匹配

正则表达式与html信息提取,基于正则表达式的HTML信息提取.pdf相关推荐

  1. java 文本查找_Java基于正则表达式实现查找匹配的文本功能【经典实例】

    本文实例讲述了Java基于正则表达式实现查找匹配的文本功能.分享给大家供大家参考,具体如下: REMatch.java: package reMatch; import java.util.regex ...

  2. Spring Aop(九)——基于正则表达式的Pointcut

    基于正则表达式的Pointcut JdkRegexpMethodPointcut Spring官方为我们提供了一个基于正则表达式来匹配方法名的Pointcut,JdkRegexpMethodPoint ...

  3. 基于正则表达式(python)对东方财富网上证指数吧爬虫实例

    这一周没有写博客,倒腾了好几天gitlab,白天一直在写爬虫,遇到了很多问题,一一解决了 这个爬虫目的是从东方财富网的 上证指数吧 爬取一天的所有发帖 http://guba.eastmoney.co ...

  4. python爬虫实战 获取豆瓣排名前250的电影信息--基于正则表达式

    一.项目目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式 二.确定页面内容 爬虫地址:https://movie.douban.co ...

  5. java 正则表达式 电话_Java读取文件及基于正则表达式的获取电话号码功能详解...

    本文实例讲述了Java读取文件及基于正则表达式的获取电话号码功能.分享给大家供大家参考,具体如下: 1.正则表达式 正则表达式,又称 正规表示法 . 常规表示法 (英语:Regular Express ...

  6. python 法律检索_Python基于正则表达式实现检查文件内容的方法【文件检索】

    本文实例讲述了Python基于正则表达式实现检查文件内容的方法分享给大家供大家参考,具体如下: 这个是之前就在学python,欣赏python的小巧但是功能强大,是连电池都自带的语言.平时工作中用Ja ...

  7. JAVA编写的基于正则表达式的SNL词法分析器

    JAVA编写的基于正则表达式的SNL词法分析器 主要思想是利用正则表达式将SNL代码依次分辨提取为TOKEN序列 我先把我使用的例子举出来 program p type t1 = integer; v ...

  8. 基于正则表达式的词行词法分析|自然语言处理

    目录 1.任务一:邮箱地址和网址提取 1.1任务描述 1.2代码 2.任务二:密码提取 2.1任务描述 2.2代码 1.任务一:邮箱地址和网址提取 1.1任务描述 ∙ \bullet ∙ 实现基于正则 ...

  9. php 正则表达式 文档,php的正则表达式完全手册

    php的正则表达式完全手册 更新时间:2011年02月06日 17:12:49   作者: 正则表达式是烦琐的,但是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感.只要认真去阅读这 ...

最新文章

  1. 【嵌入式】C语言高级编程-内联函数(10)
  2. kafka 运行一段时间报错Too many open files
  3. 安卓9 webview打开指定url报错或者空白
  4. node.js抓取数据(fake小爬虫)
  5. eclipse里面自动添加get和set方法
  6. AcWing 851. spfa求最短路(解决负边权最短路)
  7. 阶段1 语言基础+高级_1-3-Java语言高级_06-File类与IO流_04 IO字节流_12_练习_文件复制...
  8. ASP.NET MVC diyUpload上传文件!
  9. 啃完999页Java面试高频宝典,最新整理
  10. 五子棋项目结束总结_五子棋比赛活动总结
  11. 《指弹:The Sprinter》
  12. Openstack rocky 部署四: neutron 部署与验证(控制节点)
  13. 基于面部视频的实时心率检测系统 day four
  14. DestroyWindow无法销毁的问题
  15. vue项目 使用百度云 cyberplayer.js插件方法
  16. Service层在分层中的作用
  17. 2020年总结:平安辞旧岁,老牛自奋蹄!
  18. sql查询大于平均得分的球员的名字和得分,并追加显示平均得分的列
  19. c++中fabs()和abs()的区别
  20. js 下载Base64格式数据图片(兼容主流浏览器)

热门文章

  1. LeetCode C语言刷题——day2
  2. 基于生命周期理论的农业科学数据中心化管理模式
  3. 踵事增华:新形势下如何高效撰写科技论文!
  4. 数据驱动的软件开发者智能协作技术
  5. 作者:刘建楠(1963-),男,就职于中国石油天然气股份有限公司庆阳石化分公司...
  6. 作者:张晴晴,山东农业大学硕士生。
  7. 【Python】AttributeError: module ‘numpy’ has no attribute ‘unit8’ 的解决方法
  8. 回文质数(洛谷P1217题题解,Java语言描述)
  9. 清空了回收站怎么找回?你没用过的方法
  10. Live预告 | 地平线李星宇:智能汽车电子构架如何变革迎接数字化重塑?...