一、基于中文标点符号和HTML 树

结构的网页正文信息抽取方法H TML

( hyper text markup language) 是超文本标记语言, 是基于标准通用标记语言(SGML) 的一个庞大的文档处理系统. SGML 的基本思想是采用描述标记( Tag) 来提供描述文档结构的附加信息. HTML 利用SGML 定义了一些标记,如、

等,用于描述文本的显示方式,并对这些标记的使用都做了格式定义,对于实体符号的显示和标记元素的结构也做了规范,使得HTML 网页在文本格式和结构上存在一定的规律,也为网页信息的提取提供了方便.

1. 1  中文标点符号在网页中的分布特征

网页可以分成两类:一类是导航型网页,该网页主要是超链接导航信息,如各种门户网站;另一类是正文型网页,是指包含有主题内容的网页. 本文只对正文型网页进行处理,因为导航型网页含有大量的超链接,很容易被处理和识别. 本文将正文网页划分为5 个部分:网页导航信息、网页正文、内容相关链接、内容不相关链接以及版权信息. 选取10 个不同的门户网站,如新浪、网易、搜狐等,每个网站随机选取10 个正文型网页,以统计中文标点符号在网页正文中出现的次数N1 和在网页页面中出现的次数N2 .由表1 可见,约有96 %的中文句号出现在网页正文中,是所有中文标点符号中分布最高的. 究其原因,主要在于网页正文部分大多由一个个句子组成,所以句号出现比较多;导航信息大多是两字短语;链接部分一般都取自所链接文章的标题,标题中一般不会出现句号;版权部分也基本都没有成行的句子,所以句号较少.

由此可见,使用中文标点符号,尤其是句号,可以作为网页正文区别于其他部分的特征.

1. 2  网页内容结构化表示

HTML 文件是自描述的半结构化数据,数据的结构和内容混在一起,没有明显的区分;它们具有一定的结构性,但这些结构化的信息并没有提供足够的语义信息. 由于半结构化的数据很难被应用程序直接使用,为了从HTML 文件中提取信息,必须先将其结构化.一般情况下, HTML 元素相互嵌套,因此最适合用树型结构存放. 但由于HTML 元素并不完全递归嵌套,允许有交叉的情况,而且有些元素可以没有结束标记,在将H TML 文件组织成树型结构之前,需要先规整化,使其元素完全递归嵌套 . 规范化的要求如下:

(1)“”只能用来包含网页标记,当在其他地方出现这两个符号时应该用“ &lt ;”和“&gt ;”代替.

(2) 所有的标记必须匹配,即每个开始标记都对应一个结束标记.

(3) 所有标记的属性值都必须放在引号中,如

(4) 所有的标记必须是正确嵌套的. 如 A> B>是不正确的嵌套,正确的嵌套形式应该是

(5) 由于文字内容有可能被修饰标记如等标记隔断,为保持数据内容与修饰标记的顺序性,需要增加自定义标记〈text〉来嵌套文字内容.

在规范化之前,可以先删除

能提取HTML网页正文的网站,智能提取网页正文新方法相关推荐

  1. dw网页设计期末设计一个网页_制作网站与设计网页可以用什么软件?

    网站制作确实是项技术活,要不然怎么一个前端设计师工资都可以到6-7K呢,早在读书时代稍有爱好网页设计时就听说过网页三剑客. 网页三剑客 网页三剑客,是一套强大的网页编辑工具,最初是由Macromedi ...

  2. 访问Oracle em https https://localhost:1158/em 报访问网页提示此网站的安全证书有问题解决方法

    访问Oracle em https https://localhost:1158/em 报访问网页提示此网站的安全证书有问题 因为ie10.ie11等对不安全的链接,管理更加严格,低安全级别,不能解决 ...

  3. 面向星际争霸:DeepMind 提出多智能体强化学习新方法

    不久前 DeepMind 强化学习团队负责人.AlphaGo 项目负责人现身 Reddit 问答,其中一个问题是「围棋和星际争霸 2 哪个更难?潜在技术障碍是什么?」近日,DeepMind 发表论文, ...

  4. 网页上的图片怎么提取出来_如何在网站上提取图片素材

    不知道你们有没有遇到这种情况,在上午的过程中看见了一些比较看到的照片素材,想要右键保存一下发现保存不了:看见一个网站的网站大图很漂亮,想扣出来保存一下,发现点击不到自己想看的图片. 这篇教程也许可以帮 ...

  5. 搭建可视化网页的software package_网页制作与网站搭建步骤教程

    原标题:网页制作与网站搭建步骤教程 现代建设网站,只需要一个鸣蝉建站系统的账号,注册一个账号直接用网站模板建站,基本上几十秒就可以做出网站的雏形,随后再添加相关的产品信息和内容,即可建成网站. 鸣蝉智 ...

  6. excel智能提取_Excel智能艺术家谱

    excel智能提取 How far back can you trace your family tree? Prof. Lee Townsend, from University of Hartfo ...

  7. 期末作业成品代码——绿色的餐饮美食网站(1页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码

    HTML5期末大作业:餐饮美食网站设计--绿色的餐饮美食网站(1页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码 常见网页设 ...

  8. “校园舆情监测系统”网站设计及网页编辑总结

    "校园舆情监测系统"网站设计及网页编辑总结 这是很早之前,13年左右在做舆情系统前端时写的一些总结,现在放到博客上,以防丢失. 后端使用Django Web 框架. 前端使用dja ...

  9. php网站的构成,HTML_HTML网页的基本组成概述,网页中的信息主要是以文本为 - phpStudy...

    HTML网页的基本组成概述 网页中的信息主要是以文本为主的.在网页中可以通过字体.大小.颜色.底纹.边框等来设置文本的属性.这里指的文字是文本文字,而并非图片中的文字.在网页制作中,文字都可以方便地设 ...

最新文章

  1. 可微偏导数一定存在_数学分析复习——偏导数(1)
  2. WMI技术介绍和应用——查询系统服务
  3. 江西省移动物联网发展战略新闻发布会举行-2017年10月江西IDC排行榜与发展报告...
  4. redis设置主从复制-slave Replication--解决报错:(error) READONLY You can't write against a read only slave.
  5. redis主从复制下哨兵模式---选举原理
  6. 5G NR — 射频系统
  7. python个人博客源码_我的使用Sanic的个人博客源码开源了!
  8. excel不能插入activex控件_办公小技巧:制作更炫酷的Excel下拉菜单
  9. Linux vim的w,q,!,/
  10. Caffe2 Compilation Error gflags.cc' is being linked both statically and dynamically into this execut
  11. GPIO应用开发方法【ZT】
  12. 为什么this()和super()必须是构造函数中的第一条语句?
  13. sql server 本地复制订阅 实现数据库服务器 读写分离
  14. NRF24L01详解
  15. 多级联动下拉菜单 支持中英文检索
  16. C++通过生日判断星座
  17. range在python中什么意思_python中range什么意思?
  18. Unity游戏动画 从入门到住院:动画状态机
  19. What is the Softmax Function?详解机器学习中的Softmax函数【小白菜可懂】
  20. 怎么用xmind做读书笔记

热门文章

  1. 个人电脑厂商艰难涉水家庭娱乐市场
  2. 关于更新windows10 软件乱码
  3. 爬虫:动态页面爬取Selenium
  4. 掌握web开发基础系列--物理像素、逻辑像素、css像素
  5. 使用deepin-emacs
  6. 银行卡识别-自动识别银行卡号
  7. JAVA操作xml文件
  8. 有哪些不错的电子书管理软件?免费项目管理软件推荐
  9. WPF DataGrid 隐藏列
  10. Lync 2010升级到Lync 2013之设定Lync Mobile!