能提取HTML网页正文的网站,智能提取网页正文新方法
一、基于中文标点符号和HTML 树
结构的网页正文信息抽取方法H TML
( hyper text markup language) 是超文本标记语言, 是基于标准通用标记语言(SGML) 的一个庞大的文档处理系统. SGML 的基本思想是采用描述标记( Tag) 来提供描述文档结构的附加信息. HTML 利用SGML 定义了一些标记,如、
等,用于描述文本的显示方式,并对这些标记的使用都做了格式定义,对于实体符号的显示和标记元素的结构也做了规范,使得HTML 网页在文本格式和结构上存在一定的规律,也为网页信息的提取提供了方便.
1. 1 中文标点符号在网页中的分布特征
网页可以分成两类:一类是导航型网页,该网页主要是超链接导航信息,如各种门户网站;另一类是正文型网页,是指包含有主题内容的网页. 本文只对正文型网页进行处理,因为导航型网页含有大量的超链接,很容易被处理和识别. 本文将正文网页划分为5 个部分:网页导航信息、网页正文、内容相关链接、内容不相关链接以及版权信息. 选取10 个不同的门户网站,如新浪、网易、搜狐等,每个网站随机选取10 个正文型网页,以统计中文标点符号在网页正文中出现的次数N1 和在网页页面中出现的次数N2 .由表1 可见,约有96 %的中文句号出现在网页正文中,是所有中文标点符号中分布最高的. 究其原因,主要在于网页正文部分大多由一个个句子组成,所以句号出现比较多;导航信息大多是两字短语;链接部分一般都取自所链接文章的标题,标题中一般不会出现句号;版权部分也基本都没有成行的句子,所以句号较少.
由此可见,使用中文标点符号,尤其是句号,可以作为网页正文区别于其他部分的特征.
1. 2 网页内容结构化表示
HTML 文件是自描述的半结构化数据,数据的结构和内容混在一起,没有明显的区分;它们具有一定的结构性,但这些结构化的信息并没有提供足够的语义信息. 由于半结构化的数据很难被应用程序直接使用,为了从HTML 文件中提取信息,必须先将其结构化.一般情况下, HTML 元素相互嵌套,因此最适合用树型结构存放. 但由于HTML 元素并不完全递归嵌套,允许有交叉的情况,而且有些元素可以没有结束标记,在将H TML 文件组织成树型结构之前,需要先规整化,使其元素完全递归嵌套 . 规范化的要求如下:
(1)“”只能用来包含网页标记,当在其他地方出现这两个符号时应该用“ < ;”和“> ;”代替.
(2) 所有的标记必须匹配,即每个开始标记都对应一个结束标记.
(3) 所有标记的属性值都必须放在引号中,如
(4) 所有的标记必须是正确嵌套的. 如 A> B>是不正确的嵌套,正确的嵌套形式应该是
(5) 由于文字内容有可能被修饰标记如等标记隔断,为保持数据内容与修饰标记的顺序性,需要增加自定义标记〈text〉来嵌套文字内容.
在规范化之前,可以先删除
、
能提取HTML网页正文的网站,智能提取网页正文新方法相关推荐
- dw网页设计期末设计一个网页_制作网站与设计网页可以用什么软件?
网站制作确实是项技术活,要不然怎么一个前端设计师工资都可以到6-7K呢,早在读书时代稍有爱好网页设计时就听说过网页三剑客. 网页三剑客 网页三剑客,是一套强大的网页编辑工具,最初是由Macromedi ...
- 访问Oracle em https https://localhost:1158/em 报访问网页提示此网站的安全证书有问题解决方法
访问Oracle em https https://localhost:1158/em 报访问网页提示此网站的安全证书有问题 因为ie10.ie11等对不安全的链接,管理更加严格,低安全级别,不能解决 ...
- 面向星际争霸:DeepMind 提出多智能体强化学习新方法
不久前 DeepMind 强化学习团队负责人.AlphaGo 项目负责人现身 Reddit 问答,其中一个问题是「围棋和星际争霸 2 哪个更难?潜在技术障碍是什么?」近日,DeepMind 发表论文, ...
- 网页上的图片怎么提取出来_如何在网站上提取图片素材
不知道你们有没有遇到这种情况,在上午的过程中看见了一些比较看到的照片素材,想要右键保存一下发现保存不了:看见一个网站的网站大图很漂亮,想扣出来保存一下,发现点击不到自己想看的图片. 这篇教程也许可以帮 ...
- 搭建可视化网页的software package_网页制作与网站搭建步骤教程
原标题:网页制作与网站搭建步骤教程 现代建设网站,只需要一个鸣蝉建站系统的账号,注册一个账号直接用网站模板建站,基本上几十秒就可以做出网站的雏形,随后再添加相关的产品信息和内容,即可建成网站. 鸣蝉智 ...
- excel智能提取_Excel智能艺术家谱
excel智能提取 How far back can you trace your family tree? Prof. Lee Townsend, from University of Hartfo ...
- 期末作业成品代码——绿色的餐饮美食网站(1页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码
HTML5期末大作业:餐饮美食网站设计--绿色的餐饮美食网站(1页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码 常见网页设 ...
- “校园舆情监测系统”网站设计及网页编辑总结
"校园舆情监测系统"网站设计及网页编辑总结 这是很早之前,13年左右在做舆情系统前端时写的一些总结,现在放到博客上,以防丢失. 后端使用Django Web 框架. 前端使用dja ...
- php网站的构成,HTML_HTML网页的基本组成概述,网页中的信息主要是以文本为 - phpStudy...
HTML网页的基本组成概述 网页中的信息主要是以文本为主的.在网页中可以通过字体.大小.颜色.底纹.边框等来设置文本的属性.这里指的文字是文本文字,而并非图片中的文字.在网页制作中,文字都可以方便地设 ...
最新文章
- 可微偏导数一定存在_数学分析复习——偏导数(1)
- WMI技术介绍和应用——查询系统服务
- 江西省移动物联网发展战略新闻发布会举行-2017年10月江西IDC排行榜与发展报告...
- redis设置主从复制-slave Replication--解决报错:(error) READONLY You can't write against a read only slave.
- redis主从复制下哨兵模式---选举原理
- 5G NR — 射频系统
- python个人博客源码_我的使用Sanic的个人博客源码开源了!
- excel不能插入activex控件_办公小技巧:制作更炫酷的Excel下拉菜单
- Linux vim的w,q,!,/
- Caffe2 Compilation Error gflags.cc' is being linked both statically and dynamically into this execut
- GPIO应用开发方法【ZT】
- 为什么this()和super()必须是构造函数中的第一条语句?
- sql server 本地复制订阅 实现数据库服务器 读写分离
- NRF24L01详解
- 多级联动下拉菜单 支持中英文检索
- C++通过生日判断星座
- range在python中什么意思_python中range什么意思?
- Unity游戏动画 从入门到住院:动画状态机
- What is the Softmax Function?详解机器学习中的Softmax函数【小白菜可懂】
- 怎么用xmind做读书笔记