最近在做网页信息提取这方面的,由于没接触过这系列的知识点,所以逛博客,看文档~~看着finallyly大神的博文和文档,边看边学习边总结~~

  • 对网站页面进行信息提取,需要进行页面解析,解析的方法有以下几种:

1、利用HTML标记的分布规律进行解析

2、利用HTML标记间的关系进行解析

3、利用页面的视觉特征进行解析

  需要人工不断地总结调整规则,需要的规则往往比较多,一条规则的加入会对已经成功解析的网页产生影响。因此,保持规则集的一致性是一大难点。

4、利用TABLE标记的布局特性进行解析。比较常用。

  • 在对网页进行解析之前,需要对网页进行规范化处理。也就是,把HTML文档转换为XML文档。

    对HTML文档的整理主要是以下4个方面:

  (1)在除了网页标记tag外的其他地方出现“<”和“>”用&lt;和&gt;替换

  (2)所有标记的属性值放到引号中,如:<a href="http://www.baidu.com">

  (3)所有的标记都是匹配的。如:<div>…</div>

  (4)所有的标记都是正确嵌套的。

HTML规范化工具 -- HtmlParser

  HTML规范化的好处

  规范化的Html代码对一个网站有诸多好处,比如:改版方便、代码容易维护、代码量小、网站打开速度快、适合更多人群阅读等,这里就不一一列举。单从seo优化的角度看,规范化的Html代码更有利用搜索引擎排名。但是很多站长却没有认识到这一点,影响网站在搜索引擎上的排名。

关于XHTML的一些知识点

  • 给网页添加DOCTYPE

  什么是DOCTYPE?

  DOCTYPE是Document Type的简写,明白什么是DOCTYPE了吧!DOCTYPE就是文档类型,用来说明你的HTML或XHTML是什么版本,浏览器会根据您DOCTYPE中定义的DTD(Document Type Definition)来解释页面代码,可想而知,错误的DOCTYPE会出现什么结果。

  XHTML1.0为我们提供了三种DOCTYPE:

1 . 过渡型(Transitional)

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3c.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

2 . 严格型(Strict)

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">

3 . 框架型(Frameset)

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Frameset//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-frameset.dtd">

  过渡型兼容表格、标识等,对于初学者来说,选择过渡型就可以啦!

  • 设定一个名字空间

在DOCTYPE后面添加如下代码即可:
<html xmlns="http://www.w3.org/1999/xhtml">
Xmlns是XHTML namespace的简写,叫做“名字空间”,通常我们的网页只有<html>,这里为什么会出现xmlns呢?名字空间就是给文档做一个标识,说明这个文档规范是属于谁的。明白了吗?不明白就Pass。

  • 声明语言编码

简体中文网站可定义为:
<meta http-equiv="Content-Type" content="text/html; charset=gb2312"/>
英文网站可定义为:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>

  • <Head></Head>之间的其他设置

1 . 收藏夹小图标

制作一个16*16的ico图标,命名为favicon.ico,放到网站根目录下,然后把下面的代码放到<Head></Head>之间即可。
<link rel="icon" href="/favicon.ico" type="image/x-icon"/>
<link rel="shortcut icon" href="/favicon.ico" type="image/x-icon"/>

2 . 作者与版权信息

<meta name="author" content="hxstream "/>
<meta name="copyright" content="www.cnblogs.com,版权所有"/>

3 . 站点介绍

<meta name="description" content="简介" />

4 . 站点关键词

<meta content="搜索引擎优化,seo" name="keywords"/>

  • 关闭所有的标签

打开的标签必须关闭,例如<p>www.seo168.com</p>,当然还有一种关闭方式,如:<br/>

  • 属性值用“”括起来

例如:<img height= "80 "……/>

  • 给所有的属性赋值

不正确的写法:<input …… checked/>
正确的写法为:<input …… checked= "checked"/>

  • 所有的XHTML元素及其属性名称用小写

XHTML是大小写敏感的
错误的写法为:<TITLE>www.seo168.com</TITLE>
标准的写法为:<title>www.seo168.com</title>

  • 标签要合理嵌套

不正确的写法:<div><h1>www.seo168.com</div></h1>
正确的写法为:<div><h1>www.seo168.com</h1></div>

  • 特殊字符用编码标识

如 " <" 用 "&lt;"表示," >" 用 "&gt;"表示。

  • 为图片增加alt属性

alt属性指定了当图片不能显示的时候就显示供替换文本。
如:<img src="data:images/logo.gif" alt="seo168为您服务"/>

  • 用结构化的元素输出内容

例如:你想输入三行文本,可以用:
www.seo168.com<br/>www.seo168.com<br/>www.seo168.com
我建议用下面的方式代替上面的方式:
<ul>
<li>www.seo168.com</li>
<li>www.seo168.com</li>
<li>www.seo168.com</li>
</ul>

附录一:相关链接

  • SEO168    http://www.seo168.com/
  • http://www.cnblogs.com/finallyliuyu/archive/2010/03/20/1690367.html

附录二:特殊字符编码表

字符 十进制 字符编号 实体名字
  --- Unuse
Space   --- 空格键
---  惊叹号Exclamation mark
" ;  &quot;  双引号Quotation mark
---  数字标志Number sign
---  美元标志Dollar sign
---  百分号Percent sign
&amp;  Ampersand
---  单引号Apostrophe
---  小括号左边部分Left parenthesis
---  小括号右边部分Right parenthesis
---  星号Asterisk
---  加号Plus sign
---  逗号Comma
---  连字号Hyphen
---  句号Period (fullstop)
---  斜杠Solidus (slash)
0 ---  数字0 Digit 0
1 ---  数字1 Digit 1
2 ---  数字2 Digit 2
3 ---  数字3 Digit 3
4 ---  数字4 Digit 4
5 ---  数字5 Digit 5
6 ---  数字6 Digit 6
7 ---  数字7 Digit 7
8 ---  数字8 Digit 8
9 ---  数字9 Digit 9
---  冒号Colon
---  分号Semicolon
&lt;  小于号Less than
---  等于符号Equals sign
&gt;  大于号Greater than
---  问号Question mark
---  Commercial at
---  大写A Capital A
---  大写B Capital B
C ;  ---  大写C Capital C
---  大写D Capital D
---  大写E Capital E
---  大写F Capital F
---  大写G Capital G
---  大写H Capital H
---  大写J Capital I
---  大写K Capital J
---  大写L Capital K
---  大写K Capital L
---  大写M Capital M
---  大写N Capital N
---  大写O Capital O
---  大写P Capital P
---  大写Q Capital Q
---  大写R Capital R
---  大写S Capital S
---  大写T Capital T
U ;  ---  大写U Capital U
---  大写V Capital V
---  大写W Capital W
X ;  ---  大写X Capital X
---  大写Y Capital Y
---  大写Z Capital Z
---  中括号左边部分Left square bracket
---  反斜杠Reverse solidus (backslash )
---  中括号右边部分Right square bracket
^ ;  ---  Caret
---  下划线H orizontal bar (underscore)
---  尖重音符Acute accent
a ;  ---  小写a Small a
---  小写b Small b
---  小写c Small c
---  小写d Small d
---  小写e Small e
---  小写f Small f
---  小写g Small g
---  小写h Small h
---  小写i Small i
---  小写j Small j
---  小写k Small k
---  小写l Small l
---  小写m Small m
---  小写n Small n
---  小写o Small o
p ;  ---  小写p Small p
q ;  ---  小写q Small q
---  小写r Small r
---  小写s Small s
---  小写t Small t
u ;  ---  小写u Small u
---  小写v Small v
---  小写w Small w
---  小写x Small x
---  小写y Small y
---  小写z Small z
---  大括号左边部分Left curly brace
---  竖线Vertical bar
---  大括号右边部分Right curly brace
---  Tilde
---    ---  未使用Unused
     &nbsp;  空格Nonbreaking space
¡  ¡  &iexcl;  Inverted exclamation
¢  ¢  &cent;  货币分标志Cent sign
£  £  &pound;  英镑标志Pound sterling
¤  ¤  &curren ;  通用货币标志General currency sign
¥  ¥  &yen;  日元标志Yen sign
¦  ¦  &brvbar; or &brkbar;  断竖线Broken vertical bar
§  §  &sect;  分节号Section sign
¨  ¨  &uml ; or &die;  变音符号Umlaut
©  ©  &copy ;  版权标志Copyright
ª  ª  &ordf ;  Feminine ordinal
«  «  &laquo;  Left angle quote, guillemet left
¬  ¬  &not  Not sign
­  ­  &shy;  Soft hyphen
®  ®  &reg;  注册商标标志Registered trademark
¯  ¯  &macr; or &hibar ;  长音符号Macron accent
°  °  &deg ;  度数标志Degree sign
±  ±  &plusmn ;  加或减Plus or minus
²  ²  &sup2;  上标2 Superscript two
³  ³  &sup3 ;  上标3 Superscript three
´  ´  &acute;  尖重音符Acute accent
µ  µ  &micro;  Micro sign
¶  ¶  &para;  Paragraph sign
·  ·  &middot;  Middle dot
¸  ¸  &cedil ;  Cedilla
¹  ¹  &sup1;  上标1 Superscript one
º  º  &ordm;  Masculine ordinal
»  » ;  &raquo ;  Right angle quote, guillemet right
¼  ¼  &frac14 ;  四分之一Fraction one-fourth
½  ½  &frac12;  二分之一Fraction one-half
¾  ¾  &frac34;  四分之三Fraction three-fourths
¿  ¿  &iquest;  Inverted question mark
À  À ;  &Agrave ;  Capital A, grave accent
Á  Á  &Aacute;  Capital A , acute accent
    &Acirc;  Capital A , circumflex
à à &Atilde;  Capital A, tilde
Ä  Ä ;  &Auml;  Capital A, di?esis / umlaut
Å  Å  &Aring;  Capital A, ring
Æ  Æ  &AElig;  Capital AE ligature
Ç  Ç  &Ccedil;  Capital C, cedilla
È  È  &Egrave;  Capital E, grave accent
É  É ;  &Eacute;  Capital E, acute accent
Ê  Ê  &Ecirc ;  Capital E, circumflex
Ë  Ë  &Euml;  Capital E, di?esis / umlaut
Ì  Ì  &Igrave;  Capital I, grave accent
Í  Í  &Iacute ;  Capital I, acute accent
Π Π &Icirc ;  Capital I, circumflex
Ï  Ï ;  &Iuml;  Capital I , di?esis / umlaut
Р Р &ETH;  Capital Eth, Icel andic
Ñ  Ñ ;  &Ntilde;  Capital N , tilde
Ò  Ò  &Ograve;  Capital O, grave accent
Ó  Ó ;  &Oacute;  Capital O , acute accent
Ô  Ô  &Ocirc;  Capital O, circumflex
Õ  Õ  &Otilde;  Capital O, tilde
Ö  Ö  &Ouml;  Capital O, di?esis / umlaut
×  ×  &times;  乘号Multiply sign
Ø  Ø  &Oslash;  Capital O, slash
Ù  Ù  &Ugrave;  Capital U, grave accent
Ú  Ú  &Uacute;  Capital U, acute accent
Û  Û  &Ucirc;  Capital U, circumflex
Ü  Ü  &Uuml;  Capital U, di?esis / umlaut
Ý  Ý  &Yacute ;  Capital Y, acute accent
Þ  Þ  &TH ORN ;  Capital Thorn, Icel andic
ß  ß  &szlig ;  Small sharp s, German sz
à  à  &agrave ;  Small a, grave accent
á  á  &aacute;  Small a, acute accent
â  â  &acirc;  Small a, circumflex
ã  ã  &atilde;  Small a, tilde
ä  ä  &auml;  Small a , di?esis / umlaut
å  å  &aring;  Small a, ring
æ  æ  &aelig;  Small ae ligature
ç  ç  &ccedil;  Small c, cedilla
è  è ;  &egrave;  Small e, grave accent
é  é ;  &eacute;  Small e, acute accent
ê  ê  &ecirc;  Small e, circumflex
ë  ë  &euml;  Small e, di?esis / umlaut
ì  ì  &igrave;  Small i, grave accent
í  í  &iacute;  Small i, acute accent
î  î  &icirc ;  Small i, circumflex
ï  ï  &iuml;  Small i, di?esis / umlaut
ð  ð  &eth;  Small eth, Icelandic
ñ  ñ  &ntilde;  Small n, tilde
ò  ò  &ograve;  Small o, grave accent
ó  ó ;  &oacute;  Small o, acute accent
ô  ô ;  &ocirc;  Small o, circumflex
õ  õ  &otilde;  Small o , tilde
ö  ö  &ouml;  Small o, di?esis / umlaut
÷  ÷  &divide;  除号Division sign
ø  ø  &oslash;  Small o, slash
ù  ù  &ugrave;  Small u, grave accent
ú  ú  &uacute;  Small u, acute accent
û  û  &ucirc;  Small u, circumflex
ü  ü  &uuml ;  Small u, di?esis / umlaut
ý  ý  &yacute ;  Small y, acute accent
þ  þ  &thorn;  Small thorn, Icelandic
ÿ  ÿ  &yuml;  Small y, umlaut

转载于:https://www.cnblogs.com/lmei/p/3459886.html

爬虫技术 -- 基础学习(一)HTML规范化(附特殊字符编码表)相关推荐

  1. 计算机硬件技术心得,计算机硬件技术基础学习心得.doc

    计算机硬件技术基础学习心得 计算机硬件技术基础学习心得 大学计算机基础学习心得 大学计算机基础学习心得 计算机,即电脑,随着科学技术的发展,不断进行着更新发展.伴随着计算机走入人类生活,它已成为人们日 ...

  2. 软件技术基础学习心得

    我是一个软件工程师的初学者,刚刚学完软件技术基础,在此谈一下疑问和心得. 首先,我有一个疑问,软件工程师主要是干什么的.其中有一个老师曾说,把软件工程师学下来就有两个字,"网站"做 ...

  3. 系统学习金融数据挖掘 之爬虫技术基础(附源代码)(网页结构基础)

    个人公众号 yk 坤帝 后台回复 python金融基础 获取源代码 1. 爬虫基础1 - 网页结构基础 1.1 浏览器F12的运用,以及如何看网页源代码 首先安装谷歌浏览器:从官网https://ww ...

  4. 爬虫技术 -- 进阶学习(十)网易新闻页面信息抓取(htmlagilitypack搭配scrapysharp)...

    最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ...

  5. HCIP-7.0华为交换机技术基础学习

    交换机基础 1.交换机工作原理 1.1.VLAN虚拟局域网 1.1.1.VLAN帧格式 1.1.2.VLAN的划分方式: 1.1.3.PVID 1.1.4.Access端口类型 1.1.5.Trunk ...

  6. 零基础学python爬虫-零基础学习python_爬虫(53课)

    1.Url的格式简单介绍,如下图: 2.我们要对网站进行访问,需要用到python中的一个模块或者说一个包吧,urllib(这个在python2中是urllib+urllib2,python3将这两个 ...

  7. 大数据爬虫技术基础篇:大快在线爬虫安装步骤

    2019独角兽企业重金招聘Python工程师标准>>> 在线爬虫是大快大数据一体化开发框架的重要组成部分,本篇重点分享在线爬虫的安装. 爬虫安装前准备工作:大快大数据平台安装完成.z ...

  8. 如何给python爬虫加界面_Python爬虫技术--基础篇--图形界面

    1.概述 Python支持多种图形界面的第三方库,包括: Tk wxWidgets Qt GTK 等等. 但是Python自带的库是支持Tk的Tkinter,使用Tkinter,无需安装任何包,就可以 ...

  9. python爬虫多进程_Python爬虫技术--基础篇--多进程

    要让Python程序实现多进程(multiprocessing),我们先了解操作系统的相关知识. Unix/Linux操作系统提供了一个fork()系统调用,它非常特殊.普通的函数调用,调用一次,返回 ...

最新文章

  1. Android ProgressBar 加载中界面实现(loading 动画) 实现菊花的效果
  2. Excel基础操作(二)
  3. swal弹窗_swal() 弹出层的用法
  4. readdir函数_PHP readdir()函数与示例
  5. 关于config_site.h文件【译】
  6. Firefox内存占用过高解决方法
  7. k8s升级,HA集群1.12.0~HA集群1.13.2
  8. Atitit. 图像处理jpg图片的压缩 清理垃圾图片 java版本
  9. EasyClick 调用javaMD5加密
  10. 数据库删除数据的方式
  11. 一文搞定java面试相近词的辨析
  12. 后台网站二级页面制作步骤
  13. Linux 基本指令 Pt.2
  14. 免费录屏软件Captura下载安装及分享
  15. matlab磁铁模拟,用matlab 模拟环形磁铁的磁场分布
  16. uni-app注册全局组件
  17. Barrier (屏障; 障碍; 栅栏; 分界线)
  18. 【转】面向程序员的数据库访问性能优化法则
  19. 《Windows程序设计》读书笔七 鼠标
  20. vue-quill-editor自定义组件来实现填空题下标

热门文章

  1. 解决KETTLE9 连接MYSQL 8 Error connecting to database: (using class org.gjt.mm.mysql.Driver)
  2. 【BJOI2019】排兵布阵 DP
  3. flex+java项目创建_创建Flex 4和Java Web应用程序
  4. 【Java:JDBC+MySQL实现学生信息管理系统】
  5. 高斯消元法(matlab)
  6. oracle的ofs,OFS_Oracle11g_Windows2008R2
  7. 豆腐的做法与编辑的文风
  8. Mac 用久了空间不足?教你如何清理磁盘空间
  9. Linux日志切割神器Logrotate的原理和配置详解,建议收藏!!!
  10. 机器学习-2.Python机器学习软件包Scikit-Learn的学习与运用