R语言-HTML 基础与R语言解析
###6.1 HTML 基础与R语言解析 |
#额外备注:Python中的scrapy框架,爬虫 |
#HTML |
#hyper text markup language |
#超文本标记语言 |
##6.1HTML的语法规则 |
#单击鼠标右键,查看源文件/审查元素 |
##1.标签、元素和属性 |
#标签,以一对"< >"符号包括起来 |
#元素,起始标签、内容和终止标签组合成为元素 |
#终止标签会有一个"/"符号 |
#<br>标签表示换行,不需要</br>标签来表示终止 |
<a> 定义锚 |
<meta> 定义关于HTML文档的元信息 |
<link> 定义文档与外部资源的关系 |
<code> 定义计算机代码文本 |
<p> 定义段落 |
<h1>-<h6> 定义HTML标题 |
<div> 定义文档中的节 |
<span> 定义文档中的节 |
<form> 定义供用户输入的HTML表单 |
<script> 定义客户端脚本 |
#属性就是让标签能够描述其内容处理方式的选项 |
#具体属性的作用则根据相应的标签来定 |
#属性总是处于起始标签的内部、标签名的右侧 |
#一个标签拥有多个属性也是常见操作,多个属性之间用空格分开 |
##2.树形结构 |
#例: |
<dl class=""> |
<dt> |
<a href="https://www.baidu.com"> |
<img src="https://imgs.doubanio.com/viw/photo/abcd" alt="菇宝" class=""/> |
</a> |
</dt> |
<dd> |
<a href="https://blabla" > |
</dd> |
</dl> |
#第一个元素是<dl>,在这个元素的起始和终止标签内, |
#又有几个标签分别起始和终止:<dt>,<a>和<dd>。 |
#<dt>和<dd>标签作为同级标签都包含在<dl>元素内, |
#<a>标签则包含在<dt>标签内。 |
#HTML还有注释、保留字符和特殊字符、文档定义类型等 |
##6.1.2 R语言中HTML的解析 |
#对于HTML,R语言无法直接分析,需要先转换,这个过程就是HTML解析 |
#为了将HTML文件转换为结构化数据 |
#需运用一种能够理解HTML结构含义的程序 |
#并重建HTML文件隐含的层次结构 |
#使得HTML内容转变为R语言可以分析的形式 |
#在R语言中,通常使用XML包中的htmlParse()函数来解析HTML文件 |
#XML有着以C语言为基础的libxml2库的接口 |
#install.packages(XML) |
library(XML) |
#install.packages(bitops) |
library(bitops) |
#install.packages(RCurl) |
library(RCrul) |
temp = getURL('http://movie.douban.com.subject/blabla') |
fanghua = htmlParse(temp) |
fanghua |
## <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/REC-html40/loose.dtd"> |
## <html> |
## <head><title>301 Moved Permanently</title></head> |
## <body bgcolor="white"> |
## <center><h1>301 Moved Permanently</h1></center> |
## <hr> |
## <center>nginx</center> |
## </body> |
## </html> |
## |
R语言-HTML 基础与R语言解析相关推荐
- c语言编程基础心得,C语言编程学习心得体会
C语言是在国内外广泛使用的一种计算机语言.其语言功能丰富.表达能力强.使用灵活方便.既具有高级语言的优点,又具有低级语言的许多特点,适合编写系统软件.本文是C语言编程学习心得,希望对大家有帮助. C语 ...
- c语言零基础自学,c语言零基础入门 该如何学习
原标题:c语言零基础入门 该如何学习 零基础学习C语言该从哪里开始学习呢?在学习之前你可以先问自己,为什么我要学C语言?是为了应付考试,还是为了应聘,还是为了提高自己的编程能力.如果你以后想要长期致 ...
- c语言编程基础 教案,C语言编程基础电子教案.doc
C语言编程基础电子教案 课题(内容)1.1 C语言简史及特点课时1教学任务分析教学目标知识技能通过本节课的教学,使学生了解并熟悉编程语言C的发展历史.特点及其种类和适用范围.过程与方法通过C语言的发展 ...
- 电脑基础c语言,[电脑基础知识]c语言教案.ppt
[电脑基础知识]c语言教案 C语言程序设计 课程介绍 第一章 计算机组成与程序设计语言 内容提要 计算机组成及工作过程 机器语言程序设计 由低级语言到高级语言 C is the most beauti ...
- c语言编程基础课件,C语言编程基础课件.ppt
第1章. C语言编程. 本章的重点是C的特性. C的历史. C的结构. 在计算机上运行C的方法. 2.1 C的历史. 2.2 C的特征. 2.3 C的组成C结构示例2查找两个数字的和#include ...
- c语言编程基础------0.0c语言介绍
注明:这篇文章主要内容来源与维基百科 http://zh.wikipedia.org/wiki/C%E8%AF%AD%E8%A8%80#C99 C语言 「 C程序设计语言」重定向至此.關於书籍,詳見「 ...
- (四)C语言零基础入门 --- C语言之入门课程
老规矩,在每节课上课之前,我们先来回顾一下上节课的内容,上节课我们讲了函数,数组,局部变量和全局变量,以及C语言中的存储类. 一.函数 函数如何定义?函数如何声明?声明的作用是什么?函数如何调用?函数 ...
- python语言的基础知识_pythone语言基础知识汇总
python语法的基础知识 相关推荐:<python视频> 数据类型 常用的数据类型:数字(number),字符串(string),list(数组),tuple(元组),dict(字典) ...
- R开发(part3)--概率基础和R语言
学习笔记,仅供参考,有错必纠 参考自:<R的极客理想>-- 张丹 文章目录 R开发 概率基础和R语言 随机变量 大数定理 R开发 概率基础和R语言 随机变量 在样本空间(1,2,3,4,5 ...
最新文章
- c语言程序计算p q真值表,C语言程序设计第2章数据类型﹒运算符和表达式.ppt
- NPTL简介 (NATIVE POSIX Thread Library)
- Redis学习手册(实例代码)
- cubemx lan8720模块_通过STM32cubeMX将STM32F767+LAN8720+LwIP+FreeRTOS的以太网实现
- usb转ttl模块与matlab,图文详解USB转TTL设备与电路板的连接
- 欧拉回路(HDU-1878)
- Liunx版本号码编排惯例
- traceroute显示*号_traceroute 的名词解释
- jQuery→简介引入、jQuery类数组对象$()与DOM对象、各种选择器、attr()、html() 、text()、val()
- python和区块链哪个好_10个最流行的Python区块链开源项目
- Centos6.5 安装 Mysql-5.6.41
- Hibernate常用配置
- ams1117 lm317 对比_LM317的使用
- Haar特征分类器和AdaBoost算法
- ‘javah‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件
- php curl方式网页爬虫爬取原页面数据+simple_html_dom解析方式(php爬虫基础)
- android视频加速播放
- 第十一章 ESL-通过事件控制FreeSWITCH
- Java多线程实现简易微信发红包
- python 正方教务管理系统抢课脚本(仅供学习)