MATLAB简易网络爬虫(未加入DFS)
% 2012/12/15 1:40
% MUST Edward.xu
%%
%清空缓存
clear all;close all;clc;
%warning off; %warning的部分不显示
%%
%打开初始页面
[sourcefile, status] = urlread(sprintf('http://www.sina.cn'));
%%
%正则匹配
%设定需要匹配的字符串模版,这里是爬虫算法,故获取为超链接
%pattern = '<a.+?href=([""]?)([^>\s]+)\1.*?>([\S\s]+?)<\/a>'; %这个版本是对的
%pattern = '<a href=([""]?)http([^>\s]+)\1'; %这个版本是测试是好的
pattern = '<a href=[""]http([^>\s]+)'; %这个版本是我测试的最好的,2012/12/15
[datafile, data_tokens] = regexp(sourcefile, pattern, 'match', 'tokens');%匹配特定的字符串
data = char(datafile)
%%
N=2; %爬取的深度
%开始爬虫
for i=1:1:Nurl_spider = deblank(data(2,:));[sourcefile, status] = urlread(url_spider(10:end-1));pattern = '<a href=[""]http([^>\s]+)';[datafile, data_tokens] = regexp(sourcefile, pattern, 'match', 'tokens');%匹配特定的字符串data = char(datafile)
end
这里只包含了matlab抓网页,以及找出抓出网页里面的超链接,再重复抓的过程,具体加入DFS的版本之后再给出。
MATLAB简易网络爬虫(未加入DFS)相关推荐
- LeetCode 1236. 网络爬虫(BFS/DFS)
文章目录 1. 题目 2. 解题 2.1 BFS 2.2 DFS 1. 题目 给定一个链接 startUrl 和一个接口 HtmlParser ,请你实现一个网络爬虫,以实现爬取同 startUrl ...
- 如何编写一个简易网络爬虫
感谢小臣投稿 本文将简述网络爬虫及其工作流程,结合个人实践,简单介绍如何使用HttpClient.HtmlParser第三方jar工具包,编写一个简易的网络爬虫. 网络爬虫简述及流程架构 网络爬虫,又 ...
- linux c++模拟简易网络爬虫
/* * To change this license header, choose License Headers in Project Properties. * To change this t ...
- 13行MATLAB代码实现网络爬虫 爬取NASA画廊星图
13行MATLAB代码实现网络爬虫 爬取NASA画廊星图 2021/04/18上传 2021/04/21更新:修改N的输入方式,增加对png格式图片的下载支持,增加了自动处理几种错误情况的代码,能够 ...
- Python:通过网络爬虫实现一个简易控制台音乐播放器
hello,大家好,我是wangzirui32,今天我们来学习如何通过网络爬虫实现一个简易控制台音乐播放器,开始学习吧! 1. 项目结构及库准备 app.py为项目入口程序,download.py为音 ...
- python网络爬虫与信息提取(笔记)【未完】
目录 python网络爬虫与信息提取 Requests库入门 HTTP协议及Requests库方法 Requests库的get()方法 Requests库的安装 Requests库主要方法解析 爬取网 ...
- 用python写一个简单的爬虫_Python实现简易Web爬虫详解
编辑推荐: 本文主要介绍了Python实现简易Web爬虫详解,希望对大家有帮助. 本文来自于脚本之家 ,由火龙果软件Alice编辑,推荐. 简介: 网络爬虫(又被称为网页蜘蛛),网络机器人,是一种按照 ...
- python网络爬虫权威指南 百度云-Python网络爬虫权威指南 PDF 第2版
给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小5.54 MB,瑞安·米切尔编写,目前豆瓣.亚马逊. ...
- python网络爬虫权威指南 百度云-Python网络爬虫权威指南(第2版)
版权声明 O'Reilly Media, Inc. 介绍 业界评论 前言 什么是网页抓取 为什么要做网页抓取 关于本书 排版约定 使用代码示例 O'Reilly Safari 联系我们 致谢 电子书 ...
最新文章
- AutoML综述更新 【AutoML:Survey of the State-of-the-Art】
- python与excel结合-python3与Excel的完美结合
- FastReport报表,FastReport报表加载不出来
- LeakCanary——消除Android中的内存泄露
- linux下syscall函数 间接系统调用
- 科学计算:Python VS. MATLAB(3)----线性代数基础
- 设计模式之_Iterator_06
- android动画放大后缩小,Android 补间动画 scale(缩放)
- 谷歌A/B实验——重叠实验基础设施解读
- 拼多多上线“女装11.11爆款必买团”活动 一款打底裤一天卖出4.2万单
- log日志显示与写入文件—qt
- 用 c 写 CGI 程序简要指南
- BackTrack 4 R2 发布
- MTK6589手机工程模式调大各种音量方法
- Go 实现自举的具体含义
- mes系统和plc通讯案例_MES系统与PLC数据集成主要方式
- 前阿里P8甩我一份内部SpringCloud笔记手册,真香
- C++OpenCV系统学习(17)——图像分割与抠图(4)Grabcut
- ff14最新服务器人数,FF14第一波转服过后 现各服务器人口状况
- 微信定位精灵服务器或网络异常,为什么微信定位精灵定位不了怎么办?