% 2012/12/15 1:40
% MUST Edward.xu
%%
%清空缓存
clear all;close all;clc;
%warning off; %warning的部分不显示
%%
%打开初始页面
[sourcefile, status] = urlread(sprintf('http://www.sina.cn'));
%%
%正则匹配
%设定需要匹配的字符串模版,这里是爬虫算法,故获取为超链接
%pattern = '<a.+?href=([""]?)([^>\s]+)\1.*?>([\S\s]+?)<\/a>';  %这个版本是对的
%pattern = '<a href=([""]?)http([^>\s]+)\1';   %这个版本是测试是好的
pattern = '<a href=[""]http([^>\s]+)';         %这个版本是我测试的最好的,2012/12/15
[datafile, data_tokens] = regexp(sourcefile, pattern, 'match', 'tokens');%匹配特定的字符串
data = char(datafile)
%%
N=2;  %爬取的深度
%开始爬虫
for i=1:1:Nurl_spider = deblank(data(2,:));[sourcefile, status] = urlread(url_spider(10:end-1));pattern = '<a href=[""]http([^>\s]+)';[datafile, data_tokens] = regexp(sourcefile, pattern, 'match', 'tokens');%匹配特定的字符串data = char(datafile)
end

这里只包含了matlab抓网页,以及找出抓出网页里面的超链接,再重复抓的过程,具体加入DFS的版本之后再给出。

MATLAB简易网络爬虫(未加入DFS)相关推荐

  1. LeetCode 1236. 网络爬虫(BFS/DFS)

    文章目录 1. 题目 2. 解题 2.1 BFS 2.2 DFS 1. 题目 给定一个链接 startUrl 和一个接口 HtmlParser ,请你实现一个网络爬虫,以实现爬取同 startUrl ...

  2. 如何编写一个简易网络爬虫

    感谢小臣投稿 本文将简述网络爬虫及其工作流程,结合个人实践,简单介绍如何使用HttpClient.HtmlParser第三方jar工具包,编写一个简易的网络爬虫. 网络爬虫简述及流程架构 网络爬虫,又 ...

  3. linux c++模拟简易网络爬虫

    /* * To change this license header, choose License Headers in Project Properties. * To change this t ...

  4. 13行MATLAB代码实现网络爬虫 爬取NASA画廊星图

    13行MATLAB代码实现网络爬虫 爬取NASA画廊星图 2021/04/18​上传 2021/04/21更新:修改N的输入方式,增加对png格式图片的下载支持,增加了自动处理几种错误情况的代码,能够 ...

  5. Python:通过网络爬虫实现一个简易控制台音乐播放器

    hello,大家好,我是wangzirui32,今天我们来学习如何通过网络爬虫实现一个简易控制台音乐播放器,开始学习吧! 1. 项目结构及库准备 app.py为项目入口程序,download.py为音 ...

  6. python网络爬虫与信息提取(笔记)【未完】

    目录 python网络爬虫与信息提取 Requests库入门 HTTP协议及Requests库方法 Requests库的get()方法 Requests库的安装 Requests库主要方法解析 爬取网 ...

  7. 用python写一个简单的爬虫_Python实现简易Web爬虫详解

    编辑推荐: 本文主要介绍了Python实现简易Web爬虫详解,希望对大家有帮助. 本文来自于脚本之家 ,由火龙果软件Alice编辑,推荐. 简介: 网络爬虫(又被称为网页蜘蛛),网络机器人,是一种按照 ...

  8. python网络爬虫权威指南 百度云-Python网络爬虫权威指南 PDF 第2版

    给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小5.54 MB,瑞安·米切尔编写,目前豆瓣.亚马逊. ...

  9. python网络爬虫权威指南 百度云-Python网络爬虫权威指南(第2版)

    版权声明 O'Reilly Media, Inc. 介绍 业界评论 前言 什么是网页抓取 为什么要做网页抓取 关于本书 排版约定 使用代码示例 O'Reilly Safari 联系我们 致谢 电子书 ...

最新文章

  1. AutoML综述更新 【AutoML:Survey of the State-of-the-Art】
  2. python与excel结合-python3与Excel的完美结合
  3. FastReport报表,FastReport报表加载不出来
  4. LeakCanary——消除Android中的内存泄露
  5. linux下syscall函数 间接系统调用
  6. 科学计算:Python VS. MATLAB(3)----线性代数基础
  7. 设计模式之_Iterator_06
  8. android动画放大后缩小,Android 补间动画 scale(缩放)
  9. 谷歌A/B实验——重叠实验基础设施解读
  10. 拼多多上线“女装11.11爆款必买团”活动 一款打底裤一天卖出4.2万单
  11. log日志显示与写入文件—qt
  12. 用 c 写 CGI 程序简要指南
  13. BackTrack 4 R2 发布
  14. MTK6589手机工程模式调大各种音量方法
  15. Go 实现自举的具体含义
  16. mes系统和plc通讯案例_MES系统与PLC数据集成主要方式
  17. 前阿里P8甩我一份内部SpringCloud笔记手册,真香
  18. C++OpenCV系统学习(17)——图像分割与抠图(4)Grabcut
  19. ff14最新服务器人数,FF14第一波转服过后 现各服务器人口状况
  20. 微信定位精灵服务器或网络异常,为什么微信定位精灵定位不了怎么办?

热门文章

  1. Linux 标准信号详解
  2. Windows架设FTP
  3. js+PHP利用PHPExcel导出表格数据到excel
  4. BERT模型主体架构图(多图理解)
  5. 从BIO到Netty(1)- Linux网络模型简介
  6. 最新ai创作系统CHATGPT镜像系统源码+支持GPT4.0+支持ai绘画(MJ)+实时语音识别输入+免费更新版本
  7. Unity Shader 水面扰动
  8. 高级经济师如何备考!?
  9. Oracle与空间数据,GIS 与Oracle 空间数据格式的转化
  10. 2018年北京十大商业品牌榜揭晓,稻香村、大董、京东上榜