PHP利用正则表达式抓取页面数据


(记录一下,00后程序员第一天写博客,2021/4/1)
(抓取招头标网站中的数据)

<?php
header('Content-Type:text/html;Cache-control:private;charset=utf-8');
ini_set('mbstring.internal_encoding',"utf-8");
date_default_timezone_set ('Asia/Shanghai');
//抓取
$url = "http://gpcgd.gd.gov.cn/bsfw/cgxx/cgxxgg/index.html";
$contents = file_get_contents($url);$encode = mb_detect_encoding($contents, array("ASCII","UTF-8","GB2312","GBK","BIG5"));
if( $encode != 'UTF-8' ){$contents = iconv($encode, "utf-8",$contents);
}
//echo $contents;$preg='/<a href=\'(.*?)\'>(.*?)<\/a>/';
preg_match_all($preg,$contents,$array); //$array[1]为链接,$array[2]为标题
foreach($array[1] as $key => $val)
{echo $val.' '.$array[2][$key].'<br>';
}//echo "<pre>";
//print_r($array);
//echo "</pre>";
die();

PHP利用正则表达式抓取页面数据相关推荐

  1. 爬虫抓取页面数据原理(php爬虫框架有很多 )

    爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...

  2. 知乎爬虫之4:抓取页面数据

    git爬虫项目地址( 终于上传代码了~~~~关注和star在哪里):https://github.com/MatrixSeven/ZhihuSpider(已完结) 附赠之前爬取的数据一份(mysql) ...

  3. iOS开发——网络使用技术OC篇网络爬虫-使用正则表达式抓取网络数据

    网络爬虫-使用正则表达式抓取网络数据 关于网络数据抓取不仅仅在iOS开发中有,其他开发中也有,也叫网络爬虫,大致分为两种方式实现 1:正则表达 2:利用其他语言的工具包:java/Python 先来看 ...

  4. matlab抓取网页信息,如何利用Matlab抓取网页数据

    如何利用Matlab抓取网页数据 2019-01-01 %朋友需要做金融方面的分析,要求从网站上下载大量的数据,一个一个复制粘贴太费事.我写了一个简单的网络爬虫,主要用到正则表达式,可以自动下载网页源 ...

  5. java 爬数据工具 知乎_知乎爬虫之4:抓取页面数据

    本文由博主原创,转载请注明出处:知乎爬虫之4:抓取页面数据 咱们上一篇分析了知乎的登陆请求和如何拿到粉丝/关注的请求,那么咱们这篇就来研究下如何拿利用Jsoup到咱们想要的数据. 那么咱们说下,首先请 ...

  6. Python利用requests抓取页面源代码(基础)

    Python利用requests抓取页面源代码(基础) Requests模块是一个用于网络访问的模块. 由于使用到的requests库为第三方库,需要事先对其进行安装 1.1安装requests (1 ...

  7. php curl与正则表达式抓取网页数据的例子

    php使用curl和 正则表达式抓取网页数据示例,这里是抓取某网站的小说. 利用 curl和正则表达式做的一个针对磨铁中文网非vip章节的小说抓取器,支持输入小说ID下载小说. 依赖项:curl 可以 ...

  8. 利用Fiddler抓取APP数据

    利用Fiddler抓取APP数据 简杨君 关注 2016.11.03 18:51* 字数 368 阅读 762评论 0喜欢 2 软件:Fiddler 系统:Windows10 手机:MX4 PRO F ...

  9. python抓取页面数据实例

    抓取文章数据保存在本地 #coding=utf-8 import urllib import redef getHtml(url):page = urllib.urlopen(url)html = p ...

最新文章

  1. PHP5.5的一点变化
  2. 在Gridview控件中根据Field Name来取得对应列索引
  3. vs2010的基础设置
  4. SpringBoot+El-upload实现上传文件到通用上传接口并返回文件全路径(若依前后端分离版源码分析)
  5. linux开通vsftpd服务过程
  6. 使用函数实现数据大小端转换
  7. linux逻辑文件块,linux逻辑卷组创建以及修改
  8. 一文带你入门目前大热的图神经网络
  9. 大数据之-Hadoop完全分布式_集群时间同步---大数据之hadoop工作笔记0043
  10. 软件测试为什么要学python_第一章 为什么要学习软件测试
  11. 老王的常用资源下载(全部附CSDN资源链接 12月19日 更新RetopoFlow3至3.00.2)
  12. 月薪过万的90后,都是做什么职业的?
  13. if 嵌套if 多重if结构
  14. CYUSB3014固件部分低版本工程在Eclipse中编译得到img文件时无效的解决方案
  15. Lect1_Intro_RL
  16. python美化excel_简单介绍python在CMD界面读取excel所有数据
  17. (一)离散型智能制造
  18. multisim怎么设置晶体管rbe_multisim 三极管放大倍数怎么设置
  19. 给图像增加一种噪声并利用至少两种低通或高通滤波器实现频率域的滤波
  20. php168上传空间常见问题

热门文章

  1. LeakCanary 使用及原理分析
  2. 新华三+福建工院,给数字人才培养“上一课”!
  3. you-get简明使用教程
  4. 在bing中进行搜索,结果跳转至百度搜索,怎么解决?baidu.com bing.com后面自带莫名其妙的多余链接
  5. 多元线性回归结果怎么看?
  6. U盘能一直插在电脑上吗?
  7. 酒水供应链管理难?ZETA技术助力酒水供应链数智化升级
  8. Kong 网关 | Route
  9. IRLL014NPBFMOSFET N-CH 55V 2A SOT223
  10. 说说看板在项目中的应用