2019独角兽企业重金招聘Python工程师标准>>>

利用php DOM函数实现简单的单页信息抓取   (在这里尽抓取a标签,功能实现了,但是扩展页链接抓取没有实现,欢迎大家批评指导) 网站推广
<?php
error_reporting(E_ERROR);
$pages = file_get_contents('http://www.php100.com');
//$pages = htmlspecialchars($pages);
$doc = new DOMDocument();
$new_doc = new DOMDocument('1.0', 'utf-8');
$doc->loadhtml($pages);
$dom = $doc->getElementsByTagName('a');
for ($i=0;$i<$dom->length;$i++){
$node = $new_doc->createElement('a',$dom->item($i)->nodeValue);
$newnode = $new_doc->appendChild($node);
$newnode->setAttribute('href',$dom->item($i)->getAttribute('href'));
$newnode->setAttribute('style','display:block;margin-left:30px;');//echo $dom->item($i)->getAttribute('src').'</br>';
}
echo $new_doc->saveHTML(); 网站推广
?>

转载于:https://my.oschina.net/u/224509/blog/39174

关于php抓取页面信息的简单代码相关推荐

  1. 【php】curl模拟登录抓取页面信息

    [php]curl模拟登录抓取页面信息 在本项目中,使用php抓取四川大学综合教务网站的成绩信息.课程信息以及登录用户的基本资料,解析数据并存入数据库,以实现对所得信息的进一步分析,并呈现给用户. 本 ...

  2. shell 抓取页面信息 ip168查询 IP归属地

    通过ip168批量查询ip归属地#!/bin/bash while read line do echo $line ip=$(echo -en $line | awk '{print $3}' | a ...

  3. 爬虫抓取页面数据原理(php爬虫框架有很多 )

    爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...

  4. python爬虫代码房-Python爬虫一步步抓取房产信息

    原标题:Python爬虫一步步抓取房产信息 前言 嗯,这一篇文章更多是想分享一下我的网页分析方法.玩爬虫也快有一年了,基本代码熟悉之后,我感觉写一个爬虫最有意思的莫过于研究其网页背后的加载过程了,也就 ...

  5. 如何在线把网站html生成xml文件_快速抓取网站信息工具

    网络信息抓取如今广泛运用于社会生活的各个领域.在接触网络信息抓取之前,大多数人会觉得这需要编程基础,也因此对信息抓取望而却步,但是随着技术的发展,诞生出了许多工具,借助这些工具我们编程小白也可以获取大 ...

  6. PHP使用CURL抓取页面

    cURL的基本原理 curl是利用URL语法在命令行方式下工作的开源文件传输工具,他能够从互联网上获得各种各样的网络资源.简单来说,curl就是抓取页面的升级版. <?php//1.初始化,创建 ...

  7. jquery页面跳转带cookie_搭建谷歌浏览器无头模式抓取页面服务,laravelgt;phpgt;pythongt;docker...

    背景: 公司管理系统需要获取企业微信页面的配置参数如企业名.logo.人数等信息并操作,来隐藏相关敏感信息并自定义简化企业号配置流程 第一版已经实现了扫码登录获取cookie,使用该cookie就能获 ...

  8. Java爬虫系列二:使用HttpClient抓取页面HTML

    爬虫要想爬取需要的信息,首先第一步就要抓取到页面html内容,然后对html进行分析,获取想要的内容.上一篇随笔<Java爬虫系列一:写在开始前>中提到了HttpClient可以抓取页面内 ...

  9. Python之网络爬虫(验证码、代理IP、防反爬策略、封装一个抓取页面的函数)

    文章目录 一.使用tesseract做OCR验证码识别 二.代理服务器设置 三.反爬与防反爬 四.封装一个抓取页面的函数 一.使用tesseract做OCR验证码识别 1.cookie, sessio ...

最新文章

  1. MBTiles离线包生成和使用
  2. 怎么安装MYSQL5.0的JDBC驱动
  3. 自建mysql和华为云mysql_自建数据库和云数据库区别和使用(以MySQL为例)
  4. 【java】File的使用:将字符串写出到本地文件,大小0kb的原因
  5. Delphi编辑器使用指南
  6. linux 脚本 apache进程,Apache环境下进程检查脚本
  7. 前端小结(5)---- iframe
  8. [From 1.1~1.2]CLR的执行模型
  9. 在FL Studio中如何混音你的鼓组采样与旋律采样
  10. 每天一点正则表达式积累(三)
  11. lycos搜索引擎_Lycos中国推出全新搜索引擎
  12. 天正电气html帮助,T20天正电气使用技巧
  13. 大淘客cms源码三合一导航,自定义底部导航腰部导航
  14. VGA高速PCB布局布线设计指南
  15. windows系统PrintScreen键截屏
  16. 备案的是域名还是服务器?
  17. 【Beta】 第六次Daily Scrum Meeting
  18. 五月该种下一株康乃馨
  19. 学生成绩管理java心得体会_如何用java实现学生成绩管理界面
  20. 利用python Turtle库函数画一个实时钟表

热门文章

  1. Selenium-switch_to_window出现删除线
  2. LeetCode(72):编辑距离
  3. JavaWeb学习总结(十二)--事务
  4. virtual keyboard
  5. 一种生成不重复数的算法
  6. 解决CentOS6.5虚拟机克隆后无法上网(网卡信息不一致)的问题
  7. SQL Server服务器名称填写IP不能访问问题解决
  8. 问题解决:org.apache.struts2.dispatcher.ng.filter.StrutsPrepareAndExecuteFilter
  9. Jenkins执行shell脚本启动tomcat失败解决方法
  10. Jmeter安装出现Not able to find Java executable or version问题解决方案