php正则抓取网页指定内容,php正则匹配获取指定url网页页面超级链接地址与抓取指定页面内容方法...

在数据采集与页面分析中，常需要抓取给定url页面的内容，或者第二、第三层次深度页面内容。

这里是一个测试例子的实现，仅供参考。

匹配给定页面链接

return:array match[link,content,all]

function match_links($host, $document) {

$pattern = '/(.*?)/i';

preg_match_all($pattern, $document, $m);

return $m;

preg_match_all("']+))[^>]*>?(.*?)'isx",$document,$links);

while(list($key,$val) = each($links[2])) {

if(!empty($val))

if(preg_match("/http/",$val)){

$match['link'][] = $val;

}

else {

$match['link'][] = $host . $val;

}

while(list($key,$val) = each($links[3])) {

if(!empty($val))

if(preg_match("/http/",$val)){

$match['link'][] = $val;

}

else {

$match['link'][] = $host . $val;

}

while(list($key,$val) = each($links[4])) {

if(!empty($val))

$match['content'][] = $val;

}

while(list($key,$val) = each($links[0])) {

if(!empty($val))

$match['all'][] = $val;

}

return $match['link'];

}

从给定url中获取页面文本内容

function get_content_from_url($url) {

$str = @file_get_contents($url);

if(mb_check_encoding($str, "GBK"))

$str = iconv("GBK","UTF-8", $str);

$str = strip_tags($str); // 过滤html标签

$str = preg_replace( "@

$str = preg_replace( "@@is", "", $str );

$str = preg_replace( "@

$str = preg_replace( "@<(.*?)>@is", "", $str );

//过滤非汉字字符

preg_match_all('/[x{4e00}-x{9fff}]+/u', $str, $matches);

$str = join('，', $matches[0]);

if(!$str)

return NULL;

return $str;

}

function get_content($url,$depth) {

if(!$url || $depth < 1)

return false;

while($depth > 1){

$str = @file_get_contents($url);

if(!$str)

return false;

$parseurl = parse_url($url);

if($parseurl['host'])

$host = $parseurl[scheme] . "://" . $parseurl['host'];

$arrlink = match_links($host,$str);

$arr_url = array_unique($arrlink);

$depth--;

foreach($arr_url as $url){

$content .= get_content($url, $depth); //递归调用

}

$content .= get_content_from_url($url);

return $content;

}

php正则抓取网页指定内容,php正则匹配获取指定url网页页面超级链接地址与抓取指定页面内容方法...相关推荐

python爬取凤凰新闻网_python爬取凤凰网站的新闻，及其链接地址，来源，时间和内容，用selenium自动化和requests处理数据...
importrequestsfrom selenium importwebdriverimporttimedefgrasp(urlT): driver= webdriver.Chrome(r'C:\P ...
微信开发之获取OAuth2.0网页授权认证和获取用户信息进行关联（转：http://playxinz.iteye.com/blog/2249634）
最近有做了关于微信公众号和自己网站用户进行用户关联授权登录的一个功能,主要是用户关注该公众号,点击会员中心,则会弹出需要关联授权的网页授权:OAuth2.0网页授权,然后用户同意获取用户信息,进行用户 ...
webmagic ajax,webmagic爬虫对静态页面，动态页面及js请求方式爬取的处理
webmagic爬取网页数据,[分页爬取内容]见上一篇博文https://segmentfault.com/a/1190000020005655 webmagic的官方文档见: http://webm ...
网站被新网温馨提示链接地址含有违规内容无法访问的解决
某上海客户的家具网站最近被新网拦截了,直接输入网站域名访问提示:当前链接地址或网站因含有违规内容,暂时无法访问.目前客户做了百度竞价推广,一天消费在500左右,由于网站打不开,损失惨重,根据客户目前的 ...
python抓取html中特定的数据库,Python抓取网页中内容，正则分析后存入mysql数据库...
firefox+httpfox可以查看post表单首先在http://www.renren.com/这个地址输入用户名和密码, 输入用户名和密码之后post到下面这个网址: http://www.r ...
上手快！！福利局！新手如何使用python爬虫爬取网页图片（使用正则进行数据解析）当然这个新手是我自己
作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...
python爬取数据案例分析_基于Python及webdriver的网页抓取案例
上次有朋友问怎么抓取交易所网站的数据,特别是历史数据,这里特别推荐使用selenium这一自动化测试框架. 原本selenium是用来完成大量基于浏览器的自动化测试的,但由于可以方便地执行JS代码,摸 ...
avascript怎么获取指定url网页中的内容
目录一.总结一句话总结:推荐jquery中ajax,简单方便. 1.js能跨域操作么? 二.用php获取三.jquery中ajax获取四.通过node.js获取回到顶部 > 一.总结 ...
python抓取抖音热门视频_要是30行代码！7步教会你Python爬取网页抖音热门视频
前言抖音短视频相信大家都听过,也不陌生对吧!可以看到海量的短视频,涵盖了各大行业.个人觉得抖音有毒,刷着刷着根本停不下来,一看时间就是凌晨3.4点.今天带大家爬取抖音网页版的视频数据!一睹为快吧本 ...

php正则抓取网页指定内容,php正则匹配获取指定url网页页面超级链接地址与抓取指定页面内容方法...

php正则抓取网页指定内容,php正则匹配获取指定url网页页面超级链接地址与抓取指定页面内容方法...相关推荐

最新文章

热门文章