php抓取网页上的指定内容

<?php

//ignore_user_abort(true);
//set_time_limit(0);

//获取所有的政府机关和事业单位
$url = "http://www.tongda2000.com/company/news.php";
$contents = file_get_contents($url);
//如果出现中文乱码使用下面代码
$getcontent = iconv("gb2312", "utf-8",$contents);
echo $contents;
//exit;

  $mode = "/ <ul class=\"newslist\">(.*)<div id=\"right\">/is";
preg_match_all($mode,$contents,$matches);
print_r($matches);
//exit;
$xinwen_str=$matches[0][0];
//echo $xinwen_str;
$xinwen_arr1=explode("<li>",$xinwen_str);

foreach($xinwen_arr1 as $key=>$value){
  $xinwen_arr2=explode("</li>",$xinwen_arr1[$key]);
  $xinwen_arr1[$key]=$xinwen_arr2[0];
  $xinwen_arr1[$key]=str_replace("\n","",$xinwen_arr1[$key]);
  $xinwen_arr1[$key]=str_replace("\r","",$xinwen_arr1[$key]);
}
//print_r($xinwen_arr1);

for($j=1;$j<count($xinwen_arr1);$j++){
  $mode1 = "/(.*)<a/is";
preg_match_all($mode1,$xinwen_arr1[$j],$matches1);
$riqi_str=$matches1[0][0];
$riqi_arr=explode(" ",$riqi_str);
$riqi=$riqi_arr[0];//获取到日期
echo $riqi."<br>";
$mode2= "/>(.*)<\/a>/isU";
preg_match_all($mode2,$xinwen_arr1[$j],$matches2);

$title_str=$matches2[0][0];
$title_arr=explode(">",$title_str);
$title=str_replace("</a","",$title_arr[1]);//获取到名称
echo $title."<br>";
$lianjie_arr=explode("\"",$xinwen_arr1[$j]);
$lianjie=$lianjie_arr[1];
   $a=strstr($lianjie,"http");
   if($a=="") $lianjie="http://www.tongda2000.com".$lianjie;
   echo $lianjie."<br>";
  }

php抓取网页上的指定内容相关推荐

用curl+PHP抓取网页上所需要的数据
最近使用后台的时候老是发现有些信息没法导出,又不想一个个复制很麻烦,想起以前做的一个小功能,用来抓取网页上的可用数据填充自己的数据库,由于网站需要登录才能访问,所以加上了curl的模拟登录 <? ...
python抓取网站图片_python抓取图片示例 python抓取网页上图片
python抓取网页上图片这个错误时是什么意思下面是代码 import re import urllib.request imp正则表达式匹配的url有错误 for x in add: print ...
Python抓取网页云音乐指定歌手的歌曲和评论数量
之前简单学了一下Python,没做过东西,心血来潮来了个idea,就写了一个抓取网页云音乐指定歌手的歌曲和评论数量的脚本. 代码如下,如果缺少包则用pip安装一下,不过AES加密用到的pycrypto ...
抓取网页上的图片(一)
抓取网页上的图片思路:网页(HTML)中的图片通常在img标签中,图片的链接通常在标签的src属性中,通过BeautifulSoup解析HTML,找到所有的img标签,获取每一个标签中的src的属性 ...
python爬取网页上的特定链接_python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据）...
上一卷中我们抓取了网页的所有内容,现在我们抓取下网页的图片名称以及连接现在我再新建个爬虫文件,名称设置为crawler2 做爬虫的朋友应该知道,网页里的数据都是用文本或者块级标签包裹着的,scrap ...
python实现抓取网页上的内容并发送到邮箱
要达到的目的: 从特定网页中抓取信息,排版后发送到邮箱中关键点: 下载网页,从网页里抓取出需要的信息 HTML排版发送到指定邮箱实现: 1.python下载网页直接用库函数就可以实现 from ...
java行程单解析获取内容_java如何抓取网页上的动态信息，获取源代码后如何分析JS？...
首先明确我指的动态数据是什么. 名词定义:动态数据在这里指的是网页中由Javascript动态生成的页面内容,即网页源文件中没有,在页面加载到浏览器后动态生成的. 下面进入正题. 抓取静态页面很简单, ...
stata抓取html,（5）详解 stata 爬虫抓取网页上的数据 part 1
*案例:抓取 http://www.tjcn.org 中国统计信息网上前50页(每页包含20个市的数据)的1000个地区的GDP数据.使用stata版本为 stata13,与12版本和14版本都不兼容 ...
利用python抓取网页上的数独，并用回溯法破解
这里抓取的是https://www.oubk.com/上不用登陆就能查看的数独以下是抓取数独的代码: class Crawl_shudu(object):def __init__(self,url) ...

php抓取网页上的指定内容

php抓取网页上的指定内容相关推荐

最新文章

热门文章