<?php

//ignore_user_abort(true);
 //set_time_limit(0);

//获取所有的政府机关和事业单位
 $url = "http://www.tongda2000.com/company/news.php";
 $contents = file_get_contents($url);
 //如果出现中文乱码使用下面代码
 $getcontent = iconv("gb2312", "utf-8",$contents);
 echo $contents;
 //exit;
 
  $mode = "/ <ul class=\"newslist\">(.*)<div id=\"right\">/is";
 preg_match_all($mode,$contents,$matches);
 print_r($matches);
 //exit;
 $xinwen_str=$matches[0][0];
 //echo $xinwen_str;
 $xinwen_arr1=explode("<li>",$xinwen_str);
 
 foreach($xinwen_arr1 as $key=>$value){
  $xinwen_arr2=explode("</li>",$xinwen_arr1[$key]);
  $xinwen_arr1[$key]=$xinwen_arr2[0];
  $xinwen_arr1[$key]=str_replace("\n","",$xinwen_arr1[$key]);
  $xinwen_arr1[$key]=str_replace("\r","",$xinwen_arr1[$key]);
 }
//print_r($xinwen_arr1);
 
 for($j=1;$j<count($xinwen_arr1);$j++){
  $mode1 = "/(.*)<a/is";
 preg_match_all($mode1,$xinwen_arr1[$j],$matches1);
 $riqi_str=$matches1[0][0];
 $riqi_arr=explode(" ",$riqi_str);
 $riqi=$riqi_arr[0];//获取到日期
 echo $riqi."<br>";
 $mode2= "/>(.*)<\/a>/isU";
 preg_match_all($mode2,$xinwen_arr1[$j],$matches2);

$title_str=$matches2[0][0];
 $title_arr=explode(">",$title_str);
 $title=str_replace("</a","",$title_arr[1]);//获取到名称
 echo $title."<br>";
 $lianjie_arr=explode("\"",$xinwen_arr1[$j]);
 $lianjie=$lianjie_arr[1];
   $a=strstr($lianjie,"http");
   if($a=="") $lianjie="http://www.tongda2000.com".$lianjie;
   echo $lianjie."<br>";
  }

?>

php抓取网页上的指定内容相关推荐

  1. 用curl+PHP抓取网页上所需要的数据

    最近使用后台的时候老是发现有些信息没法导出,又不想一个个复制很麻烦,想起以前做的一个小功能,用来抓取网页上的可用数据填充自己的数据库,由于网站需要登录才能访问,所以加上了curl的模拟登录 <? ...

  2. python抓取网站图片_python抓取图片示例 python抓取网页上图片

    python抓取网页上图片 这个错误时是什么意思 下面是代码 import re import urllib.request imp正则表达式匹配的url有错误 for x in add: print ...

  3. Python抓取网页云音乐指定歌手的歌曲和评论数量

    之前简单学了一下Python,没做过东西,心血来潮来了个idea,就写了一个抓取网页云音乐指定歌手的歌曲和评论数量的脚本. 代码如下,如果缺少包则用pip安装一下,不过AES加密用到的pycrypto ...

  4. 抓取网页上的图片(一)

    抓取网页上的图片 思路:网页(HTML)中的图片通常在img标签中,图片的链接通常在标签的src属性中,通过BeautifulSoup解析HTML,找到所有的img标签,获取每一个标签中的src的属性 ...

  5. python爬取网页上的特定链接_python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据)...

    上一卷中我们抓取了网页的所有内容,现在我们抓取下网页的图片名称以及连接 现在我再新建个爬虫文件,名称设置为crawler2 做爬虫的朋友应该知道,网页里的数据都是用文本或者块级标签包裹着的,scrap ...

  6. python实现抓取网页上的内容并发送到邮箱

    要达到的目的: 从特定网页中抓取信息,排版后发送到邮箱中 关键点: 下载网页,从网页里抓取出需要的信息 HTML排版 发送到指定邮箱 实现: 1.python下载网页 直接用库函数就可以实现 from ...

  7. java行程单解析获取内容_java如何抓取网页上的动态信息,获取源代码后如何分析JS?...

    首先明确我指的动态数据是什么. 名词定义:动态数据在这里指的是网页中由Javascript动态生成的页面内容,即网页源文件中没有,在页面加载到浏览器后动态生成的. 下面进入正题. 抓取静态页面很简单, ...

  8. stata抓取html,(5)详解 stata 爬虫抓取网页上的数据 part 1

    *案例:抓取 http://www.tjcn.org 中国统计信息网上前50页(每页包含20个市的数据)的1000个地区的GDP数据.使用stata版本为 stata13,与12版本和14版本都不兼容 ...

  9. 利用python抓取网页上的数独,并用回溯法破解

    这里抓取的是https://www.oubk.com/上不用登陆就能查看的数独 以下是抓取数独的代码: class Crawl_shudu(object):def __init__(self,url) ...

最新文章

  1. Ubuntu18.04 编译 ncnn
  2. 从起源、变体到评价指标,一文解读NLP的注意力机制
  3. 电子对抗中DRFM的基本原理
  4. java.lang.RuntimeException: Can't create handler inside thread that has not called Looper.prepare()
  5. 16、mybatis动态sql 批量插入
  6. WinForm 窗体之间交互的一些方法-兼托管事件
  7. 项目管理指标_项目经理必掌握的九大项目管理问题
  8. 我如何想成为Java
  9. 关于计算机的英语演讲稿三分钟,以计算机为题的英语演讲稿5
  10. centos6.8 安装python3.6
  11. 为什么 Linux Mint 比 Ubuntu好?
  12. ionic 去掉启动页的加载动画 菊花转
  13. php单元格字体颜色,PHPExcel API接口用法大全,按模板导入excel,美化excel,导出图片,设置单元格字体颜色背景色边框,合并单元格,设置行高列宽...
  14. [转载] python中 堆heapq以及 队列queue的使用
  15. 网络基础知识(黑马教程笔记)-7-异步编程和Promise
  16. 西门子界面官方精美触摸屏+WINCC程序模板 西门子官方触摸屏程序模板
  17. Eric,基于多搜索引擎的自动问答机器人
  18. IT新人的辛酸反省与总结
  19. android技术篇(三)解密data区
  20. 减肥--应该是种轻松愉快的经历

热门文章

  1. CISA 考试大纲及考点
  2. 科技初创企业遭遇IPO寒冬
  3. 【图解】Web前端实现类似Excel的电子表格
  4. linux 命令:which详解
  5. 台州爱乐搜5.18与您相约香溢大酒店
  6. 什么是G.652光缆
  7. HDU-1425 排序
  8. openwrt使用port-mirroring
  9. 基于PHP的图书管理系统
  10. Adobe软件老是出现要求输入密码的弹窗怎么解决?