php抓取网页上的指定内容
<?php
//ignore_user_abort(true);
//set_time_limit(0);
//获取所有的政府机关和事业单位
$url = "http://www.tongda2000.com/company/news.php";
$contents = file_get_contents($url);
//如果出现中文乱码使用下面代码
$getcontent = iconv("gb2312", "utf-8",$contents);
echo $contents;
//exit;
$mode = "/ <ul class=\"newslist\">(.*)<div id=\"right\">/is";
preg_match_all($mode,$contents,$matches);
print_r($matches);
//exit;
$xinwen_str=$matches[0][0];
//echo $xinwen_str;
$xinwen_arr1=explode("<li>",$xinwen_str);
foreach($xinwen_arr1 as $key=>$value){
$xinwen_arr2=explode("</li>",$xinwen_arr1[$key]);
$xinwen_arr1[$key]=$xinwen_arr2[0];
$xinwen_arr1[$key]=str_replace("\n","",$xinwen_arr1[$key]);
$xinwen_arr1[$key]=str_replace("\r","",$xinwen_arr1[$key]);
}
//print_r($xinwen_arr1);
for($j=1;$j<count($xinwen_arr1);$j++){
$mode1 = "/(.*)<a/is";
preg_match_all($mode1,$xinwen_arr1[$j],$matches1);
$riqi_str=$matches1[0][0];
$riqi_arr=explode(" ",$riqi_str);
$riqi=$riqi_arr[0];//获取到日期
echo $riqi."<br>";
$mode2= "/>(.*)<\/a>/isU";
preg_match_all($mode2,$xinwen_arr1[$j],$matches2);
$title_str=$matches2[0][0];
$title_arr=explode(">",$title_str);
$title=str_replace("</a","",$title_arr[1]);//获取到名称
echo $title."<br>";
$lianjie_arr=explode("\"",$xinwen_arr1[$j]);
$lianjie=$lianjie_arr[1];
$a=strstr($lianjie,"http");
if($a=="") $lianjie="http://www.tongda2000.com".$lianjie;
echo $lianjie."<br>";
}
?>
php抓取网页上的指定内容相关推荐
- 用curl+PHP抓取网页上所需要的数据
最近使用后台的时候老是发现有些信息没法导出,又不想一个个复制很麻烦,想起以前做的一个小功能,用来抓取网页上的可用数据填充自己的数据库,由于网站需要登录才能访问,所以加上了curl的模拟登录 <? ...
- python抓取网站图片_python抓取图片示例 python抓取网页上图片
python抓取网页上图片 这个错误时是什么意思 下面是代码 import re import urllib.request imp正则表达式匹配的url有错误 for x in add: print ...
- Python抓取网页云音乐指定歌手的歌曲和评论数量
之前简单学了一下Python,没做过东西,心血来潮来了个idea,就写了一个抓取网页云音乐指定歌手的歌曲和评论数量的脚本. 代码如下,如果缺少包则用pip安装一下,不过AES加密用到的pycrypto ...
- 抓取网页上的图片(一)
抓取网页上的图片 思路:网页(HTML)中的图片通常在img标签中,图片的链接通常在标签的src属性中,通过BeautifulSoup解析HTML,找到所有的img标签,获取每一个标签中的src的属性 ...
- python爬取网页上的特定链接_python3下scrapy爬虫(第三卷:初步抓取网页内容之抓取网页里的指定数据)...
上一卷中我们抓取了网页的所有内容,现在我们抓取下网页的图片名称以及连接 现在我再新建个爬虫文件,名称设置为crawler2 做爬虫的朋友应该知道,网页里的数据都是用文本或者块级标签包裹着的,scrap ...
- python实现抓取网页上的内容并发送到邮箱
要达到的目的: 从特定网页中抓取信息,排版后发送到邮箱中 关键点: 下载网页,从网页里抓取出需要的信息 HTML排版 发送到指定邮箱 实现: 1.python下载网页 直接用库函数就可以实现 from ...
- java行程单解析获取内容_java如何抓取网页上的动态信息,获取源代码后如何分析JS?...
首先明确我指的动态数据是什么. 名词定义:动态数据在这里指的是网页中由Javascript动态生成的页面内容,即网页源文件中没有,在页面加载到浏览器后动态生成的. 下面进入正题. 抓取静态页面很简单, ...
- stata抓取html,(5)详解 stata 爬虫抓取网页上的数据 part 1
*案例:抓取 http://www.tjcn.org 中国统计信息网上前50页(每页包含20个市的数据)的1000个地区的GDP数据.使用stata版本为 stata13,与12版本和14版本都不兼容 ...
- 利用python抓取网页上的数独,并用回溯法破解
这里抓取的是https://www.oubk.com/上不用登陆就能查看的数独 以下是抓取数独的代码: class Crawl_shudu(object):def __init__(self,url) ...
最新文章
- Ubuntu18.04 编译 ncnn
- 从起源、变体到评价指标,一文解读NLP的注意力机制
- 电子对抗中DRFM的基本原理
- java.lang.RuntimeException: Can't create handler inside thread that has not called Looper.prepare()
- 16、mybatis动态sql 批量插入
- WinForm 窗体之间交互的一些方法-兼托管事件
- 项目管理指标_项目经理必掌握的九大项目管理问题
- 我如何想成为Java
- 关于计算机的英语演讲稿三分钟,以计算机为题的英语演讲稿5
- centos6.8 安装python3.6
- 为什么 Linux Mint 比 Ubuntu好?
- ionic 去掉启动页的加载动画 菊花转
- php单元格字体颜色,PHPExcel API接口用法大全,按模板导入excel,美化excel,导出图片,设置单元格字体颜色背景色边框,合并单元格,设置行高列宽...
- [转载] python中 堆heapq以及 队列queue的使用
- 网络基础知识(黑马教程笔记)-7-异步编程和Promise
- 西门子界面官方精美触摸屏+WINCC程序模板 西门子官方触摸屏程序模板
- Eric,基于多搜索引擎的自动问答机器人
- IT新人的辛酸反省与总结
- android技术篇(三)解密data区
- 减肥--应该是种轻松愉快的经历