php自动抓取文章图片,从文章中提取图片,把图片保存到本地,自动提取缩略图...
开发二代旅游网站程序和CMS的时候,有一个需求,就是从网上复制的内容,里面包含图片的,需要对把图片提取出来,并且保存到本地,并且把图片的URL地址本地化,以下是实现的代码。
开发二代旅游网站程序和CMS的时候,有一个需求,就是从网上复制的内容,里面包含图片的,需要对把图片提取出来,并且保存到本地,并且把图片的URL地址本地化,以下是实现的代码,功能和效果可以参考二代旅游CMS官网(http://www.erdaicms.com):
/* 远程图片本地化 $body为html原内容 */
function auto_save_image($body){
$img_array = explode('&',$body);
$img_array = array();
preg_match_all("/(src)=[\"|\'| ]{0,}(http:\/\/(.*)\.(gif|jpg|jpeg|bmp|png|JPEG|GIF|PNG))[\"|\'| ]{0,}/isU", $body, $img_array);
$img_array = array_unique($img_array[2]);//也可以自动匹配
set_time_limit(0);
$imgPath = "Uploads/article/".date("Y-m-d")."/";
$milliSecond = strftime("%H%M%S",time());
if(!is_dir($imgPath)) @mkdir($imgPath,0777);
foreach($img_array as $key =>$value)
{
$value = trim($value);
$get_file = @file_get_contents($value);
$rndFileName = $imgPath."/".$milliSecond.$key.".".substr($value,-3,3);
if($get_file)
{
$fp = @fopen($rndFileName,"w");
@fwrite($fp,$get_file);
@fclose($fp);
}
$body = @ereg_replace($value, '/'.$rndFileName, $body);
}
return $body;
}/* 提取图片数组 */function auto_return_image($body){
$img_array = explode('&',$body);
$img_array = array();
preg_match_all("/(src)=[\"|\'| ]{0,}(\/(.*)\.(gif|jpg|jpeg|bmp|png|JPEG|GIF|PNG))[\"|\'| ]{0,}/isU", $body, $img_array);
$img_array = array_unique($img_array[2]);//也可以自动匹配
return $img_array;
}最终效果如下:
1.png
( 10.84 KB 下载:13 次 )
AD:真正免费,域名+虚机+企业邮箱=0元
php自动抓取文章图片,从文章中提取图片,把图片保存到本地,自动提取缩略图...相关推荐
- 分享一款自动抓取公众号文章的工具
1. 自己手工打造的工具 测试链接:http://mhtclub.com/html2richtext/ 在下面输入框输入想要抓取的公众号文章,点击获取文章内容,即可获取文章内容.目前支持抓取 http ...
- python公众号文章_Python 抓取微信公众号文章
起因是刷微信的时候看到一篇文章,Python 抓取微信公众号文章保存成pdf,很容易搜到,就不贴出来了 先用chrome登陆微信公众号后台,先获取一下自己的cookie,复制下来就行,解析一下转换成 ...
- 记一次批量定时抓取微信公众号文章的实现
记一次批量定时抓取微信公众号文章的实现 抓取前的说明和准备 数据的抓取 批量抓取 定时抓取 对爬虫防抓取机制的一些解决办法 最后 抓取前的说明和准备 本次抓取的选择的语言是java,本文章不会将整个工 ...
- java 微信文章评论点赞_使用fiddler抓取微信公众号文章的阅读数、点赞数、评论数...
1 设置fiddler支持https 打开fiddler,在菜单栏中依次选择 [Tools]->[Options]->[HTTPS],勾上如下图的选项: 单击Actions,选择Expor ...
- 使用代理抓取反爬微信文章
2019独角兽企业重金招聘Python工程师标准>>> 声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址:https://cuiqingcai.com/ 在抓取网页时,某些 ...
- Python实现抓取微信公众号文章
本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 前言 对于抓取微信公众号文章主要通过代理ip抓包进行的操作,总会出现一些问题,以下问题导致无法抓包. ...
- 网站在百度站长平台无上传站点LOGO权限下,如何实现LOGO图片在百度索引中自动抓取展现?
最近美萌那边的大妹子找到我们部门要求解决网站LOGO显示错误的问题.领导将这个问题指派到我这里.我一看这个LOGO图片应该是百度自动抓取首页的一张图,该如何解决这个问题呢? 百度搜索引擎对于网站LOG ...
- python爬虫(17)爬出新高度_抓取微信公众号文章(selenium+phantomjs)
个人博客请访问 http://www.x0100.top 一.思路分析 目前所知晓的能够抓取的方法有: 1.微信APP中微信公众号文章链接的直接抓取(http://mp.weixin.qq.com/s ...
- 我是如何白嫖 Github 服务器自动抓取每日必应壁纸的?
如何使用 Github 服务器自动抓取必应搜索的每日壁纸呢? 如果你访问过必应搜索网站,那么你一定会被搜索页面的壁纸吸引,必应搜索的壁纸每日不同,自动更换,十分精美.这篇文章会介绍如何一步步分析出必应 ...
最新文章
- 命令行下编译Wordcount
- 浏览器扩展系列————透明浏览器窗口的实现
- charles 安装 ssl_charles抓包配置
- 制作镜像包时遇到的模块加载错误的问题
- [Ljava.lang.String; cannot be cast to java.lang.String
- 云上救命APP!——e代驾手机客户端!
- 【英语学习】【WOTD】cap-a-pie 释义/词源/示例
- 解决Linux下pcieport 0000:00:1c.5问题导致的系统根目录/磁盘空间不足
- File Manipulation
- 轻松解决U盘拷贝文件时提示文件过大问题
- python爬取邮件内容_Python实现获取邮箱内容并解析的方法示例
- 通过Cadence学拉扎维的第1天-直流仿真、交流仿真、瞬态仿真和参数扫描(以上期共源为例)
- MATLAB求解夏普利值
- 基于蚁群算法的多配送中心的车辆调度问题的研究(Matlab代码实现)
- Cisco交换机IOS升级
- 数字人民币的基础-共识与信任
- 【成长笔记】图片验证码识别
- “双料王”傍身,极智嘉Geek+成功开辟行业新蓝海
- 身份证OCR识别是什么?
- 精英主义 遗传算法 matlab,遗传算法优化 - osc_lfs4vsih的个人空间 - OSCHINA - 中文开源技术交流社区...
热门文章
- sde oracle11g,Arcsde post oracle11g报错解决办法
- 华为笔记本matebook13_华为引领“第三代移动办公”新纪元 华为MateBook开启“智慧化办公”新赛道...
- python判断两个列表内容是否一致_检查两个列表在Python中是否相同
- 数据列表的分页实现————分页敏捷开发
- SpringMVC教程下篇
- lpv4的地址格式由多少个字节组成_我们为什么有这么多字符编码格式?
- C语言指针怎么存二维数组,C语言怎么用指针代替二维数组
- STM32 串口接收流程-串口接收中断
- c++builder tadoquery存储过程_Electron桌面应用程序从创建项目、启动项目到打包程序的详细过程...
- web服务面试python_Python面试重点(web篇)