开发二代旅游网站程序和CMS的时候,有一个需求,就是从网上复制的内容,里面包含图片的,需要对把图片提取出来,并且保存到本地,并且把图片的URL地址本地化,以下是实现的代码。

开发二代旅游网站程序和CMS的时候,有一个需求,就是从网上复制的内容,里面包含图片的,需要对把图片提取出来,并且保存到本地,并且把图片的URL地址本地化,以下是实现的代码,功能和效果可以参考二代旅游CMS官网(http://www.erdaicms.com):

/* 远程图片本地化 $body为html原内容 */

function auto_save_image($body){

$img_array = explode('&',$body);

$img_array = array();

preg_match_all("/(src)=[\"|\'| ]{0,}(http:\/\/(.*)\.(gif|jpg|jpeg|bmp|png|JPEG|GIF|PNG))[\"|\'| ]{0,}/isU", $body, $img_array);

$img_array = array_unique($img_array[2]);//也可以自动匹配

set_time_limit(0);

$imgPath = "Uploads/article/".date("Y-m-d")."/";

$milliSecond = strftime("%H%M%S",time());

if(!is_dir($imgPath)) @mkdir($imgPath,0777);

foreach($img_array as $key =>$value)

{

$value = trim($value);

$get_file = @file_get_contents($value);

$rndFileName = $imgPath."/".$milliSecond.$key.".".substr($value,-3,3);

if($get_file)

{

$fp = @fopen($rndFileName,"w");

@fwrite($fp,$get_file);

@fclose($fp);

}

$body = @ereg_replace($value, '/'.$rndFileName, $body);

}

return $body;

}/* 提取图片数组 */function auto_return_image($body){

$img_array = explode('&',$body);

$img_array = array();

preg_match_all("/(src)=[\"|\'| ]{0,}(\/(.*)\.(gif|jpg|jpeg|bmp|png|JPEG|GIF|PNG))[\"|\'| ]{0,}/isU", $body, $img_array);

$img_array = array_unique($img_array[2]);//也可以自动匹配

return $img_array;

}最终效果如下:

1.png

( 10.84 KB 下载:13 次 )

AD:真正免费,域名+虚机+企业邮箱=0元

php自动抓取文章图片,从文章中提取图片,把图片保存到本地,自动提取缩略图...相关推荐

  1. 分享一款自动抓取公众号文章的工具

    1. 自己手工打造的工具 测试链接:http://mhtclub.com/html2richtext/ 在下面输入框输入想要抓取的公众号文章,点击获取文章内容,即可获取文章内容.目前支持抓取 http ...

  2. python公众号文章_Python 抓取微信公众号文章

    起因是刷微信的时候看到一篇文章,Python 抓取微信公众号文章保存成pdf,很容易搜到,就不贴出来了 先用chrome登陆微信公众号后台,先获取一下自己的cookie,复制下来就行,解析一下转换成 ...

  3. 记一次批量定时抓取微信公众号文章的实现

    记一次批量定时抓取微信公众号文章的实现 抓取前的说明和准备 数据的抓取 批量抓取 定时抓取 对爬虫防抓取机制的一些解决办法 最后 抓取前的说明和准备 本次抓取的选择的语言是java,本文章不会将整个工 ...

  4. java 微信文章评论点赞_使用fiddler抓取微信公众号文章的阅读数、点赞数、评论数...

    1 设置fiddler支持https 打开fiddler,在菜单栏中依次选择 [Tools]->[Options]->[HTTPS],勾上如下图的选项: 单击Actions,选择Expor ...

  5. 使用代理抓取反爬微信文章

    2019独角兽企业重金招聘Python工程师标准>>> 声明:此篇文章主要是观看静觅教学视频后做的笔记,原教程地址:https://cuiqingcai.com/ 在抓取网页时,某些 ...

  6. Python实现抓取微信公众号文章

    本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 前言 对于抓取微信公众号文章主要通过代理ip抓包进行的操作,总会出现一些问题,以下问题导致无法抓包. ...

  7. 网站在百度站长平台无上传站点LOGO权限下,如何实现LOGO图片在百度索引中自动抓取展现?

    最近美萌那边的大妹子找到我们部门要求解决网站LOGO显示错误的问题.领导将这个问题指派到我这里.我一看这个LOGO图片应该是百度自动抓取首页的一张图,该如何解决这个问题呢? 百度搜索引擎对于网站LOG ...

  8. python爬虫(17)爬出新高度_抓取微信公众号文章(selenium+phantomjs)

    个人博客请访问 http://www.x0100.top 一.思路分析 目前所知晓的能够抓取的方法有: 1.微信APP中微信公众号文章链接的直接抓取(http://mp.weixin.qq.com/s ...

  9. 我是如何白嫖 Github 服务器自动抓取每日必应壁纸的?

    如何使用 Github 服务器自动抓取必应搜索的每日壁纸呢? 如果你访问过必应搜索网站,那么你一定会被搜索页面的壁纸吸引,必应搜索的壁纸每日不同,自动更换,十分精美.这篇文章会介绍如何一步步分析出必应 ...

最新文章

  1. 命令行下编译Wordcount
  2. 浏览器扩展系列————透明浏览器窗口的实现
  3. charles 安装 ssl_charles抓包配置
  4. 制作镜像包时遇到的模块加载错误的问题
  5. [Ljava.lang.String; cannot be cast to java.lang.String
  6. 云上救命APP!——e代驾手机客户端!
  7. 【英语学习】【WOTD】cap-a-pie 释义/词源/示例
  8. 解决Linux下pcieport 0000:00:1c.5问题导致的系统根目录/磁盘空间不足
  9. File Manipulation
  10. 轻松解决U盘拷贝文件时提示文件过大问题
  11. python爬取邮件内容_Python实现获取邮箱内容并解析的方法示例
  12. 通过Cadence学拉扎维的第1天-直流仿真、交流仿真、瞬态仿真和参数扫描(以上期共源为例)
  13. MATLAB求解夏普利值
  14. 基于蚁群算法的多配送中心的车辆调度问题的研究(Matlab代码实现)
  15. Cisco交换机IOS升级
  16. 数字人民币的基础-共识与信任
  17. 【成长笔记】图片验证码识别
  18. “双料王”傍身,极智嘉Geek+成功开辟行业新蓝海
  19. 身份证OCR识别是什么?
  20. 精英主义 遗传算法 matlab,遗传算法优化 - osc_lfs4vsih的个人空间 - OSCHINA - 中文开源技术交流社区...

热门文章

  1. sde oracle11g,Arcsde post oracle11g报错解决办法
  2. 华为笔记本matebook13_华为引领“第三代移动办公”新纪元 华为MateBook开启“智慧化办公”新赛道...
  3. python判断两个列表内容是否一致_检查两个列表在Python中是否相同
  4. 数据列表的分页实现————分页敏捷开发
  5. SpringMVC教程下篇
  6. lpv4的地址格式由多少个字节组成_我们为什么有这么多字符编码格式?
  7. C语言指针怎么存二维数组,C语言怎么用指针代替二维数组
  8. STM32 串口接收流程-串口接收中断
  9. c++builder tadoquery存储过程_Electron桌面应用程序从创建项目、启动项目到打包程序的详细过程...
  10. web服务面试python_Python面试重点(web篇)