代购类网站商品高清晰大图片(1000x1000)的采集解决方案 - hackercai - 博客园

代购类网站商品高清晰大图片(1000x1000)的采集解决方案 - hackercai - 博客园

  • 博客园
  • 社区
  • 首页
  • 新随笔
  • 联系
  • 管理
  • 订阅

随笔- 2 
文章- 0 
评论- 2

代购类网站商品高清晰大图片(1000x1000)的采集解决方案

需求:
      代购类的网站,因为我们一直没有自拍的图片,用的是外网上抓来的,有些像素不好限制了我们放大图片,需要考虑一个万全之策,让图片最大限度的放大,还要清晰。

问题原因:

1.问题的根本原因:
   一般采用的程序在技术上对商品上传功能技术支持不足

2.图片上传采用的手段有待技术去提高和实现
1)一般情况我们的图片很多都是通过拷屏的方式去截取图片,然后压缩到385*385大小(举例)
这样的大小限制了图片放大功能的实现而且增加了很大的工作量
2)由于国外电商图片放大功能基本上是通过Flash技术来实现的
加之商品信息上传人员对网站技术不了解,找不到真正原始的商品图片
3.图片服务器
通过对市场部以及图片上传人员的调查,他们反映图片服务器容量受限
大量图片会造成图片服务器压力

问题分析:

鉴于代购类业务的特殊性,我们的商品信息和图片都来源国外电商,通过我对大量国外电商
网站商品信息和图片的分析,发现他们网站基本已经提供了高质量的图片,尤其是放大后的高清晰图片

例:
国外网站
http://www.xxxxxxxxxxxxxxxxxxxxx.com/
商品地址:
http://www.xxxxxxxxxxxxxxxxxxxxx.com/store/catalog/prod.jhtml?itemId=prod142710040&parentId=cat20720731&masterId=cat14120827&index=0&cmCat=cat000000cat000470cat14120827cat20720731

小图地址:
http://images.xxxxxxxxxxxxxxxxxxxxx.com/products/mg/NM-3JSV_mg.jpg
高清晰大图地址:
http://imagesxxxxxxxxxxxxxxxxxxxxx.com/products/mz/NM-3JSV_mz.jpg

解决方案

1.简单临时解决方案
    1)网站点击大图的时候直接打开的是国外电商的高清大图

2)技术人员培训图片上传人员怎么找到商品图片的原始大图的地址,然后添加到商品信息中

注:该方案实现方式最简单,但是会存在图片打开速度比较慢的情况
        "找图片URL"对上传图片人员可能会有些难度

2.根本解决方案
  1)首先要把图片服务器搞好,使其能够容纳大图片的存储
      a)图片存储
          大图片一般在500K-2M之间
          一条商品信息对于得图片资源(不包括商品介绍中的图片) 大约在3M左右
          10万条商品信息需要300G左右的存储空间和300G左右的备份存储空间
      b)图片整理
          需要有对垃圾图片和失效信息对于得图片的清理功能
   2)针对目前的商品上传功能进行升级
     a)简单实现:
        开发相应的商品信息采集功能,商品上传人员只需要输入国外电商的商品信息URL
        点击采集,商品信息和商品图片自动采集到我们的网站上
        然后商品上传人员在线对商品信息进行编辑优化,在线对商品图片进行裁减,放缩等操作
     b)自动采集
        开发专门的采集功能,定时采集或时时检测目标网站的商品信息,自动采集到我们网站然后
        商品上传人员再进行编辑
   3)技术实现
       a)Regex技术
          实现采集功能
       b)Http获取远程HTML代码
       c)HTML代码解析,去掉垃圾代码
       d)在线图片处理技术
          tapmodo-Jcrop插件
          Flash在线图片处理
          等等
        f)自动生成各种前台要求的略缩图
          如:
                图片              大小              图片规模
               高清原始大图  1200*1500   500K-2M
               商品信息主图  330*330       100K-200K
               首页展示中图  176*176       40-80K
               分类页展示图  150*150       20-40K
               颜色略缩图     48*48            5-15K
             一条商品需要总存储空间3M左右
          g)大图片的上传技术
             可以采用Flash等技术
             注:这些技术可以通过Baidu找到很多的案例和实现方法

4)实现难点
           a)图片在线处理

b)对每一个国外电商进行一对一的采集插件开发

5)需要处理的问题
         功能开发上线后,需要关注国外电商的商品信息展示架构是否发生变化
         随时调整其采集算法的实现

posted on 2012-04-23 22:21 lexus 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/lexus/archive/2012/04/23/2467182.html

代购类网站商品高清晰大图片(1000x1000)的采集解决方案 - hackercai - 博客园相关推荐

  1. HTML期末大作业~简单的程序员个人博客网站模板源码(HTML+CSS)~个人主页博客web网页设计制作~HTML简单个人网页制作~Web大学生网页成品...

    HTML期末大作业~ 简单的程序员个人博客网站模板源码(HTML+CSS)~学生HTML个人网页作业作品下载 ~个人主页博客网页设计制作 ~大学生个人网站作业模板 ~简单个人网页制作 临近期末, 你还 ...

  2. 电商网站商品模型之商品详情页设计方案 - 梦亦晓 - 博客园

    电商网站商品模型之商品详情页设计方案 - 梦亦晓 - 博客园

  3. Asp.net MVC 仿照博客园的简单网站首页 列表设计

    本来我打算采用ajax提交请求,异步的请求获取数据,但是我发现如果这样的话就会拖慢开发的进度,拖长时间.所以在这篇博客中仿照首页的列表设计其实和左侧列表网站分类采用了同样的方式,通过局部视图的方式呈现 ...

  4. 博客园是个大金矿,管理员不挖掘有些可惜:给博客园提一些双赢的建议

    当前十天排行榜里排在首页的文章是,『建议』给博客园官方的一个意见,这说明博客园的广大用户(也包括我)非常乐意看到博客园不断进步. 博客园在国内技术论坛里,应该说是有一定的知名度,每天的流量不少,要知道 ...

  5. CSDN、博客园、简书、oschina、Iteye各大社区现状

    本文分析了国内的几大技术社区(CSDN.博客园.简书.oschina.Iteye)现状,这些社区也是大家日常开发工作过程中查找资料最频繁的地方,从活跃度.内容.发展现状方面做了简单初级的分析,供参考. ...

  6. 博客园美化教程大集合----极致个性化你的专属博客(超详细,看这篇就够了)...

    阅读目录: 1. 前言 2. 定制自己的博客 00. 美化整体效果 01. 准备工作 02. 自定义个性化导航栏 03. 添加顶部博主信息 04. 添加顶部滚动公告 05. 为博客文章添加目录导航 0 ...

  7. 同样的文章2个网站2种待遇,2个眼光,博客园是逼我走、程序员网站是请我过去,这就是人才在不同公司的待遇一样的道理

    昨天晚上很热血的写了两篇文章,结果一个被博客园强制撤下首页. 今天被CSDN网站发布到首页,为我免费做广告,http://www.csdn.net/, 同时给我上了2个首页. C# ASP.NET 开 ...

  8. Python爬虫入门教程 54-100 博客园等博客网站自动评论器

    爬虫背景 爬虫最核心的问题就是解决重复操作,当一件事情可以重复的进行的时候,就可以用爬虫来解决这个问题,今天要实现的一个基本需求是完成"博客园" 博客的自动评论,其实原理是非常简单 ...

  9. 博客园与啊里云的故障假设:高需与低配(补充了降频论)

    背景:  博客园自从上了啊里云,故障频繁,使得大伙每星期都在看故障报告,对503不知不觉也建立直了深厚的友谊. 故障从硬盘IO到SLB到应用级别的,各自怀疑,各自检测,都各自坚持没问题,但情况是问题依 ...

  10. 让博客园的编辑器自动上传外链图片

    让博客园的编辑器自动上传外链图片 我经常翻译国外的文章,遇到这么个需求.如果要翻译的文章中包含了图片,那么复制到博客园的时候图片肯定是引用原网站的了.如果原网站是个人博客(任何时候域名都可能失效),或 ...

最新文章

  1. Linux 网络编程—— libpcap 详解
  2. python编程输入标准-Python中的输入与输出
  3. solr调用lucene底层实现倒排索引源码解析
  4. BZOJ2299 HAOI2011向量(数论)
  5. linux apache fcgi,编译安装apache2.2对应的mod_proxy_fcgi.so模块步骤,因为使用apache--phpfpm 需要这个...
  6. 深度学习(三)——Autoencoder, 词向量
  7. C++的int初始化
  8. CSDN博文大赛火爆开启
  9. 后端传到前端的字符串如何在pre标签中实现换行
  10. 痴情研究java内存中的对象
  11. JVM垃圾收集器(2)
  12. HyperLeger Composer 重启 | 进入play ground | 进入 couchdb
  13. 年度最强浏览器插件来袭,打造个人完美生产力
  14. 中南大学毕业设计(论文)LaTeX模板
  15. 3DS MAX 批量导出文件脚本 MAXScript 带界面
  16. A Pareto-Efficient Algorithm for Multiple Objective Optimization in E-Commerce Recommendation阅读翻译
  17. Mac安装双系统的那些坑
  18. MATLAB中将数字转换成罗马数字
  19. Three.js凹凸贴图bumpMap和法线贴图.normalMap
  20. 开源即时通讯IM框架MobileIMSDK的Uniapp端开发快速入门

热门文章

  1. PS全套抠图技法教程,快速抠头发/抠婚纱,带配套素材
  2. WebRTC 概念介绍--一篇读懂source、track、sink、mediastream
  3. egret php交互,JavaScript_Egret引擎开发指南之视觉编程,显示对象和显示列表 “显示 - phpStudy...
  4. Dota2 AI 简易开发教程
  5. 许奔创新社-第38问:如何练就跨界打劫的本领?
  6. Flask - Jinjia2
  7. Git之深入解析如何解决.git目录过大的问题
  8. EI会议论文发表流程剖析(史上最详细!经典!)
  9. VSCode搭建STM32开发环境(极简自我搭建懒人直接使用插件)
  10. 从零开始学JavaScript——基础篇