大家好,国庆节过了,祝大家节日快乐,特别要祝是守候在群的一线的光棍们有情人可度,有梦想可求。今天讲一下网站数据的采集及实践。 谁都知道,以前建个站都是辛辛苦苦地一个代码一个代码敲出来的, 那时的站长真是苦工中的苦工,后来就出来的许多的网站模板, 再后来出现了CMS即content manager system(内容管理系统),如动易、DEDE、phmcms等等,这种大大方便了网站的制作和内容的录入。 无疑一个网站的内容丰富性和趣味性是吸引用户的地方,所以图片站总是很火,特别是美女图片(meinv38.com),如果想做一个站,复制粘贴肯定是不行的 一夜之间拥有几万张图片几万篇文章才是我们的梦想。那么实现的方式就是数据采集。 今天仅说下数据采集的一些基础东西,高手飘过,菜鸟认真的学,权当入门。

首先是内容的选择

网上世界千奇百怪,各个站长都千方百计地研究如何吸引眼珠。这做站如同做文章,不可能把所有的东西都收罗进来,要懂得取舍 再好的内容与你的网站主题也要符合,即使垃圾站(即无原创内容大部分是采集他人内容的站)初期阶段可能不予计较,但时间长了,垃圾站的目标仍是把垃圾做成精品,否则就死定了。

如何选择好的内容,我认为要做好以下几个方面:

①选择内容要你的站的主题符合的比较好。

比如做轴承站的可以采集轴承新闻、轴承技术什么的,也可以大一点采集机械制造方面的,但不要太偏离了,就不要选择美女图片这样的内容,虽然这类内容吸引人,但一方面给人造成的感觉不专业,另一方面也容易被百度K。 如果你觉得非采这个不可。可以搞个二级域名的方式专门建个相对独立的站,如pic.xxx.com,和主站相对脱节。 字串7

②采集的内容的格式尽量统一。

尽量选择些精品网站进行采集,采集内容的风格和格式要尽量统一,否则会显得不专业,显得太散乱,影响客户的访问情绪。

③不要一次性采集太多。在建站初期各个栏目适当采集几百条垫底就行了然后每天都采集一些,否则初期太多的流量对一个新站来说也无太大裨益,而且很危险,容易被百度K站。

④采集内容要选好关键字,做好网站的tag,不要见内容就收,否则真成垃圾了 查关键字在百度中的排位情况,是不是有可能冲击前几位,有一二个关键字就够了,这个是流量的保证,就是网站的SEO的一部分,最近才学的,不太懂哈。

⑤为避免百度K站,选择不同编码的站是个不错的建议,比如可以采集big5的繁体站转化成自己的gbk的,有能力的甚至可以通过机器翻译把英文的变成中文站,这样都是原创性的了,被百度K的可能性就是0。 我有一个客户把百度知识的东西通过翻译引擎直接做了个英文知识站。 招数千变,唯一的目标是有安全的流量。

⑥要采集的源站要有持续更新的能力,尽量不要采死站,呵呵, 一方面能经常采集,另一方面这样的站的信息有时效性,可保证你采集的内容新鲜。

其次讲下采集工具的选择

采集工具不下几十种,如何选择适当的工具要看各位的爱好,其实学好一二种采集工具就可以了。 有cms系统自带的如帝国cms自带的采集, 有专门的采集的软件如火车头、小蜜蜂、贴探小黑、守望、三人行、ET等等,下面简单介绍一下:

①火车头采集软件,这个是最早的采集的软件,也是大名鼎鼎的采集软件, 软件安装有点麻烦,软件采用.net 架构,不过也容易搞定。 字串8 软件的优点很多,规则制订也相对简单,可以制订整个站的规则,也可以本地入库同步发布到网站。 缺点是发布模块不容易找,而且难于开发,对新手来说很难发布成功。 因为作者近半年都没更新,bug比较多,最新的V3.2快出来了,还是值得期待的。

②小蜜蜂采集,这个可以和他的BBWPS--小蜜蜂商务网站门户系统整合使用,也可以单独用,需要本地装php环境,也半年没更新了 不过对国外的一些cms如joomla支持,还是不错的。刚才有问做英文站采集,用这个也是可以的

③贴探小黑 这个是收费的采集器,对新手来说还比较好用, 但规则制订感觉好别扭,比较好的解决了发布的问题,速度也很快,最新的4.0出来后作者可能会停止开发了 这个对论坛采集比较好,对网站的cms还不支持,还有不能多页采集,缺陷比较多。

④三人行 这个软件还是下了很多功夫的,界面有些粗糙,感觉不到位,有些作弊功能很不错,比如论坛同时在线、批量发贴等等 呵呵,平时很少用。由于作者的功利因素有很多不同名字的软件版本,功能基本一样,有些混乱。

⑤守望。这也是php的平台开发的,可直接安装在网站服务器上,直接采集到服务器上,这个比较好,免除了数据上传时间。

⑥ET。这个可谓后起之秀,比较好用,制订规则也简单灵活,但有的地方还不成熟。支持的系统还不多,不过潜力很大,新出的模拟提交,基本上绝大部分类型的采集都可做了。

以上是采集工具的介绍,哪种好用要看各位的偏好了。

采集用到的工具还包括抓包分析工具,如sniffer,wsockexpert等

ASP的采集器

源代码分析工具,对于地址隐藏的网页用遨游自带的viewpage也挺好, 好象火车头3.2附带的新的源代码分析工具放出来了,对一些难采集的网站可以试试。

一般大家喜欢用2000/xp自带的记事本查看源代码,建议升级到vistia的记事本,支持繁体和框架,绝对好用更深一步的还要学习破解ajax,就里就不介绍了。 第三个方面我讲采集数据的加工。数据采集来固然可以直接发布到网上去,但经过加工效果会更好。 数据的加工包括去掉别人的广告,换上自己的广告,过滤掉一些外站的链接

数据格式的简繁转换及编码转换

网站优化SEO处理等等 这里要注意的问题是别人广告一定要过滤干净,否则自己得不到广告费,别人的GG帐户也不安全,反而也害了别人。 还有SEO处理不要过份,适可而止,否则只会起反作用。 更高层次的采集是把采集内容变成自己的原创,这个需要高手自编程序对数据进行处理(qq2030.com)

目前为止还没见过这样的工具,不过有《疯狂作文》这样的软件出来,相信也不是做不到。

第四个方面是后续维护

这个后续维护也可以翻陈出新,把已采集的数据进行再加工,添加新的关键字,新瓶也可以装旧酒。

通过我对几十个客户的采集教程,谈下我的体会。 采集内容要关注一定热度的内容,比如QQ空间、QQ表情这些流量是很猛的,还有私服发布站、游戏类型的网站, 有针对性群体的网站也比较好做。我一个客户一个月前采集的女性论坛站,数据有4万,现在基本在线在150人左右,日发新贴140篇。还有一个台湾客户2个月前采集的verycd电影站,现在日增新注册用户50左右,可见垃圾站还是有做头的。大体内容就讲这些了,有什么需要了解的请朋友们提出来!

转载于:https://www.cnblogs.com/sinallj/archive/2008/10/22/1317106.html

如何让采集的数据比原创还要原创!相关推荐

  1. 数据科学家为什么还要学藏语?这不科学。首份藏文数字数据集出炉

    数据科学家:为什么还要学藏语?这不科学. 亲,结论别下得这么早. 这是一个杠精式的对话. 藏语应当从西藏讲起,西藏是全世界人民群众最喜欢的文化边区之一. 仓央嘉措曾说,住进布达拉宫,我是雪域最大的王. ...

  2. V4L2采集视频数据

    Video for Linux two(Video4Linux2)简称V4L2,是V4L的改进版.V4L2是linux操作系统下用于采集图片.视频和音频数据的API接口,配合适当的视频采集设备和相应的 ...

  3. MES系统会采集哪些数据?数据采集方式有哪些?

    一.MES系统采集哪些数据 1.财务数据 财务数据可导入MES核算生产成本.从很多企业实施信息化项目的经验看,数据对项目成功与否影响很大,因为数据问题以致项目运行不起来甚至失败的例子并不鲜见,因此在项 ...

  4. java多线程数据采集,【多线程数据采集课题】java采集网页数据方法

    [多线程数据采集专题]java采集网页数据方法 java多线程网络数据采集  第一步抓取数据. java采集网页数据.获取html文本节点 有几种办法.转载文章请注明来处:http://blog.cs ...

  5. android 音视频流采集,Android 音视频开发(四):使用 Camera API 采集视频数据(示例代码)...

    本文主要将的是:使用 Camera API 采集视频数据并保存到文件,分别使用 SurfaceView.TextureView 来预览 Camera 数据,取到 NV21 的数据回调. 注: 需要权限 ...

  6. 使用packetbeat 采集mysql数据

    实验环境: CentOS 6.7 X86_64 ELK版本:5.6.0 实验机器IP: 10.0.20.25 大部分操作及ELK语法这里我都省略掉了. 搭建ELK 这里实验方便起见,我只用一台主机演示 ...

  7. 【Android 应用开发】分析各种Android设备屏幕分辨率与适配 - 使用大量真实安卓设备采集真实数据统计

    .主要是为了总结一下 对这些概念有个直观的认识; . 作者 : 万境绝尘  转载请注明出处 : http://blog.csdn.net/shulianghan/article/details/198 ...

  8. api可以主动采集用户数据吗_自动采集数据

    自动采集数据,三个方式: agent 方式: agent:就是一个客户端,在客户端上放置采集程序,agent采集完数据后就直接返回给api程序(目前就是django的一个程序) agent程序: #! ...

  9. php html采集,php file_get_contents函数轻松采集html数据

    当前位置:Gxlcms > php框架 > php file_get_contents函数轻松采集html数据 php file_get_contents函数轻松采集html数据 时间:2 ...

最新文章

  1. Hadoop - MapReduce MRAppMaster-剖析
  2. Matlab基本函数-hidden函数,matlab中hidden off有什么用?
  3. 转: eclipse 快捷键列表(功能清晰版本)
  4. Compiling Fortran
  5. 跑monkey需要安装什么_坤秀为您解析无漆木门安装需要注意什么?
  6. 单机搭建Android开发环境(五)
  7. 作者:吕红胤,女,电子科技大学副研究员。
  8. 标准单元测试步骤:A -B-C-D-E-F
  9. vs2017远程编译linux教程,Visual Studio 2017 远程编译调试 Linux 上已存在的通过 Samba 共享的 CMake 工程...
  10. bing翻译接口appID申请教程【TranslateApiException: AppId is over the quota 】
  11. Echarts图表没数据的时候,用图片代替暂无数据(图片自适应)
  12. 武田呈报Mobocertinib治疗先前接受过含铂化疗的EGFR外显子20插入+ mNSCLC患者的阳性结果
  13. 全面解析 UI/UE/交互设计
  14. 昆山中创张嘉平:软件成为软件工程才容易成功
  15. 水哥王昱珩的教育语录:输不丢人,怕输才丢人
  16. 微信内网页链接被多人投诉导致拦截的解决方案
  17. OracleP6机场工程进度控制系列15:总进度综合管控报告
  18. Android TextView显示网络图片
  19. 隧道锚杆(一键生成)
  20. 遥控器从红外线向RF发展

热门文章

  1. linux连接到程序,Linux下C程序的链接过程
  2. Qt 事件系统的解读
  3. sql输出带颜色的字段_表输出步骤详解
  4. java 前端页面传过来的值怎么防止篡改_答对这40道经典web前端面试题,想不拿到offer都难!...
  5. 我的世界java版联机不稳定_完善自己:“联机版游戏玩家”如何通过社交完善自己,这个社交跟你想的也许不一样1.0...
  6. dubbo是长连接还是短连接_从快手短视频看,内容平台如何做好产品与用户的连接及运营实操...
  7. 朱棣文在哈佛大学毕业典礼上的演讲
  8. BZOJ 4898 Luogu P3778 [APIO2017]商旅 (分数规划、最短路)
  9. linux安装tomcat_【零基础学云计算】详述Linux系统中Tomcat部署及优化
  10. oracle学习笔记(十八) PL/SQL 游标