2019独角兽企业重金招聘Python工程师标准>>>

   前面转载了一篇关于淘宝屏蔽百度的文章,但是那是其他人的看法,还是想发表一下

自己的看法,当然由于本人对屏蔽爬虫内幕了解不是很多,只是作为一个旁观者,发表 的观点可能存在错误性的认识,这里只是发表个人看法,表达可能不是很清晰,请谅解。 各大网站屏蔽搜索引擎抓取,在一定程度上可以看作是垂直搜索引擎与通用搜索引擎的 对抗,这种屏蔽我认为是通用搜索引擎没落的开始,当然,说没落不是代表以后不再使用 ,这里有点夸张。 首先作为一个互联网企业,像百度,搜狐等搜索引擎公司,面对搜索领域的竞争以及企业未来的发展,我认为仅仅提高搜索技术是不够的,一个互联网企业要想壮大,需要借助自己现有的优势,不断的向其他领域扩展,像腾讯帝国,借助qq的影响,不断扩张领域,包括腾讯游戏,商城等。转载的文章中提到百度排名的弊端以及带来的问题,我不认为这是主要的原因。个人认为主要的原因是淘宝是怕被百度“吞并”,举个例子,如果淘宝不再屏蔽百度的爬取,那么会有一部分人直接通过百度搜索来购买商品,通过百度搜索可以搜索到不同网站的商品,商品数量大,以及价格对比等优势,人们会越来越依赖于百度,而不再是淘宝。如果一个以前仅从淘宝上购买物品,现在如果通过百度搜索,通过商品对比以及价格的对比等诸多因素,那么这个人很有可能会选择从其他网站购买。一时间可能淘宝还在人们的心中存在一定的影响力,但是随着时间的推移,人们网上购物对淘宝/百度的依赖程度会发生潜移默化的变化,这样一来,淘宝势必走向衰落,说走向衰落你可能绝得夸张。也许你会说,虽然是通过百度搜索,但人们依然是在淘宝上购买的,是的,此时也许影响比较小。那么大家可以看看百度近些年的发展趋势,举个例子,以前如果你要搜pdf转word软件,百度会直接显示相关的软件,这些小软件没有可能是来自其他很多大型的软件下载网站,然而,现在百度也提供了pdf转word功能,而且在排名列表中处于第一的位置,可以确定的是其他软件的使用点击量已经少了不少。可以对比来看,其他的大型软件下载网站相当于淘宝等网站,pdf转word软件相当于淘宝上的商品,那么淘宝等网站的结果就不用说了。 个人认为通用搜索引擎与垂直搜索引擎的较量时间的长短与成败,在于垂直搜索邻域的坚持,成败不代表某一个就退出,而是代表流量的多少。

转载于:https://my.oschina.net/u/1040123/blog/125626

各大网站屏蔽搜索引擎抓取分析相关推荐

  1. 搜索引擎只能抓取html文件,通过robots屏蔽搜索引擎抓取网站内容

    robots协议屏蔽搜索引擎抓取 Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Rob ...

  2. 百度VS淘宝 (淘宝网正式向百度宣战:淘宝网将屏蔽百度的搜索引擎抓取)

    昨天,淘宝网正式向百度宣战:淘宝网将屏蔽百度的搜索引擎抓取. 听到这个消息后我非常震惊,看来互联网这场电子商务大战正在拉开帷幕. 首先说淘宝 1.马云的决定 首先说马云,马云采用屏蔽搜索引擎这招狠棋应 ...

  3. 阻止搜索引擎抓取网站的工具_使用PHP将抓取的网站转变为搜索引擎

    阻止搜索引擎抓取网站的工具 In the previous part of this tutorial, we used Diffbot to set up a crawljob which woul ...

  4. scrapy 搜索关键字_解析搜索引擎抓取网站目标关键词原理

    一个网站有几百甚至几千个关键词,怎么让搜索引擎知道网站的目标关键词是什么呢? 解析搜索引擎抓取网站目标关键词原理 一.网站标题(Title),网站标题是搜索引擎最重视的部分,通常情况下,无论网站是否存 ...

  5. 百度认为什么样的网站更有抓取和收录价值

    百度认为什么样的网站更有抓取和收录价值 百度认为什么样的网站更有抓取和收录价值呢?我们从下面几个方面简单介绍.鉴于技术保密以及网站运营的差异等其他原因,以下内容仅供站长参考,具体的收录策略包括但不仅限 ...

  6. 如何让搜索引擎抓取AJAX内容

    2019独角兽企业重金招聘Python工程师标准>>> 越来越多的网站,开始采用"单页面结构"(Single-page application). 整个网站只有一 ...

  7. python 自动抓取分析房价数据——安居客版

    引言 中秋回家,顺便想将家里闲置的房子卖出去.第一次卖房,没经验,于是决定委托给中介.中介要我定个价.最近几年,房价是涨了不少,但是长期在外,也不了解行情.真要定个价,心里还没个数.网上零零散散看了下 ...

  8. js和css被屏蔽了,是否屏蔽蜘蛛抓取JS和CSS文件

    做网站的人都知道,在查看日志的时候,会发现JS.CSS文件被蜘蛛抓取的频率特别高,于是有人便考虑在robots.txt屏蔽蜘蛛抓取js和css文件,节省蜘蛛时间给其他页面.是否屏蔽蜘蛛抓取JS和CSS ...

  9. disallow: /api.php,dz论坛如何禁止搜索引擎抓取任何内容?

    这其实不只是针对于discuz这个程序建的网站,针对所有的网站都有效.网站的根目录有一个robots.txt文件.这个就相当于一个协议.它告诉搜索引擎,你可以抓取我网站里的哪些内容.所以,想要禁止搜索 ...

最新文章

  1. python3 计时性能测试 %timeit %%timeit
  2. springboot创建parent_Springboot 框架整理,建议做开发的都看看,整理的比较详细!...
  3. sift的java实现解述
  4. 成功解决AttributeError: module tensorflow has no attribute placeholder
  5. 做一名真正的软件工程师
  6. mybatis简单案例源码详细【注释全面】——测试层(UserMapperTest.java)
  7. axios网络请求框架源码解析
  8. char double java_java从入门到精髓 - Number char double float
  9. 比特币近24小时内链上交易额有所上升,约为345.44亿美元
  10. 逻辑学 —— 复杂问题谬误
  11. Luogu2617 Dynamic Rankings
  12. windows美化指南秒变mac风格
  13. Flask学习笔记之:jinja2变量过滤器以及自定义过滤器
  14. windows ping 端口
  15. laravel7 LogicException Please make sure the PHP Redis extension is installed and enabled
  16. 分类评价指标(二分类)——f1score sensitivity specificity roc曲线 auc
  17. 电脑C盘空间严重不足,教你5招!电脑内存瞬间多出10个G
  18. 【Py】基于Python的身份证读卡器二开全记录
  19. BIND9手册【转】
  20. ArcGIS操作系列10- Arcmap 中矢量图层面积的计算方法

热门文章

  1. Datawhale面经项目来了!
  2. 现金奖励+实习offer!数据库大赛来了
  3. 优秀工程师至关重要的一项技能,你解锁了吗?
  4. 多地给毕业生发补贴!有的高达6000元/人
  5. “2017 和 2019的对比”刷屏!各路高手出招,画风逐渐失控
  6. 8种最坑的SQL错误用法,第一个就很坑?
  7. Python面试必备—分布式爬虫scrapy+redis解析
  8. JUC AQS ReentrantLock源码分析
  9. 如何在linux下写脚本定时备份mysql数据库
  10. HyperPocket:生成点云网络