演示:文件搜wjsou.com 数据采集于各大网盘搜索引擎,并删去失效的。

1.使用谷歌自动义搜索。但谷歌咱访问不了。

2.但有些人能访问,VPN或在国外等,这些网盘搜索引擎有钱搞,那我就采集他们网站的。通过爬虫爬各大网盘搜索引擎。

3.通过爬虫爬其它大量分享的。

下面就来试试

1.获得搜索关键词:通过百度风云排行榜获得,还可以通过各大网盘搜索引擎的首页获得。

2.各大网盘搜索引擎为了SEO,一般加几个子网面。但都有固定的结构,这样就好办了。

3.通过最终网盘链接页提取数据。文件名,链接,文件大小,文件类型,分享时间,是否有效等

倒着来说

一.通过最终网盘链接页提取数据。

1.提取:文件名

要采集的示例:https://pan.baidu.com/share/link?uk=2433762860&shareid=2999758878

源码:右键查看源码

文件名name 正则表达式:<title>(?<name>.*)_免费高速下载\|百度网盘-分享无限制</title>

说明链接是有效的。

发现源码里没有文件大小,那应该是动态获得的。百度网盘10万次每天就会封IP,第二天也不能访问。

二.通过倒数第二链接页提取数据。

1.提取:文件名
示例:http://www.pansoso.com/?a=url&u=aHR0cDovL3Bhbi5iYWlkdS5jb20vc2hhcmUvbGluaz91az01OTAyMDczODcmc2hhcmVpZD0zMTYxNDEyMjc2&t=MzYw5rqQ56CBLnppcA==&s=5rqQ56CB
正则表达式:(?<=<title>).*?(?=下载_网盘下载_盘搜搜</title>)
结果:360源码.zip

2.提取:文件链接
示例:view-source:http://www.pansoso.com/?a=url&u=aHR0cDovL3Bhbi5iYWlkdS5jb20vc2hhcmUvbGluaz91az01OTAyMDczODcmc2hhcmVpZD0zMTYxNDEyMjc2&t=MzYw5rqQ56CBLnppcA==&s=5rqQ56CB
正则表达式:(?<=href=")(http|https)://(pan|yun)\.baidu\.com/.*?(?=")

结果:http://pan.baidu.com/share/link?uk=590207387&shareid=3161412276

三.通过搜索结果页提取数据。http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
<div class="des">文件名:[动画]灵.域5 , 文件大小:1KB , 分享时间:2017-10-31 , 下载次数:3次 ... 登录百度云网盘客户端下载送2T空间 电脑版</div>

<a href="/?a=url&amp;u=aHR0cHM6Ly9wYW4uYmFpZHUuY29tL3NoYXJlL2xpbms@c2hhcmVpZD0zNzU0NTIyMzQmdWs9MzQxMTA2OTc2OQ==&amp;t=W!WKqOeUu13ngbUu5Z!fNQ==&amp;s=54G15Z!f" target="_blank" rel="nofollow" id="pss-8cfbeff2">[动画]灵.域5</a>

1.提取:文件名
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:(?<=文件名:).*?(?= ,)   某某之后,非换行,尽可能少,某某之前
结果:[动画]灵.域5

2.提取:通向文件地址的链接
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:/?a=url.*?(?=")
结果:a=url&u=aHR0cHM6Ly9wYW4uYmFpZHUuY29tL3NoYXJlL2xpbms@c2hhcmVpZD0zNzU0NTIyMzQmdWs9MzQxMTA2OTc2OQ==&t=W!WKqOeUu13ngbUu5Z!fNQ==&s=54G15Z!f

3.提取:文件大小
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:(?<=文件大小:).*?(?= ,)
结果:1KB

4.提取:分享时间
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:(?<=分享时间:).*?(?= ,)
结果:2017-10-31

5.提取:下载次数
示例:http://www.pansoso.com/zh/%E7%81%B5%E5%9F%9F
正则表达式:(?<=下载次数:).*?(?=次)
结果:3

百度网盘关了外链采集接口,如何采集百度网盘外链? 采集各大网盘搜索引擎相关推荐

  1. 5A资源网是中国最全最大的网络资源交易与买卖平台。集合了各大网盘资源交易、游戏资源交易、软件资源交易和建站资源交易等。找优质资源首选5A资源网!

    5A资源网是中国最全最大的网络资源交易与买卖平台.集合了各大网盘资源交易.游戏资源交易.软件资源交易和建站资源交易等.找优质资源首选5A资源网! www.5azyw.com

  2. 京东高效转链API接口—商品优惠券二合一转链—京东联盟优惠券如何转链?

    API接口说明: 将您的联盟信息.商品SKU以及优惠券链接进行转链,返回商品的二合一领券下单链接,转链后的结果可进行推广 应用场景: 应用于导购平台内的商品转链 操作案例: 联盟ID:随便一个京东联盟 ...

  3. 2023最新最强网盘资源搜索引擎,聚合搜索6大网盘资源

    今天跟大家推荐一个超强的网盘资源搜索网站,主要强在以下几点: 聚合搜索6大网盘的资源 资源都比较新且丰富 支持按照网盘.资源类型进行筛选 网站无任何套路(无需登录注册,无广告) 千帆搜索 - 资源超丰 ...

  4. 盛大网盘出现故障,无法正常访问

    领测软件测试网(http://www.ltesting.net)记者发现,2012-03-07 上午 10点左右,登陆盛大网盘发现,原先共享的地址无法访问,浏览器直接报无法正常访问. 领测软件测试网记 ...

  5. API采集接口源码电商采集工具接口

    API采集接口源码是一个非常重要的工具,它可以帮助我们快速地获取各种数据,比如新闻.股票.天气.地图等等.在这篇文章中,我们将会介绍API采集接口源码的一些基本知识,并且给出一些实用的例子. 一.AP ...

  6. savefiles提供免费25G网盘,可外链图片、视频

    savefiles网盘提供免费的25g容量给注册用户,单个文件最大可上传2g,可以外链图片.视频等文件到网页.上传速度快,不限制下载次数,不限速.国外网盘虽说不限速但也不可能像国内网盘那么快.游客也可 ...

  7. php 百度网盘上传文件大小限制吗,百度云存储,curl_百度云存储如何上传数G超大文件(视频类)和防盗链等一系列问题,百度云存储,curl - phpStudy...

    百度云存储如何上传数G超大文件(视频类)和防盗链等一系列问题 最近在开发一个视频网站,打算用百度开放云平台上的云存储,但视频较大,一般有几个G(高清电影).1G一下的视频管理控制台里能用页面上传,但1 ...

  8. Pandownload关了,还有更牛逼的百度网盘全速下载方法

    Pandownload软件关停公告 大家好,我是PanDownload的作者.很遗憾的告诉大家,由于个别黑心商家将本免费软件×××卖,现决定即日起暂停软件使用.本软件自去年2月9号首次发布以来,一直坚 ...

  9. python微信开发实例 pdf 百度网盘_用python看女神微信里的百度云资源有啥?

    最近小编一直苦心研究,怎么给大家发放更多的资料和资源链接.大家都知道,百度云的分享链接是很容易被和谐的,群里除了分享链接外,就是各种抱怨 "怎么又失效了","又和谐了.. ...

最新文章

  1. 神经网络“炼丹炉”内部构造长啥样?牛津大学博士小姐姐用论文解读
  2. BZOJ3238: [Ahoi2013]差异
  3. micopython 18b20_MicroPython控制8*8LED点阵显示温度
  4. 中国广告营销行业资本报告2020
  5. 【H5营销活动】近期捷微H5营销活动大盘点
  6. openstack内存占用清理
  7. Angular / Ionic,React,Vue? 使用Stencil.js面向未来的应用程序!
  8. vue项目中eslint检查警告——“Trailing spaces not allowed”
  9. java版如何使区块常加载,Java类加载机制 - suer27zhu的个人空间 - OSCHINA - 中文开源技术交流社区...
  10. C# DataSet和DataTable详解
  11. 软件测试jmeter面试问题,jmeter 面试题剖析实战
  12. Shiro记住我无效,被拦截;
  13. mysql打字竖线_如何打出竖线,教你怎样键盘打出竖线?
  14. Ubuntu18.04 + 树莓派4B + wifi + 换源 +ssh + 防火墙相关 + mate桌面 + + vnc + ROS Melodic
  15. 【转载】 恢复百度云同步盘本地误删的文件(2篇)
  16. legacy引导gpt分区_安装win10用uefi还是legacy引导模式?(最全分析)
  17. C++创建桌面应用程序:处理对话框DialogBox
  18. 腾讯游戏学院-----游戏引擎中的多线程和内存管理【笔记二】
  19. Cesium(5):基于callbackproperty做洪水淹没三维动态分析
  20. Oracle中tablesinfo_Oracle X$Tables | 學步園

热门文章

  1. R语言科学计数法数据改变/丢失/失准,取消科学计数法的原因和解决方法
  2. IT审计 独立于IT管理的监督过程(zt)
  3. Jenkins使用经验谈4(创建Job)
  4. leetcode剑指offer4
  5. 计算思维与数据科学 K-Means聚类模型信用卡用户风险评估 python连接数据库来处理数据
  6. android 实现控件搜索折叠效果 Animation动画折叠和普通折叠
  7. 黑马程序员--Objective-C之--block的使用以及协议的简单介绍
  8. pd15不能连接oracle11g,PowerDesigner15 使用时的十五个问题附解决方法
  9. 【CNN】理解卷积神经网络中的通道 channel
  10. 服务器主板电源适配器维修,联想电源适配器坏了怎么办 联想电源适配器维修方法...