现在公开一个DHT网络爬虫网络爬虫供大家一起交流
DHT网络本质上是一个用于查询的网络,其用于查询一个资源有哪些计算机正在下载。每个资源都有一个20字节长度的ID用于标示,称为infohash。当一个程序作为DHT节点加入这个网络时,就会有其他节点来向你查询,当你做出回应后,对方就会记录下你。对方还会询问其他节点,当对方开始下载这个infohash对应的资源时,他就会告诉所有曾经询问过的节点,包括你。这个时候就可以确定,这个infohash对应的资源在这个网络中是有效的。效果可以看下具体51搜索展示http://www.51bt.cc,结合Xunsearch全文检索技术,可以达到毫秒级的数据搜索
关于这个网络的工作原理,参看:P2P中DHT网络爬虫以及写了个磁力搜索的网页。
获取到infohash后能做什么?关键点在于,我们现在使用的磁力链接(magnet url),是和infohash对应起来的。也就是拿到infohash,就等于拿到一个磁力链接。但是这个爬虫还需要建立资源的信息,这些信息来源于种子文件。种子文件其实也是对应到一个资源,种子文件包含资源名、描述、文件列表、文件大小等信息。获取到infohash时,其实也获取到了对应的计算机地址,我们可以在这些计算机上下载到对应的种子文件。
现在公开一个DHT网络爬虫网络爬虫供大家一起交流相关推荐
- python爬虫网络请求超时_python总urllib,伪装,超时设置,异常处理的方法
python爬虫之urllib,伪装,超时设置,异常处理的方法 Urllib 1. Urllib.request.urlopen().read().decode() 返回一个二进制的对象,对这个对象进 ...
- python爬虫网络出错怎么办_Python爬虫常见问题
第一个问题:JS加密如何突破 (1) 熟练掌握Chrome的开发者工具的各个功能,Elements, Network,Source (2) 认真观察,善于思考.Network查看加载流程,找可疑的xh ...
- 爬虫的基本原理:网络爬虫、爬虫基本流程、解析方式、保存数据
爬虫的基本原理:网络爬虫.爬虫基本流程.解析方式 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集 ...
- 爬虫网络请求之JS解密一(百度企业信用)
爬虫网络请求之JS解密一(百度企业信用) 前言 反爬策略中最重要的一块领域就是在前端利用JS对数据请求参数进行加密或者数据隐藏(如大众点评的图像位移技术,即使使用代理也是无济于事,必须对JS进行驱动才 ...
- python网页爬虫漫画案例_python实现网络段子页爬虫案例
网上的Python教程大都是2.X版本的,python2.X和python3.X相比较改动比较大,好多库的用法不太一样,我安装的是python3.X,我们来看看详细的例子 0x01 春节闲着没事(是有 ...
- larbin是一种开源的网络爬虫/网络蜘
主要是配置larbin.conf文件和options.h 注意:更改前者可以直接运行,如果更改了第二个就要重新make了!!! 如果你英文够好的话就可以直接看了,都有详细的解释.不行的话就看翻译吧ht ...
- 一种新的爬虫网络解锁器
事出原由 遇到一个需要采集境外电商的需求,相比国内各种层出不穷的反爬手段,境外产品更注重于用户行为和指纹上. 所以笔者在想是否有类似于指纹浏览器的环境可以提供给爬虫采集器使用. 经过检索,找到了一种名 ...
- Python爬虫——网络爬虫简介
文章目录 Python爬虫--网络爬虫简介 1.爬虫介绍 2.爬虫的应用 3.爬虫的分类 Python爬虫--网络爬虫简介 1.爬虫介绍 网络爬虫(Web Spider)又称"网络蜘蛛&qu ...
- 网络江湖里爬虫玩的是一场“无间道”
电影<无间道>中,梁朝伟扮演在黑帮卧底的警察虽然能力出众,但也像普通人一样向往平静的生活,当与其单线联系的黄警官被杀,他在警局的档案又被在警局卧底的伪警察刘建明彻底删除后,再无法证明其真警 ...
- 1.1python初入网络爬虫-网络连接和BeautifulSoup库的使用
目录: 一,网络连接 1.网络连接的过程 2.python实现的网络连接功能 3.拓展: 二,BeautifulSoup简介 1.安装BeautifulSoup库 2.运行BeautifulSoup库 ...
最新文章
- Object​.assign()
- 重温强化学习之无模型学习方法:TD(lambda)
- cut、tee、split、xargs、bc命令
- linux挂载wondiws目录,linux cifs自动挂载windows硬盘或文件夹
- linux apache 安装 rewrite,Linux主机下Apache如何使用rewrite模块
- 分布式系统(微服务架构)的一致性和幂等性问题相关概念解析
- 银行业数据治理之数据资产管理
- camera(19)---camera 客观测试 Imatest教程
- 根目录_ubuntu 18.04 server版根目录只有4G?
- 关于数论【莫比乌斯反演】
- 10.Java面向对象(一)
- 用 MQL5 连接 EA 交易程序和 ICQ
- nx531j android版本,努比亚Z11(NX531J)官方固件rom全量系统升级更新包:V2.92
- 色环电阻、色环电容的识别方法
- 一个基于百度云和图灵的人工智能程序
- css 标点符号换行,字母汉字可以换行 标点符号不能换行_html/css_WEB-ITnose
- 量化开发必掌握的30个知识点【什么是分笔逐笔数据】?
- php域名绑定模块,ThinkPHP5.1 域名绑定模块
- 迅捷路由器造成计算机无法上网,迅捷fw325r路由器不能上网(连不上网)怎么办?...
- 【单片机基础】89C52单片机串口通信