域名带后缀_[Python 爬虫]获取顶级域名及对应的 WHOIS Server 及 whoisservers.txt 下载...
环境:
Windows 10
Python 3.9.1
顶级域名列表https://www.iana.org/domains/root/db获取顶级域名的 WHOIS Server点击带查询的顶级域名,往下拉 WHOIS Server
每个域名后缀对应的 WHOIS Server 是不一样的。安装 beautifulsoup4 库
pip install beautifulsoup4
安装 requests 库
python -m pip install requests
获取顶级域名列表
import requests from bs4 import BeautifulSoup iurl = 'https://www.iana.org/domains/root/db' res = requests.get(iurl, timeout=600) res.encoding = 'utf-8' soup = BeautifulSoup(res.text, 'html.parser') list1 = [] list2 = [] jsonStr = {} for tag in soup.find_all('span', class_='domain tld'): d_suffix = tag.get_text() print(d_suffix)
获取顶级域名及对应的 WHOIS Server 并保存可用于 WhoisCL.exe 的文件 whois-servers.txt
import requests from bs4 import BeautifulSoup import re import time iurl = 'https://www.iana.org/domains/root/db' res = requests.get(iurl, timeout=600) res.encoding = 'utf-8' soup = BeautifulSoup(res.text, 'html.parser') list1 = [] list2 = [] jsonStr = {} for tag in soup.find_all('span', class_='domain tld'): d_suffix = tag.get_text() print(d_suffix) list2.append(d_suffix) n_suffix = d_suffix.split('.')[1] new_url = iurl + '/' + n_suffix server = '' try: res2 = requests.get(new_url, timeout=600) res2.encoding = 'utf-8' soup2 = BeautifulSoup(res2.text, 'html.parser')
retxt = re.compile(r'WHOIS Server: (.*?)\n') arr = retxt.findall(res2.text) if len(arr) > 0: server = arr[0] list2.append(server) print(server) time.sleep(1) except Exception as e: print('超时') with open('whois-servers.txt', "a", encoding='utf-8') as my_file: my_file.write(n_suffix + " " + server+'\n') print('抓取结束')
whois-servers.txt 在公众号中回复
whois-servers.txt
域名带后缀_[Python 爬虫]获取顶级域名及对应的 WHOIS Server 及 whoisservers.txt 下载...相关推荐
- 用几个最简单的例子带你入门 Python 爬虫
作者 | ZackSock 来源 | 新建文件夹X(ID:ZackSock) 头图 | CSDN下载自视觉中国 前言 爬虫一直是Python的一大应用场景,差不多每门语言都可以写爬虫,但是程序员们却独 ...
- 图解爬虫,用几个最简单的例子带你入门Python爬虫
一.前言 爬虫一直是Python的一大应用场景,差不多每门语言都可以写爬虫,但是程序员们却独爱Python.之所以偏爱Python就是因为她简洁的语法,我们使用Python可以很简单的写出一个爬虫程序 ...
- 带你入门Python爬虫
点击关注我哦 一篇文章带你了解Python爬虫 数据科学只有通过数据才能实现,而在现实世界中,数据通常不会有现成的.csv文件等你使用.你必须去自己寻找.这就是为什么爬虫对数据科学非常重要的原因. 但 ...
- Python爬虫获取异步加载站点pexels并下载图片(Python爬虫实战3)
Python爬虫获取异步加载站点pexels并下载图片(Python爬虫实战3) 1. 异步加载爬虫 对于静态页面爬虫很容易获取到站点的数据内容,然而静态页面需要全量加载站点的所有数据,对于网站的访问 ...
- python爬虫获取网络图片
python爬虫获取网络图片 记录一下利用爬虫获取网络图片 具体操作来自博客:Python 爬虫系列教程一爬取批量百度图片 我的编辑器是vscode,首先安装三个包 pip install Beaut ...
- 手把手带你飞Python爬虫+数据清洗新手教程(一)
本文共有2394字,读完大约需要10分钟. 目录 简介 思考 撸起袖子开始干 1 获取网页源代码 2 在网页源代码里找出所需信息的位置 3 数据清洗 4 完整代码 5 优化后的代码 简介 本文使用An ...
- python爬虫获取豆瓣图书Top250
在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...
- Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!
Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...
- python Chrome + selenium自动化测试与python爬虫获取网页数据
一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...
最新文章
- css阴影3d效果,3D立体带阴影的CSS圆角效果
- linux解压tar到目录,在Linux系统中将tar文件解压到不同的目录中的教程
- linux 使cpu使用率升高_Linux CPU使用率超过100%的原因
- Linux c中使用系统时间
- web 前端基本框架
- Qt工作笔记-QXmlStreamReader中的字符编码的坑
- Oracle 过程(Procedure)、函数(Function)、包(Package)、触发器(Trigger)
- 幻想西游php源码,如何搭建幻想西游服务器
- ffmpeg推流到流媒体服务器
- PS抠图方法[photoshop中文教程]
- css样式表的作用和意义,什么是CSS?
- 【数字电子技术 Digital Electronic Technology 2】—— 逻辑代数基础 之 逻辑函数以其描述方法解析
- 城市信息化重要载体“无线城市”
- 大学物理/量子物理基础/康普顿效应
- 音频数据的建模全流程代码示例:通过讲话人的声音进行年龄预测
- python字符串的定界符可以是_Python中,字符串不能用以下哪个符号作为定界符(): \|'|'''|;...
- VC中自定义打印调试信息函数,打印调试信息到DebugView上
- hadoop启动后某些节点未启动,hadoop主节点无法启动datanode DataNode
- FXS/FXO, BRI/PRI, IPPBX, IAD
- 【华为云技术分享】如何将代码自动迁移到鲲鹏平台
热门文章
- 当用户流失比较明显后, 如何提升活跃度? push notification 是一个有效的方式吗?...
- IE6PNG8PNG24test
- VMWARE双机安装说明
- Linux下如何同时启动多个Tomcat服务器
- /bin/bash^M: bad interpreter: No such file or directory
- confluence创建页面加载缓慢_树莓派4B使用docker安装confluence
- java8新生代_jdk8.0的jvm详情
- 简述计算机文件的命名办法,如何进行文件命名-如何进行文件管理
- c语言源程序最多可能由组成,一个C语言源程序由若干函数组成,其中至少应含有一个()。...
- [转载] Java复制对象与集合工具类