使用 Python 爬虫获取顶级域名及对应的 WHOIS Server 并保存可用于 WhoisCL.exe 的文件 whois-servers.txt。
环境:

  • Windows 10

  • Python 3.9.1

顶级域名列表https://www.iana.org/domains/root/db获取顶级域名的 WHOIS Server点击带查询的顶级域名,往下拉 WHOIS Server每个域名后缀对应的 WHOIS Server 是不一样的。安装 beautifulsoup4 库

pip install beautifulsoup4

安装 requests 库

python -m pip install requests

获取顶级域名列表

import requests from bs4 import BeautifulSoup iurl = 'https://www.iana.org/domains/root/db' res = requests.get(iurl, timeout=600) res.encoding = 'utf-8' soup = BeautifulSoup(res.text, 'html.parser') list1 = [] list2 = [] jsonStr = {} for tag in soup.find_all('span', class_='domain tld'):     d_suffix = tag.get_text()     print(d_suffix)

获取顶级域名及对应的 WHOIS Server 并保存可用于 WhoisCL.exe 的文件 whois-servers.txt

import requests from bs4 import BeautifulSoup import re import time iurl = 'https://www.iana.org/domains/root/db' res = requests.get(iurl, timeout=600) res.encoding = 'utf-8' soup = BeautifulSoup(res.text, 'html.parser') list1 = [] list2 = [] jsonStr = {} for tag in soup.find_all('span', class_='domain tld'):     d_suffix = tag.get_text()     print(d_suffix)     list2.append(d_suffix)     n_suffix = d_suffix.split('.')[1]     new_url = iurl + '/' + n_suffix     server = ''     try:         res2 = requests.get(new_url, timeout=600)         res2.encoding = 'utf-8'         soup2 = BeautifulSoup(res2.text, 'html.parser')    retxt = re.compile(r'WHOIS Server: (.*?)\n')     arr = retxt.findall(res2.text)     if len(arr) > 0:         server = arr[0]         list2.append(server)     print(server)     time.sleep(1) except Exception as e:     print('超时') with open('whois-servers.txt', "a", encoding='utf-8') as my_file:     my_file.write(n_suffix + " " + server+'\n') print('抓取结束')

whois-servers.txt 在公众号中回复

whois-servers.txt

域名带后缀_[Python 爬虫]获取顶级域名及对应的 WHOIS Server 及 whoisservers.txt 下载...相关推荐

  1. 用几个最简单的例子带你入门 Python 爬虫

    作者 | ZackSock 来源 | 新建文件夹X(ID:ZackSock) 头图 | CSDN下载自视觉中国 前言 爬虫一直是Python的一大应用场景,差不多每门语言都可以写爬虫,但是程序员们却独 ...

  2. 图解爬虫,用几个最简单的例子带你入门Python爬虫

    一.前言 爬虫一直是Python的一大应用场景,差不多每门语言都可以写爬虫,但是程序员们却独爱Python.之所以偏爱Python就是因为她简洁的语法,我们使用Python可以很简单的写出一个爬虫程序 ...

  3. 带你入门Python爬虫

    点击关注我哦 一篇文章带你了解Python爬虫 数据科学只有通过数据才能实现,而在现实世界中,数据通常不会有现成的.csv文件等你使用.你必须去自己寻找.这就是为什么爬虫对数据科学非常重要的原因. 但 ...

  4. Python爬虫获取异步加载站点pexels并下载图片(Python爬虫实战3)

    Python爬虫获取异步加载站点pexels并下载图片(Python爬虫实战3) 1. 异步加载爬虫 对于静态页面爬虫很容易获取到站点的数据内容,然而静态页面需要全量加载站点的所有数据,对于网站的访问 ...

  5. python爬虫获取网络图片

    python爬虫获取网络图片 记录一下利用爬虫获取网络图片 具体操作来自博客:Python 爬虫系列教程一爬取批量百度图片 我的编辑器是vscode,首先安装三个包 pip install Beaut ...

  6. 手把手带你飞Python爬虫+数据清洗新手教程(一)

    本文共有2394字,读完大约需要10分钟. 目录 简介 思考 撸起袖子开始干 1 获取网页源代码 2 在网页源代码里找出所需信息的位置 3 数据清洗 4 完整代码 5 优化后的代码 简介 本文使用An ...

  7. python爬虫获取豆瓣图书Top250

    在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...

  8. Python爬虫获取文章的标题及你的博客的阅读量,评论量。所有数据写入本地记事本。最后输出你的总阅读量!

    Python爬虫获取文章的标题及你的博客的阅读量,评论量.所有数据写入本地记事本.最后输出你的总阅读量!还可以进行筛选输出!比如阅读量大于1000,之类的! 完整代码在最后.依据阅读数量进行降序输出! ...

  9. python Chrome + selenium自动化测试与python爬虫获取网页数据

    一.使用Python+selenium+Chrome 报错: selenium.common.exceptions.SessionNotCreatedException: Message: sessi ...

最新文章

  1. css阴影3d效果,3D立体带阴影的CSS圆角效果
  2. linux解压tar到目录,在Linux系统中将tar文件解压到不同的目录中的教程
  3. linux 使cpu使用率升高_Linux CPU使用率超过100%的原因
  4. Linux c中使用系统时间
  5. web 前端基本框架
  6. Qt工作笔记-QXmlStreamReader中的字符编码的坑
  7. Oracle 过程(Procedure)、函数(Function)、包(Package)、触发器(Trigger)
  8. 幻想西游php源码,如何搭建幻想西游服务器
  9. ffmpeg推流到流媒体服务器
  10. PS抠图方法[photoshop中文教程]
  11. css样式表的作用和意义,什么是CSS?
  12. 【数字电子技术 Digital Electronic Technology 2】—— 逻辑代数基础 之 逻辑函数以其描述方法解析
  13. 城市信息化重要载体“无线城市”
  14. 大学物理/量子物理基础/康普顿效应
  15. 音频数据的建模全流程代码示例:通过讲话人的声音进行年龄预测
  16. python字符串的定界符可以是_Python中,字符串不能用以下哪个符号作为定界符(): \|'|'''|;...
  17. VC中自定义打印调试信息函数,打印调试信息到DebugView上
  18. hadoop启动后某些节点未启动,hadoop主节点无法启动datanode DataNode
  19. FXS/FXO, BRI/PRI, IPPBX, IAD
  20. 【华为云技术分享】如何将代码自动迁移到鲲鹏平台

热门文章

  1. 当用户流失比较明显后, 如何提升活跃度? push notification 是一个有效的方式吗?...
  2. IE6PNG8PNG24test
  3. VMWARE双机安装说明
  4. Linux下如何同时启动多个Tomcat服务器
  5. /bin/bash^M: bad interpreter: No such file or directory
  6. confluence创建页面加载缓慢_树莓派4B使用docker安装confluence
  7. java8新生代_jdk8.0的jvm详情
  8. 简述计算机文件的命名办法,如何进行文件命名-如何进行文件管理
  9. c语言源程序最多可能由组成,一个C语言源程序由若干函数组成,其中至少应含有一个()。...
  10. [转载] Java复制对象与集合工具类