python 子域名爬取工具

"""
爬取子域名
https://cn.bing.com/search?q=site%3atoutiao.com&first=10
"""
from optparse import OptionParserimport requests
import re
import os# 请求数据
def get_domain(domain, limit):for i in range(0, limit, 10):url = "https://cn.bing.com/search?q=site:%s&first=%d" % (domain, i)headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:102.0) Gecko/20100101 Firefox/102.0"}response = requests.get(url=url, headers=headers)response.encoding = "utf-8"html_str = response.textreturn html_str# 解析数据
def get_data(html_str):pattern = re.compile('class="b_attribution".*?<cite>(.*?)<strong>', re.S)data = pattern.findall(html_str)return data# 保存数据
def save_data(data,all_data):for item in data:if "//" in item:all_data.add(item.replace('<strong>', '').split('//')[-1])else:all_data.add(item.replace('<strong>', ''))return all_dataif __name__ == '__main__':parse = OptionParser("%prog -d xxx -p xxx\n Exmaple:%prog -d jd.com -p 3")# 添加选项parse.add_option('-d', '--domain', dest="domain", type="string", help="请输入你要爬取的子域名:", default="baidu.com")parse.add_option('-p', '--page', dest="page", type="int", help="请输入你要爬取的页数:", default="3")# 获取参数options, args = parse.parse_args()domain = options.domainpage_num = options.page# domain = input('请输入域名:')# page_num = int(input('请输入你要爬取的页数:'))limit = page_num * 10all_data = set()html_str = get_domain(domain,limit)data = get_data(html_str)print(data)all_datas = save_data(data,all_data)# print(all_datas)path = "domain/"if not os.path.exists(path):os.mkdir(path)with open(path + domain + '.txt', 'w') as f_domain:for item in all_datas:print(item)f_domain.write('%s\n' % item)

本工具用了以下四个模块
from optparse import OptionParserimport requests
import re
import os

python 子域名爬取工具相关推荐

python爬取软件内数据_各种数据爬取工具爬虫合集整理
却道天凉好个秋~ 不用编程敲代码的爬取数据的工具合集,简单上手易用的爬虫脚本工具软件汇总 1.工具软件类: Microsoft Excel excel也可以爬一些规整的表格数据等,没想到吧! 八爪鱼 ...
python写图片爬取软件_python制作微博图片爬取工具
有小半个月没有发博客了,因为一直在研究python的GUI,买了一本书学习了一些基础,用我所学做了我的第一款GUI--微博图片爬取工具.本软件源代码已经放在了博客中,另外软件已经打包好上传到网盘中以供 ...
python爬虫之爬取网页基础知识及环境配置概括
记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...
实用Python是如何爬取英雄联盟（lol）全部皮肤，涨知识了
实用Python是如何爬取英雄联盟(lol)全部皮肤,涨知识了小三:"怎么了小二?一副无精打采的样子!" 小二:"唉!别提了,还不是最近又接触了一个叫英雄联盟的游戏,游 ...
【Python爬虫】爬取网易云音乐，打造音乐下载器
目录搭建窗口爬虫实现下载音乐歌曲搜索下载歌曲绑定命令生成可执行文件感想在前一篇文章,正好总结过了Tkinter以及canvas画布的使用,学以致用,用Tkinter来创建一个窗口,在此 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结
这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...
[python学习] 简单爬取维基百科程序语言消息盒
文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是 ...
python爬取ajax动态内容肯德基门店,Python爬虫如何爬取KFC地址
随着人们生活水平的提高,肯德基这类的快餐消费的十分火爆,成为小朋友和年轻人的最爱,我们到一个地方想要找到肯德基店面,会根据导航获取肯德基地址,那你知道我们也可以使用python爬虫获取KFC地址吗?我 ...
Python爬虫：爬取instagram，破解js加密参数
Python爬虫:爬取instagram,破解js加密参数 instagram 是国外非常流行的一款社交网站,类似的还有像facebook.twitter,这些社交网站对于掌握时事热点.电商数据来源和 ...
[转载] python+selenium定时爬取丁香园的新冠病毒每天的数据，并制作出类似的地图（部署到云服务器）
参考链接: Python vars() python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造 ...

python 子域名爬取工具

python 子域名爬取工具相关推荐

最新文章

热门文章