"""
爬取子域名
https://cn.bing.com/search?q=site%3atoutiao.com&first=10
"""
from optparse import OptionParserimport requests
import re
import os# 请求数据
def get_domain(domain, limit):for i in range(0, limit, 10):url = "https://cn.bing.com/search?q=site:%s&first=%d" % (domain, i)headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:102.0) Gecko/20100101 Firefox/102.0"}response = requests.get(url=url, headers=headers)response.encoding = "utf-8"html_str = response.textreturn html_str# 解析数据
def get_data(html_str):pattern = re.compile('class="b_attribution".*?<cite>(.*?)<strong>', re.S)data = pattern.findall(html_str)return data# 保存数据
def save_data(data,all_data):for item in data:if "//" in item:all_data.add(item.replace('<strong>', '').split('//')[-1])else:all_data.add(item.replace('<strong>', ''))return all_dataif __name__ == '__main__':parse = OptionParser("%prog -d xxx -p xxx\n Exmaple:%prog -d jd.com -p 3")# 添加选项parse.add_option('-d', '--domain', dest="domain", type="string", help="请输入你要爬取的子域名:", default="baidu.com")parse.add_option('-p', '--page', dest="page", type="int", help="请输入你要爬取的页数:", default="3")# 获取参数options, args = parse.parse_args()domain = options.domainpage_num = options.page# domain = input('请输入域名:')# page_num = int(input('请输入你要爬取的页数:'))limit = page_num * 10all_data = set()html_str = get_domain(domain,limit)data = get_data(html_str)print(data)all_datas = save_data(data,all_data)# print(all_datas)path = "domain/"if not os.path.exists(path):os.mkdir(path)with open(path + domain + '.txt', 'w') as f_domain:for item in all_datas:print(item)f_domain.write('%s\n' % item)
本工具用了以下四个模块
from optparse import OptionParserimport requests
import re
import os

python 子域名爬取工具相关推荐

  1. python爬取软件内数据_各种数据爬取工具爬虫合集整理

    却道天凉好个秋~ 不用编程敲代码的爬取数据的工具合集,简单上手易用的爬虫脚本工具软件汇总 1.工具软件类: Microsoft Excel excel也可以爬一些规整的表格数据等,没想到吧! 八爪鱼 ...

  2. python写图片爬取软件_python制作微博图片爬取工具

    有小半个月没有发博客了,因为一直在研究python的GUI,买了一本书学习了一些基础,用我所学做了我的第一款GUI--微博图片爬取工具.本软件源代码已经放在了博客中,另外软件已经打包好上传到网盘中以供 ...

  3. python爬虫之爬取网页基础知识及环境配置概括

    记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...

  4. 实用Python是如何爬取英雄联盟(lol)全部皮肤,涨知识了

    实用Python是如何爬取英雄联盟(lol)全部皮肤,涨知识了 小三:"怎么了小二?一副无精打采的样子!" 小二:"唉!别提了,还不是最近又接触了一个叫英雄联盟的游戏,游 ...

  5. 【Python爬虫】爬取网易云音乐,打造音乐下载器

    目录 搭建窗口 爬虫实现下载音乐 歌曲搜索 下载歌曲 绑定命令 生成可执行文件 感想 在前一篇文章,正好总结过了Tkinter以及canvas画布的使用,学以致用,用Tkinter来创建一个窗口,在此 ...

  6. [python] 常用正则表达式爬取网页信息及分析HTML标签总结

    这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...

  7. [python学习] 简单爬取维基百科程序语言消息盒

    文章主要讲述如何通过Python爬取维基百科的消息盒(Infobox),主要是通过正则表达式和urllib实现:后面的文章可能会讲述通过BeautifulSoup实现爬取网页知识.由于这方面的文章还是 ...

  8. python爬取ajax动态内容肯德基门店,Python爬虫如何爬取KFC地址

    随着人们生活水平的提高,肯德基这类的快餐消费的十分火爆,成为小朋友和年轻人的最爱,我们到一个地方想要找到肯德基店面,会根据导航获取肯德基地址,那你知道我们也可以使用python爬虫获取KFC地址吗?我 ...

  9. Python爬虫:爬取instagram,破解js加密参数

    Python爬虫:爬取instagram,破解js加密参数 instagram 是国外非常流行的一款社交网站,类似的还有像facebook.twitter,这些社交网站对于掌握时事热点.电商数据来源和 ...

  10. [转载] python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器)

    参考链接: Python vars() python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造 ...

最新文章

  1. SpringOne Platform 2016回顾
  2. ie6/7 position relative overflow
  3. DB2时间函数 实现 时间加减
  4. linux设置系统环境变量的天坑
  5. 【STL源码剖析】STL六大组件功能与运用(目录)
  6. 用FCM函数实现模糊C均值聚类算法
  7. php万能密码在线视频讲解,万能密码
  8. 【chp2】车万翔-自然语言处理:基于预训练模型的方法
  9. cecore.cls.php 08cms,08cms小说系统 v1.0PHP CMS源码下载-华软网
  10. 三、EXCEL复制数字到txt文件,存在空格
  11. 阿里云对象存储OSS服务——上传/删除/获取图片
  12. Windows XP中的命令行界面
  13. Codeforces Round #701 D. Multiples and Power Differences LCM性质
  14. 天翼云服务器硬盘怎么挂载,用s3fs挂载天翼OOS到服务器
  15. Could not find artifact org.eclipse.m2e:lifecycle-mapping:pom:1.0.0
  16. 20X01 FCPX插件 音频可视化视觉特效 PFS Fcpx Audio Effector
  17. python 登录新浪微博_Python 模拟登录新浪微博
  18. C语言:质数和合数的判断
  19. ctfshow—Node.js漏洞总结
  20. 秋夜寄邱员外 / 秋夜寄丘二十二员外

热门文章

  1. 我是如何从零开始自学Android到一万月薪的
  2. 【Flink】Deployment took more than 60 seconds. Please check if the requested resources are available
  3. 如何防止局域网病毒春风吹又生--之一
  4. jQuery大法第五式--动画效果
  5. nginx日志格式和常用日志变量
  6. 数据结构如何申请一个空间的队列_如何用鞋柜来作为隔断,隔出一个玄关空间...
  7. 二项堆(Binomial Heap)
  8. [渝粤教育] 浙江大学 2021秋 茶叶加工与品质管理学Ⅰ 陈萍 章节答案考试答案 浙江大学[渝粤教育]
  9. c#如何使用webservice、存储过程及存储过程的创建(简单模仿类似QQ统计用户在线时间为例)
  10. 黄小宁罪大恶极!!!!!!!!!!黄小宁罪大恶极!!!!!!!!!!