背景

在分析日志的时候发现有些日志中参数中包含其他的URL,例如:

http://www.xxx.cn/r/common/register_tpl_shortcut.php?ico_url=http://www.abcfdsf.com/tg_play_1121.php&supplier_id=3&ep=tg&style=szsg_reg_tg03http://b.xxx.cn?c=<IMG src="http://www.thesiteyouareon.com/somecommand.php?somevariables=maliciouscode">http://b.xxx.cn?c=<SCRIPT a=">" src="http://xss.ha.ckers.org/a.js"></SCRIPT>

提取请求参数中的URL(xss.ha.ckers.org),再对比威胁情报数据库,如果命中黑名单直接标黑。如果不在黑名单,也不在公司的白名单里可以先做个标记,后续着重分析。

提取URL

关于URL的提取网上有很多文章,大部分都是是使用正则表达式,方法简单但是不太准确。我这里提供一种方法:采用词法分析,提取域名和IP。思路借鉴了这篇文章:https://blog.csdn.net/breaksoftware/article/details/7009209,有兴趣的可以去看看,事实证明跟着大神确实涨姿势。

原文是用C++版本,这里我用Python写了一个类似的,供大家参考。

常见的URL分类

IP形式:192.168.1.1,10.20.11.1Domain形式:baidu.com、www.sina.com,freebuf.com

观察可以见得:IP形式的URL结构最为简单:4个小于255的数字被.分割;domain形式比较复杂,但是它们有共性:都具有顶级域名.com。

定义合法字符:

legalChars = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ-_"
legalNumers = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

顶级域名列表:

topLevelDomain = ['biz', 'com', 'edu', 'gov', 'info', 'int', 'mil', 'name', 'net', 'org', 'pro', 'aero', 'cat', 'coop','jobs', 'museum', 'travel', 'arpa', 'root', 'mobi', 'post', 'tel', 'asia', 'geo', 'kid', 'mail', 'sco','web', 'xxx', 'nato', 'example', 'invalid', 'test', 'bitnet', 'csnet', 'onion', 'uucp', 'ac', 'ad', 'ae','af', 'ag', 'ai', 'al', 'am', 'an', 'ao', 'aq', 'ar', 'as', 'at', 'au', 'aw', 'ax', 'az', 'ba', 'bb','bd', 'be', 'bf', 'bg', 'bh', 'bi', 'bj', 'bm', 'bn', 'bo', 'br', 'bs', 'bt', 'bv', 'bw', 'by', 'bz','ca', 'cc', 'cd', 'cf', 'cg', 'ch', 'ci', 'ck', 'cl', 'cm', 'cn', 'co', 'cr', 'cu', 'cv', 'cx', 'cy','cz', 'de', 'dj', 'dk', 'dm', 'do', 'dz', 'ec', 'ee', 'eg', 'eh', 'er', 'es', 'et', 'eu', 'fi', 'fj','fk', 'fm', 'fo', 'fr', 'ga', 'gb', 'gd', 'ge', 'gf', 'gg', 'gh', 'gi', 'gl', 'gm', 'gn', 'gp', 'gq','gr', 'gs', 'gt', 'gu', 'gw', 'gy', 'hk', 'hm', 'hn', 'hr', 'ht', 'hu', 'id', 'ie', 'il', 'im', 'in','io', 'iq', 'ir', 'is', 'it', 'je', 'jm', 'jo', 'jp', 'ke', 'kg', 'kh', 'ki', 'km', 'kn', 'kp', 'kr','kw', 'ky', 'kz', 'la', 'lb', 'lc', 'li', 'lk', 'lr', 'ls', 'lt', 'lu', 'lv', 'ly', 'ma', 'mc', 'md','me', 'mg', 'mh', 'mk', 'ml', 'mm', 'mn', 'mo', 'mp', 'mq', 'mr', 'ms', 'mt', 'mu', 'mv', 'mw', 'mx','my', 'mz', 'na', 'nc', 'ne', 'nf', 'ng', 'ni', 'nl', 'no', 'np', 'nr', 'nu', 'nz', 'om', 'pa', 'pe','pf', 'pg', 'ph', 'pk', 'pl', 'pm', 'pn', 'pr', 'ps', 'pt', 'pw', 'py', 'qa', 're', 'ro', 'rs', 'ru','rw', 'sa', 'sb', 'sc', 'sd', 'se', 'sg', 'sh', 'si', 'sj', 'sk', 'sl', 'sm', 'sn', 'so', 'sr', 'st','su', 'sv', 'sy', 'sz', 'tc', 'td', 'tf', 'tg', 'th', 'tj', 'tk', 'tl', 'tm', 'tn', 'to', 'tp', 'tr','tt', 'tv', 'tw', 'tz', 'ua', 'ug', 'uk', 'um', 'us', 'uy', 'uz', 'va', 'vc', 've', 'vg', 'vi', 'vn','vu', 'wf', 'ws', 'ye', 'yt', 'yu', 'za', 'zm', 'zw']
域名形式提取:如www.baidu.com。

if self.isLegalChar(zv):i = 0reti = 0tokenType = TK_OTHERwhile (i < len(z) and self.isLegalChar(z[i])):i = i + 1reti = iwhile i < len(z) and z[i] == '.':i = i + 1urltoken_str = z[i:len(z)]urltoken_str = urltoken_str.lower()if urltoken_str in topLevelDomain:i = i + len(urltoken_str)reti = itokenType = TK_DOMAINwhile (i < len(z) and self.isLegalChar(z[i])):i = i + 1reti = iif i < len(z) and z[i] == ':':i = i + 1while (i < len(z) and z[i].isdigit()):i = i + 1reti = iif tokenType == TK_DOMAIN:check_url = z[0:i]if check_url.find(':') >= 0:check_url = check_url[0:check_url.find(':')]for item in topLevelDomain:pos = check_url.find('.' + item)if pos > -1 and (pos + len(item) + 1 == len(check_url)):self.urls.append(z[0:i])

IP形式提取:如192.168.1.1。

while (i < len(z) and z[i].isdigit()):i = i + 1ip_v1 = Truereti = iif i < len(z) and z[i] == '.':i = i + 1reti = ielse:tokenType = TK_OTHERreti = 1while (i < len(z) and z[i].isdigit()):i = i + 1ip_v2 = Trueif i < len(z) and z[i] == '.':i = i + 1else:if tokenType != TK_DOMAIN:tokenType = TK_OTHERreti = 1while (i < len(z) and z[i].isdigit()):i = i + 1ip_v3 = Trueif i < len(z) and z[i] == '.':i = i + 1else:if tokenType != TK_DOMAIN:tokenType = TK_OTHERreti = 1while (i < len(z) and z[i].isdigit()):i = i + 1ip_v4 = Trueif i < len(z) and z[i] == ':':i = i + 1while (i < len(z) and z[i].isdigit()):i = i + 1if ip_v1 and ip_v2 and ip_v3 and ip_v4:self.urls.append(z[0:i])return reti, tokenTypeelse:if tokenType != TK_DOMAIN:tokenType = TK_OTHERreti = 1

混合形式提取:如1234.com。
扫描前半部分1234,符合IP形式的特征,但是发现代码会报异常,所以需要IP处理代码段添加判断:判断后缀是否是顶级域名:

   urltoken_str = z[i:len(z)]urltoken_str = urltoken_str.lower()if urltoken_str in topLevelDomain:i = i + len(urltoken_str)reti = itokenType = TK_DOMAIN

结果测试

测试数据:

192.168.1.1
mp3.com
http:www.g.cn
http:\www.g.cn
http:\\/\www.g.cn
admin:@www.g.cn
http://10.10.10.10:8080/?a=1
file://192.168.1.1:8090/file
mailto:majy@corp.com
username:password@g.cn

运行结果:

192.168.1.1 ['192.168.1.1']
mp3.com ['mp3.com']
http:www.g.cn ['www.g.cn']
http:\www.g.cn ['www.g.cn']
http:\/\www.g.cn ['www.g.cn']
admin:@www.g.cn ['www.g.cn']
http://10.10.10.10:8080/?a=1 ['10.10.10.10:8080']
file://test11.com:8090/file ['test11.com:8090']
mailto:majy@corp.com ['corp.com']
username:password@g.cn ['g.cn']

这只是个初步的版本,如果有BUG欢迎大家指正。

结束语

以前只顾着闷着头的写代码,忽略了事后的思考和总结。现在尝试着改变一下,一边工作,一边提炼和总结,遇到感觉不错的,尝试写成工具开源出来,与大家共勉。

代码传送门:

https://github.com/skskevin/UrlDetect/blob/master/tool/domainExtract/domainExtract.py

浅谈精准提取日志中的URL相关推荐

  1. 浅谈数字媒体艺术中的技术应用-3-工具介绍(二)

    上一篇文章介绍了数据可视化工具Processing和OpenFrameWorks,以及开源电子硬件Arduino和RaspberryPI.这一篇继续把剩下的几个工具进行逐一的介绍. 商用游戏引擎:Un ...

  2. jquery ajax和servlet,浅谈ajax在jquery中的请求和servlet中的响应

    在jsp中,首先,你需要导入jquery的架包: 获取可返回站点的根路径: String path = request.getContextPath(); %> 在jquery中写ajax请求: ...

  3. ai在计算机教学中的应用,浅谈人工智能在教育中的应用

    浅谈人工智能在教育中的应用 孙立友 摘要:随着人工智能技术的进步,以及研究的深入和在教育领域的逐步推广,对教育领域产生了深远的影响.人工智能对于弥补当前教育存在的种种缺陷和不足,推动教育发展改革和教学 ...

  4. 浅谈电商运营中的定价|Ocean商论

    前言 我的一个经济学老师的研究领域是定价,在一次交流中,他开玩笑说如果有一个经济学家能把定价完全解释明白,他就会获得诺贝尔奖. 经济学中的定价模型是数学的最优解,但是业务中的定价则考虑的变量更多,且环 ...

  5. python语法中infile语句_浅谈pymysql查询语句中带有in时传递参数的问题

    直接给出例子说明: cs = conn.cursor() img_ids = [1,2,3] sql = "select img_url from img_url_table where i ...

  6. 计算机技术在农业上应用论文,浅谈计算机在农业中的应用论文(2)

    浅谈计算机在农业中的应用论文篇二 <计算机技术在农业管理中的科学应用> 摘要:文章依据现代农业管理思想的内涵结合计算机应用技术的充分优势展开了如何在农业管理中全面应用计算机技术实现数字化. ...

  7. 浅谈线程池(中):独立线程池的作用及IO线程池

    在上一篇文章中,我们简单讨论了线程池的作用,以及CLR线程池的一些特性.不过关于线程池的基本概念还没有结束,这次我们再来补充一些必要的信息,有助于我们在程序中选择合适的使用方式. 独立线程池 上次我们 ...

  8. php编码 js解码,浅谈php和js中json的编码和解码

    php中 1)编码 $jsonstr = json_encode($array) 2)解码 $arr = json_decode($jsonstr) echo json_encode("中文 ...

  9. python查询数据库带逗号_浅谈pymysql查询语句中带有in时传递参数的问题

    直接给出例子说明: cs = conn.cursor() img_ids = [1,2,3] sql = "select img_url from img_url_table where i ...

最新文章

  1. 一起学Hadoop——实现两张表之间的连接操作
  2. 017_Upload上传
  3. RelationTrack解读
  4. Hello Blog!
  5. 【Python】Matplotlib绘制散点图
  6. Go 语言接口详解(一)
  7. 编程c语言中,向上取整函数_C编程中的函数
  8. 基于SpringCloud+MySQL+Mybait+Vue的数字货币交易系统(附:源码+课件)
  9. linux如何进入超级终端,使用telnet和超级终端登录控制Ubuntu
  10. 微信小程序轮播图实现详解
  11. 电镀面积计算机公式,教你正确的计算电镀中施镀面积方法。
  12. isodata算法确定k均值聚类的k值
  13. 牛客练习赛101 B-荒神在此
  14. LeetCode1175. 质数排列Prime Arrangements
  15. IP地址中的网络地址和主机地址分别是什么意思
  16. 普华永道-开放数据资产估值白皮书,首创“数据势能”估值模型
  17. 启动XMind8报错The configuration area
  18. allow_url_fopen和allow_url_include详解
  19. 2022年值得关注的5个区块链项目 数字藏品平台开发搭建
  20. python ip反查询_python ip反查域名

热门文章

  1. 大白话搞懂什么是同步/异步/阻塞/非阻塞
  2. Python的三种代码续行书写方法
  3. 请问这个问题怎么解决呀?打开什么也用不了
  4. 几乎每个人都听说过三皇五帝,那么三皇五帝是否存在?又是谁呢?
  5. c语言编程题蓄水池,C语言中蓄水池抽样
  6. tbf格式用什么打开_TBF的完整形式是什么?
  7. C++中的常成员函数以及const用于函数重载
  8. MXNet -aws深度学习框架之选择
  9. 共享充电宝之争:胜于专利,败于骂街 | 一点财经
  10. 艺术摄影--曝光与测光(2学时)--SDUST