导读:本文将利用静态分析技术揭示这些恶意软件的功能。

作者:约书亚·萨克斯(Joshua Saxe)、希拉里·桑德斯(Hillary Sanders)

来源:大数据DT(ID:hzdashuju)

在本文中,我们将介绍恶意软件静态分析的基础知识。静态分析是对程序文件的反汇编代码、图形图像、可打印字符串和其他磁盘资源进行分析,是一种不需要实际运行程序的逆向工程。虽然静态分析技术有欠缺之处,但是它可以帮助我们理解各种各样的恶意软件。

通过细致的逆向工程,你将能够更好地理解恶意软件二进制文件在攻击目标后为攻击者提供的好处,以及攻击者可以隐藏并继续攻击受感染计算机的方式。正如你将看到的,本文结合了描述和实例,每个部分都介绍了静态分析技术,然后说明其在实际分析中的应用。

本文的代码和数据,可以在公众号后台回复恶意软件获取下载方式。你将在数据目录/ch1中找到本文示例中使用的恶意软件示例。为了演示本文讨论的技术,我们在演示中使用ircbot.exe,这是一个互联网中继聊天(Internet Relay Chat,IRC)机器人,也在日常广泛监测中最常见的恶意软件的示例之一。

严格来说,当连接到IRC服务器时,这个程序被设计常驻在目标计算机上。在ircbot.exe控制目标后,攻击者可以通过IRC控制目标计算机,执行控制指令,例如打开网络摄像头偷偷捕获视频、提取目标的地理位置和桌面的截图,以及从目标机器中提取相关文件等。

01 微软Windows可移植可执行文件格式

要进行恶意软件静态分析,你需要了解Windows PE文件格式,该格式描述了如.exe、.dll和.sys等当今Windows程序文件的结构,并定义了它们存储数据的方式。PE文件包含x86指令、图像和文本等数据,以及程序运行所需的元数据。

PE格式最初的设计是用来进行下面的操作。

1)告诉Windows如何将程序加载到内存中

PE格式描述了文件的哪些块应该加载到内存中,以及在哪里加载。它还告诉你,Windows应该在程序代码里的哪个位置开始执行程序,以及哪些动态链接代码库应该加载到内存中。

2)为运行程序提供在执行过程中可能使用的媒体(或资源)

这些资源可以包括字符串,如GUI对话框或控制台输出的字符串,以及图像或视频。

3)提供安全数据,例如数字代码签名

Windows使用这些安全数据来确保代码出自受信任的来源。

PE格式通过利用图1-1中所示的一系列结构来完成以上工作。

▲图1-1 PE文件格式

如图1-1所示,PE文件格式包括一系列(header),用来告诉操作系统如何将程序加载到内存中。它还包括一系列(p)用来包含实际的程序数据。Windows将这些节加载到内存中,使其在内存中的偏移量与它们在磁盘上的显示位置相对应。

让我们从PE头开始,来更详细地探讨这个文件结构。我们将略过对DOS头的讨论,这是20世纪80年代微软DOS操作系统的遗留产物,仅仅出于兼容性原因而存在。

1. PE头

如图1-1底部所示,在DOS头❶的上面是PE头❷,它定义了程序的一般属性,如二进制代码、图像、压缩数据和其他程序属性。它还告诉我们程序是否是针对32位或64位系统而设计的。

PE头为恶意软件分析师提供了基本但有用的情景信息。例如,头里包括了时间戳字段,这个字段可以给出恶意软件作者编译文件的时间。通常恶意软件作者会使用伪造的值替换这个字段,但是有时恶意软件作者会忘记替换,就会发生这种情况。

2. 可选头

可选头❸实际上在今天的PE可执行程序中无处不在,恰恰与其名称的含义相反。它定义了PE文件中程序入口点的位置,该位置指的是程序加载后运行的第一个指令。

它还定义了Windows在加载PE文件、Windows子系统、目标程序(例如Windows GUI或Windows命令行)时加载到内存中的数据大小,以及有关该程序其他的高级详细信息。由于程序的入口点告诉了逆向工程师该从哪里开始进行逆向工程,这个头信息对逆向工程师来说是非常宝贵的。

3. 节头

节(p)头❹描述了PE文件中包含的数据节。PE文件中的一个节是一块数据,它们在操作系统加载程序时将被映射到内存中,或者包含有关如何将程序加载到内存中的指令。

换句话说,一个节是磁盘上的字节序列,它要么成为内存中一串连续字节的字符串,要么告知操作系统关于加载过程的某些方面。

节头还告诉Windows应该授予节哪些权限,比如程序在执行时,是否应该可读、可写或可执行。例如,包含x86代码的.text节通常被标记为可读和可执行的,但是不可写的,以防止程序代码在执行过程中意外修改自身。

图1-1描述了许多节,如.text和.rsrc。执行PE文件时,它们会被映射到内存中。其他如.reloc节的特殊节不会被映射到内存中,我们也将讨论这些节。下面我们来浏览图1-1中显示的节。

1).text节

每个PE程序在其节头中包含了至少一个标记为可执行的x86代码节;这些节几乎总是命名为.text❺。

2).idata节

.idata节❻,也被称为导入节,包含导入地址表(IAT),它列出了动态链接库和它们的函数。IAT是最重要的PE结构之一,在对PE二进制文件进行最初的分析时需要查看它,因为它指出了程序所调用的库,然而这些调用反过来又可能会泄露恶意软件的高级功能。

3)数据节

在PE文件结构中的数据节可以包括.rsrc、.data和.rdata等节,它们存储程序使用的鼠标光标图像、按钮图标、音频和其他媒体等。例如,图1-1中的.rsrc节❼包含了程序用于将文本呈现为字符串的可打印字符串。

.rsrc(资源)节中的信息对恶意软件分析师是非常重要的,因为通过检查PE文件中的可打印字符串、图形图像和其他资产,他们可以获得关于文件功能的重要线索。

在03节中,你将了解如何使用icoutils工具包(包括icotool和wrestool)从恶意软件二进制文件的资源节中提取图形图像。然后,在04节中,你将学习如何从恶意软件资源节中提取可打印的字符串。

4).reloc节

PE二进制文件的代码并非是与位置独立的,这意味着如果将它从预期的内存位置移动到新的内存位置,它将无法正确执行。.reloc❽在不破坏代码的情况下通过允许移动代码来解决这个问题。

如果一个PE文件的代码已被移动,它就告诉Windows操作系统将该文件的代码中进行内存地址转换,这样代码仍可以正确运行。这些转换通常涉及在内存地址中添加或减去偏移量。

02 使用pefile解析PE文件格式

由Ero Carerra编写和维护的Python模块pefile已经成为解析PE文件的一个行业标准的恶意软件分析库。在本节中,我将向你展示如何使用pefile来解析ircbot.exe。代码清单1-1假设ircbot.exe已位于你当前的工作目录中。

输入以下命令安装pefile库,以便我们可以在Python中导入它:

$ pip install pefile

现在,使用代码清单1-1中的命令启动Python,导入pefile模块,然后使用pefile打开并解析PE文件ircbot.exe。

  • 代码清单1-1 加载pefile模块并解析PE文件(ircbot.exe)

$ python
>>> import pefile
>>> pe = pefile.PE("ircbot.exe")

我们实例化pefile.PE,它是PE模块实现的核心类。它解析PE文件,以便我们可以查看它们的属性。通过调用PE构造函数,我们加载并解析指定的PE文件,在本例中为ircbot.exe。现在我们已经加载并解析了这个文件,运行代码清单1-2中的代码从ircbot.exe的pe字段中提取信息。

  • 代码清单1-2 遍历PE文件的各个节并打印有关它们的信息

#基于 Ero Carrera的示例代码(pefile库的作者)
for p in pe.ps:print(p.Name, hex(p.VirtualAddress),hex(p.Misc_VirtualSize), p.SizeOfRawData)

代码清单1-3显示了打印输出的内容。

  • 代码清单1-3 使用Python的pefile模块从ircbot.exe中提取节数据

如代码清单1-3所示,我们从PE文件五个不同的节中提取了数据:.text、.rdata、.data、.idata和.reloc。输出是以五元组的形式给出,每提取一个PE节对应一个元素。每一行的第一个条目标识PE节。(你可以忽略一系列的\x00空字节,它们只是C语言样式的空字符串终止符。)其余字段告诉我们,一旦将每个节被加载到内存中,它的内存利用率将是多少,以及一旦被加载,它将在内存中的何处被找到。

例如,0x1000❶是加载这些节的虚拟内存地址基址,也可以将其视为节的内存地址基址。在虚拟大小(virtual size)字段中的0x32830❷指定了节被加载后所需的内存大小。第三个字段中的207360❸表示该节将在该内存块中所占用的数据量。

除了使用pefile解析程序的节之外,我们还可以使用它列出二进制文件将加载的DLL文件,以及它将在这些DLL文件中所请求的函数调用。我们可以通过镜像(dump)PE文件的IAT来实现这一点。代码清单1-4显示了如何使用pefile镜像ircbot.exe的IAT。

  • 代码清单1-4 从ircbot.exe中提取导入信息

$ python
pe = pefile.PE("ircbot.exe")
for entry in pe.DIRECTORY_ENTRY_IMPORT:print entry.dllfor function in entry.imports:print '\t', function.name

代码清单1-4会生成如代码清单1-5所示的输出(为了简洁起见,输出进行了截断)。

  • 代码清单1-5 ircbot.exe的IAT表内容,其显示了这个恶意软件使用的库函数

如代码清单1-5所示,这个输出对于恶意软件分析很有价值,因为它列出了恶意软件声明和将引用的丰富的函数数组。

例如,输出的前几行告诉我们,恶意软件将使用WriteFile❶写入文件,使用CreateFileA❷打开文件,并使用CreateProcessA❸创建新的进程。虽然这些只是关于恶意软件的基本信息,但它们是了解恶意软件更为详细行为的开始。

03 检查恶意软件的图片

要了解恶意软件是如何设计来捉弄攻击目标的,让我们看看在它的.rsrc节中所包含的图标。例如,恶意软件二进制文件常常被设计成伪装的Word文档、游戏安装程序、PDF文件等常用软件的图标来欺骗用户点击它们。

你还可以在恶意软件中找到攻击者自己感兴趣程序中的图像,例如攻击者为远程控制受感染机器而运行的网络攻击工具和程序。

回到我们的样本图像分析,你可以在本文的数据目录中找到名为fakepdfmalware.exe的这个恶意软件样本。这个样本使用Adobe Acrobat图标诱骗用户认为它是一个Adobe Acrobat文档,而实际上它是一个恶意的PE可执行文件。

在我们使用Linux命令行工具wrestool从二进制文件fakepdfmalware.exe中提取图像之前,我们首先需要创建一个目录来保存我们将提取的图像。代码清单1-6显示了如何完成所有这些操作。

  • 代码清单1-6 从恶意软件样本中提取图像的Shell命令

$ mkdir images
$ wrestool -x fakepdfmalware.exe -output=images
$ icotool -x -o images images/*.ico

我们首先使用mkdir images创建一个目录来保存提取的图像。接下来,我们使用wrestool从fakepdfmalware.exe中提取图像资源(-x)到/images目录,然后使用icotool提取(-x)并将Adobe中.ico图标格式中的所有资源转换(-o)为.png图形,以便我们可以使用标准的图像浏览工具查看它们。

如果你的系统上没有安装wrestool,你可以从这里下载:

http://www.nongnu.org/icoutils/

一旦你使用wrestool将目标可执行文件中的图像转换为PNG格式,你就可以在你喜欢的图像浏览工具中打开它们,并以各种分辨率查看Adobe Acrobat图标。

正如我在这里给出的例子所示,从PE文件中提取图像和图标相对简单,可以快速显示与恶意软件二进制文件相关的有趣且又有用的信息。同样地,我们可以轻松地从恶意软件中提取可打印字符串来获取更多信息,我们接下来会做这项工作。

04 检查恶意软件的字符串

字符串是程序二进制文件中可打印字符的序列。恶意软件分析师通常依赖恶意样本中的字符串来快速了解其中可能发生的情况。这些字符串通常包含下载网页和文件的HTTP和FTP命令,用于告诉你恶意软件连接到的地址的IP地址和主机名等类似信息。

有时,即使用于编写字符串的语言也有可能暗示恶意软件二进制文件的来源国,尽管这可能是伪造的。你甚至可以在一个字符串中找到一些文本,它们用网络用语解释了恶意二进制文件的用途。

字符串还可以显示有关二进制文件的更多技术信息。例如,你可能会发现有关用于创建二进制文件的编译器、编写二进制文件所使用的编程语言、嵌入式脚本或HTML等信息。

虽然恶意软件作者可以对所有这些痕迹进行混淆、加密和压缩等处理,但是即便是高水平的恶意软件作者也经常会暴露并留下一些痕迹,因此在分析恶意软件时,对镜像的字符串进行细致检查显得尤为重要。

1. 使用字符串程序

查看文件中所有字符串的标准方法是使用命令行工具strings,按照以下语法进行使用:

$ strings filepath | less

该命令将文件中的所有字符串逐行打印到终端上。在末尾添加 | less可以防止字符串在终端上跨屏显示。默认情况下,strings命令查找所有最小长度为4字节的可打印字符串,但是你可以设置不同的最小长度并更改“命令手册”中所列各种其他参数。

我建议只使用默认的最小字符串长度4,但是你可以使用-n选项更改最小字符串长度。例如,“string -n 10 filepath”只提取最小长度为10字节的字符串。

2. 分析镜像字符串

现在我们镜像了一个恶意软件程序的可打印字符串,但是挑战在于要理解这些字符串的含义。例如,假设我们将ircbot.exe中的字符串镜像到ircbotstring.txt文件中,这在本文前面的内容中,我们使用pefile库已经进行了探讨,如下所示:

$ strings ircbot.exe > ircbotstring.txt

ircbotstring.txt的内容包含数千行文本,但其中一些行应该突出显示出来。例如,代码清单1-7显示了从字符串镜像中提取出来的一串以单词DOWNLOAD开头的行。

  • 代码清单1-7 显示恶意软件可以将攻击者指定的文件下载到目标计算机的字符串输出

这些行表示ircbot.exe将尝试把攻击者指定的文件下载到目标计算机上。

我们来尝试分析另一个。代码清单1-8所示的字符串镜像表明ircbot.exe可以起到Web服务器的作用,在目标机器上侦听来自攻击者的连接。

  • 代码清单1-8 显示恶意软件有一个攻击者可以连接的HTTP服务器的字符串输出

代码清单1-8显示了ircbot.exe用于实现HTTP服务器的各种HTTP样板程序。此HTTP服务器可能允许攻击者通过HTTP连接到目标计算机以发出命令,例如获取受害者桌面的屏幕截图并将其回传给攻击者的命令。

我们在整个代码清单中看到了HTTP功能的证据。例如,从Internet资源请求数据的GET方法❶。HTTP/1.0 200 OK❷这一行是一个返回状态代码200的HTTP字符串,表明HTTP网络事务都运行良好,而Server:myBot❸表明HTTP服务器的名称是myBot,这是ircbot.exe附加的一个内置HTTP服务器。

所有这些信息都有助于理解和阻止特定的恶意软件样本或恶意活动。例如,知道恶意软件样本有一个HTTP服务器,当你连接到它时,它会输出特定的字符串,这样你就可以借此扫描你的网络来识别受感染的主机。

05 小结

在本文中,你大致对静态恶意软件分析有了一定的认识,其中包括在不实际运行的情况下检查恶意软件程序。

你了解了定义Windows操作系统.exe和.dll文件的PE文件格式,还了解了如何使用Python库pefile解析实际场景中的恶意软件ircbot.exe二进制文件。

你还使用图像分析和字符串分析等静态分析技术,从恶意软件样本中提取更多的信息。

关于作者:约书亚·萨克斯(Joshua Saxe)是专业安全企业Sophos的首席数据科学家,他在Sophos公司负责领导一个安全数据科学研究团队。他还是Sophos公司基于神经网络的恶意软件检测器的主要发明者,它可以保护数以千万计的Sophos客户防范恶意软件。

希拉里·桑德斯(Hillary Sanders)是Sophos公司的高级软件工程师和数据科学家,她在为Sophos公司发明和产品化神经网络、机器学习和恶意软件相似性分析安全技术方面发挥了关键作用。她曾在加州大学伯克利分校学习统计学。

本文摘编自《基于数据科学的恶意软件分析》,经出版方授权发布。

延伸阅读《基于数据科学的恶意软件分析》

点击上方链接了解及购买

转载请联系微信:DoctorData

推荐语:本书侧重在将数据科学应用于恶意软件,旨在更全面地展示如何将数据科学技术应用于解决重大的网络安全问题。通过了解恶意软件的数据科学,你将能够更好地将数据科学应用到其他网络安全领域,比如网络攻击、钓鱼邮件或可疑用户行为等检测工作。

有话要说????

Q: 恶意软件还有哪些特征?

欢迎留言与大家分享

猜你想看????

  • 用户画像标签体系包括哪些维度?有哪些应用场景?(附完整导图)

  • 创建字节跳动之前,张一鸣读过哪些硬核技术书?

  • 手把手教你做用户画像:3种标签类型、8大系统模块

  • 怎样成为一名真正的数据科学家?这10本书就是答案

更多精彩????

在公众号对话框输入以下关键词

查看更多优质内容!

PPT | 读书 | 书单 | 硬核 | 干货 

大数据 | 揭秘 | Python | 可视化

AI | 人工智能 | 5G | 中台

机器学习 | 深度学习 | 神经网络

合伙人 1024 | 大神 | 数学

据统计,99%的大咖都完成了这个神操作

????

神操作:教你用Python识别恶意软件相关推荐

  1. python语言翻译成中文-Python 神工具包!翻译、文字识别、语音转文字统统搞定...

    原标题:Python 神工具包!翻译.文字识别.语音转文字统统搞定 今天给大家介绍一款 Python 制作的实用工具包,包含多种功能: 音频转文字 文字转语音 截图 OCR文字识别 复制翻译 举个例子 ...

  2. python人脸识别门禁系统毕设_开源|手把手教你用Python进行人脸识别(附源代码)...

    原标题:开源|手把手教你用Python进行人脸识别(附源代码) 全球人工智能 来源:Github 翻译:黄玮 想要了解目前世界上最简洁的人脸识别库吗?现在小编带大家来学习使用Python语言或命令行进 ...

  3. python人脸识别神器_教你用Python人脸识别自动开机,值得收藏

    这里将告诉您教你用Python人脸识别自动开机,值得收藏,具体操作方法:是不是厌烦了每次回家都要点击按钮打开电脑的操作? 你如果有看过我以前的推送,是不是厌烦了每次回家都要喊 "echo,t ...

  4. 身为程序员的你一定要学会Python这个神操作,会这个想单身都难

    女朋友在外地我一直在琢磨怎么去关心她,怎么样让她觉得时时刻刻都陪在她的身边,所以我就默默的学会了这个神操作,时时刻刻我都能关注到她 让她觉得满满的爱 这次的这个项目,弄了好几天,主要在tkinter上 ...

  5. oracle数据库更新语句_20_手把手教你学Python之操作数据库

    数据库是数据的仓库,将大量数据按照一定的方式组织并存储起来,方便进行管理和维护,例如快速检索和统计等.数据库的主要特点: 以一定的方式组织.存储数据: 能为多个用户共享: 与程序彼此独立. -- 数据 ...

  6. 【Python】Python实战从入门到精通之二 -- 教你使用Python中列表操作

    本文是Python实战–从入门到精通系列的第二篇文章: [Python]Python实战从入门到精通之一 – 教你深入理解Python中的变量和数据类型 Python实战从入门到精通之二 – 教你使用 ...

  7. python 欢迎自己程序编写_神操作!一句查询让Python帮忙自己写程序

    卧槽,神操作!一句查询让Python帮忙自己写程序 对于很多初入Python编程的同学们而言,对于Python程序的编写,往往会十分生疏,学会了Python的语法,但是转头就忘了,或者是想实现一个基础 ...

  8. Python人脸识别黑科技(二):教你使用python+Opencv完成人脸解锁

    继上一篇"Python人脸识别黑科技(一):50行代码运用Python+OpenCV实现人脸追踪+详细教程+快速入门+图像识",那么今天我们来讲关于使用python+opencv+ ...

  9. python 欢迎自己程序编写_卧槽,神操作!一句查询让Python帮忙自己写程序

    原标题:卧槽,神操作!一句查询让Python帮忙自己写程序 对于很多初入Python编程的同学们而言,对于 Python程序的编写,往往会十分生疏,学会了 Python的语法,但是转头就忘了,或者是想 ...

最新文章

  1. Oracle 添加RAC数据库集群节点(一)
  2. SQL Server之游标的基础知识
  3. Tomcat服务器java.lang.IllegalArgumentException异常
  4. Linux 关于查看 cpu 的命令
  5. 第六章 计算机网络与i教案,大学计算机基础教案第6章计算机网络基础与应用.docx...
  6. C++——已知a+b、 a+c、b+c、 a+b+c,求a、b、 c
  7. 解决Oracle 11gR2 空闲连接过多,导致连接数满的问题
  8. javascript Date
  9. x=n; y=1; while(x=(y−1)∗(y−1)) y++; 以上程序的时间复杂度为 ?
  10. 天锐绿盾技术大讲堂:终端出现红色“+”
  11. 如何新建一个keil工程 的详细步骤
  12. windows下如何制作和应用数字签名证书 全流程
  13. 城市矢量边界数据下载
  14. NLP:不要重新造轮子
  15. 如何判断一个PCIe的capability是哪个capability
  16. 论文阅读-2017-Vidal-NEARP
  17. Codeforces Round #613 (Div. 2)(B-D)
  18. 电脑开机后显示屏只显示品牌Logo就黑屏
  19. 2021年安全员-C证考试及安全员-C证考试技巧
  20. IEC60079-11 附录3电气间隙和爬电距离的计算

热门文章

  1. SQL笔记-通过构建索引表方便数据库管理
  2. C++|Linux工作笔记-C++获取Linux中shell命令结果
  3. Qt文档阅读笔记-QSet官方解析及实例
  4. Qt|C++工作笔记-QVector与Vector去重复的值
  5. 计算机在娱乐中的应用有哪些,多媒体技术在娱乐方面的应用
  6. SQLite允许向一个integer型字段中插入字符串
  7. mysql 分组查出来横向展示_MySQL汇总分析(group by)
  8. linux c计算两个int相除求百分比的实现
  9. DUMP文件分析6:简单的堆破坏示例
  10. openjudge 放苹果 1664