• Graphite模拟器

Graphite Simulator是由MIT的Carbon研究组开发的一款并行分布式全系统模拟器。设计目标是针对与未来的多核甚至千核,提供高性能的设计和软件开发平台。使用了直接执行、无缝多核和多机分布、可分析性建模、松散同步等技术来提高模拟性能。提供了功能模拟和性能模拟两方面的模型,能够模拟core、NoC、存储子系统包括维护cache一致性的cache结构等。设计模块高度模块化,易于替换和添加不同的体系结构或者进行精确的性能均衡评估。

Graphite模拟器是一个运行在多核之上的多核模拟器,设计定位与提高多核机器的功能和并行性。但是它也支持在机群服务器上加速单一的模拟任务,即单机模拟运行在机群多核之上。这种功能对应用层和程序员是透明的。线程被自动分布到宿主机的多核之上,而模拟器则表现出所有的线程只运行在单处理器核上。这使得模拟器可在任意数量机器上运行编译后的并行应用程序,而不需要重新编译或配置。

Graphite设计之初并没有定位于实现cycle精确的数据统计,但是可以使用数据收集模型和一些技术提供精确的性能统计和其他数据统计。来自功能模型中core、network和存储子系统的指令、事件都会经过时序模型进行分析,用来统计数据和更新本地时钟数。本地时钟数是在核之间的消息时间戳来交互和同步的。为了减少同步消息的时间的浪费,Graphite不要求事件严格按照时序进行处理。采用松散同步机制[14]。

  • 系统体系结构

Graphite是一个针对tile级别的多核体系结构的应用程序级模拟器,可以运行在一个或多个宿主机上,每个宿主机可以是单核或多核。图1 为多线程应用程序运行在宿主机群,Graphite能够将应用程序多线程映射到目标系统中的tile上,并且能够将这些线程任务分发到宿主机上的多处理器上。宿主机负责调度和执行这些线程。

1 应用程序-线程-宿主机之间的调用关系

图2展示了Graphite设计模拟的目标系统体系结构。多个目标tile通过片上网络互联,每一个tile包括一个计算core,一个网络switch,一个存储子系统部件。Tiles可以是同构的也可以是异构的。

2 Graphite设计模拟的目标系统体系结构

Graphite采用模块化设计,每个模块都可以被单独替换,并且每个组件都有丰富的接口。模块可以通过运行时参数配置,或者被完全替换成其它模块用于研究。也可以通过替换模块来达到性能和精确度的不同权衡。

图3展示了模拟器的主要组成组件。应用线程通过动态二进制翻译器来解释执行,通过重写指令来生成重要的事件。这些事件会引起traps输入到模拟器终端部件,例如core、memory、network等。终端通过动态二进制翻译器DBT来监听这些事件,包括访存、系统调用、同步信息以及用户级信息。DBT也用来生成指令流驱动core的计算模型。

3 模拟器的主要组成组件

Graphite模拟器终端可以被广泛地分成两个特征集:功能性和时序性。时序模拟模拟目标系统的各方面的特征,功能模拟保证程序结果的正确性。

  • 时序特征

Core model负责模拟流水级内容,memory model负责模拟存储子系统,包括多级cache和DRAM,network model处理路由NoC的传输包并且负责计算传输延时和路由开销。

模拟器时序模拟通过模块之间的相互联系来确定应用程序中的事件开销。例如,存储器模型通过使用roud trip延时次数来计算访存操作的延时,而core模型依赖访存模型的延时来计算执行存取操作的时间开销。

Graphite模拟器取得较好的性能的技术之一就是使用松散同步机制。在松散同步机制中,每一个目标tile维护自己的本地时钟,不同tiles之间的同步仅仅发生在应用程序同步事件、用户级消息通信以及线程创建和线程结束。

  • 功能特征

Graphite模拟器能够在多机上直接执行未修改的pthread编程模型的应用程序,为了支持这种功能,Graphite模拟器使用了一些特殊技术来保证程序的正确性。

  • 单地址映射空间

因为应用程序的线程执行在不同的进程上,并且映射到不同的地址空间,如果允许程序分散的访问宿主机的地址空间会造成功能错误。Graphite模拟提供了处理机制来修改访存操作把应用程序地址空间统一编址,提供给所有的线程并且维护他们之间的数据一致性。

  • 一致的OS接口

因为应用线程执行在不同宿主机的多线程上,Graphite实现了一个系统接口层来监听和处理所有的应用程序的系统调用,这样可以让应用线程感知到只是运行在单进程上。

  • 线程接口

Graphite实现了线程接口来监听应用程序线程创建请求,然后将线程分发到多机中运行。线程接口也实现了特定的线程管理和同步功能,其它的操作由单个一致性地址空间来自动处理。

为了面对这些挑战,模拟器增加了额外的Master Control Program线程以及Local Control Program。每个进程中都有一个LCP,但是整个模拟器只有一个MCP。MCP和LCP能够保证功能正确性,因为它们负责维护同步、系统调用和线程管理的工作。

  • 模拟器具体实现

下面介绍模拟器如何实现高性能的并行离散事件的模拟。

  • Core性能模型

Core的性能模型单纯的模拟系统时钟功能。它遵循生产者消费者模型:core来消费指令,而其它动态信息是由系统的其它部分产生。大部分的指令使用动态二进制翻译器产生。系统的其它部分也能产生一些伪指令来更新本地时钟。例如,当应用程序使用网络消息API传递消息,网络模型产生“消息接受伪指令”,当一个线程在core上新建后,就是产生一个“新建伪指令”。

其它的信息需要其它的执行部件去模拟。例如访存操作的演示,分支路线等等,这些都是动态生成的,不包括在指令trace里面。这些信息是由模拟终端或是二进制翻译器产生,被core性能模型使用。这样将功能模型和时序模型分离开模拟,就可以异步执行,互相不打扰,防止引入功能性错误。

因为性能模拟和功能模型是分开的,这样就提供了极大的灵活性来匹配不同的目标体系结构。目前,Graphite支持顺序core模型和乱序访存系统。存储缓冲,加载部件,分支预测和指令消耗都是可以模拟和配置的。

  • 存储系统模型

Graphite的存储系统同时拥有功能和时序模拟的作用。功能模拟在不同地址空间上为应用程序线程提供抽象的共享地址空间。时序模拟提供cache体系结构的模拟和存储控制器模拟。功能模拟和时序模拟紧耦合,通过网络传输的访存消息既要保证功能正确性又要用于统计时序信息。目前,模拟器支持顺序一致性访存系统,包括全相联和基于有限目录的cahce一致性协议,L1和L2cache私有,每个tile拥有一个访存控制器。

存储系统的功能模拟提供支持所有的访存操作。动态二进制放一起重写所有的访存向量,对应用程序的访存操作进行重定向。

  • 网络模拟

网络组件提供高层次的tiles之间的消息服务,这些tiles使用共享存储器,使用TCP/IP协议在目标tiles之间通信。

网络组件维护了几个完全不同的网络模拟模型,通过不同的消息类型启用不同的网络模型。例如,系统消息与应用程序不相关,所以使用不同的网络模型,因此对模拟想结果也不会产生影响。网络模型负责路由消息包和更新时间戳来计算网络延时。

所以的网络模型使用相同的接口,因此可以随意替换,并且易于开发新的网络模型。目前,Graphite支持无延时的包传输模型以及多个mesh网络模型,区别在于对性能和精确度的不同权衡。

  • 一致的OS接口

Graphite 实现了系统接口层,可以对系统调用进行监听和处理。

许多系统调用,例如clone、rt_sigaction,将内存块指针作为输入或输出参数发往内核。Graphite监听这种系统调用然后修改参数来指向正确的数据。系统调用返回后,任何输出数据都会被复制到模拟的地址空间中。

一些系统调用,例如处理I/O事件,需要特殊的处理来维护目标程序进程的一致性。例如,在多线程应用程序中,线程间的通信有可能依靠文件读写,一个线程调用write系统调用写文件,另一个线程调用read系统调用读文件。在Graphite模拟器中,这些线程也需运行在不同的宿主机线程上,也可能运行在不同的宿主机上,每一个宿主机有自己的文件系统。模拟在处理这些系统调用的时候通过监听并传递给MCP。结果是返回期望的结果给调用线程。

  • 线程构建

Graphite模拟所面对的一个挑战就是顺利地在分布式模拟上创建线程。其它的编程模型中,例如MPI,强制应用程序用户保证任务的分发和进程的创建。而Graphite模拟器提供了单进程编程模型给用户使用哪个,然后自动将线程分发给不同的主机。

上面所介绍的功能(线程的分发)可以通过实时配置选项的修改来达到目的,并且不用修改目标代码。

为了完成这种功能,线程创建调用首先被调用者所监听到,然后传递给MCP来保证统一的线程到tile的映射。MCP选择可用的core并且传递线程创建请求给控制被选的tile的LCP。Tiles和线程之间的映射就可以通过简单的分割来实现。线程合并可以使用相同的方法,利用MCP实现同步。

  • 同步模型

为了在多机上实现高性能和高可扩展性的目标,Graphite使用松散时钟同步方式来同步各个tiles。所以,Graphite不是cycle精确的。它支持多种不同的同步方式,不同的方式在时钟精度和模拟性能方面偶不同的权衡,分别是:lax synchronization,lax with barrier synchronization 和lax with point-to-point synchronization。Lax synchronization是Graphite模拟器的基础模型。

  • Lax Sync:

最大限度让模块自由运行,能够提供最好的模拟性能和可扩展性。为了让模拟的时钟能够在合理的范围内,Graphite使用应用程序事件来同步不同模块,其它情况则让线程自由运行。

所有的模块间的交互通过消息来实现,每个消息携带着发送者的时钟消息。这些时间戳用来在同步事件中更新在同步时钟。单个tile的时钟更新发生在指令完成的时候。出了访存事件的例外,这些事件相对于整个模型老师是相互独立的。然而,访存操作使用消息的round-trip时间来决定延迟。所以他们并不强制来和其它tiles同步。真正的同步发生在一下事件:应用程序同步,例如locks、barrier;通过API接收到消息;创建或合并线程。在所有的情况中,tile的时钟被推进道事件发生的时间点。如果事件在模拟时间之前发生,则不更新事件。

乱序事件的通用处理方法是忽略模拟时间和进程事件。一种可能的方法是对事件进行重排序,然后以模拟时间的顺序执行事件,但是这样会出现显著的问题。缓冲和重排序事件会导致存储系统死锁,并且难于实现,因为没有全局时钟计数。一种可能性是,模块可以采用乐观事件处理方式,以接收事件的时间来处理事件,如果出现时间乱序则回滚到事件到达时间点,就像BigSim模拟器实现的那样。

这种复杂的模型,类似于乱序事件处理过程。在cycle精确级的模拟中,packet发送到队列上是需要缓冲处理的。在每个cycle,队头被取出并处理。然而在Graphite模拟器中,packet会被迅速的处理并且携带过去的或是为了的事件戳,所以这种策略在这种情况下不适合。

相反的是,对于队列的延迟,我们是采用了而一个独立的时钟来维护队列时钟信息。这个时钟代表了队列事件全部处理完成时的时间。另外,队列时钟随着事件处理而递进。

然而,因为系统中的core之间是松散同步的,所以没有一个全局的时钟的概念。整个模拟器时钟的推进是依赖于消息传递的事件戳,所有模块的时间的权衡值是整个模拟的整体时钟。

  • Lax with Barrier Synchronization

Graphite也支持基于全局的时间量同步栅栏机制,即所有的线程运行到一定的cycle数后barrier一下,等到所有线程到达barrier点之后再一起并发执行。

  • Lax with Point-to-point Synchronization

LaxP2P同步方法定位于获取和全局松散同步机制相同的时序精确度但是不降低性能和可扩展性。

在这种同步机制下,在一段时间内,每个tile随机选取另一个同步对象并与其同步。如果其中一个tile的事件超过预设的时间阈值则使其休眠,等待其他tile“赶”上来。

《原文花了好长时间翻译自:Graphite: A Distributed Parallel Simulator for Multicores   不要随便全篇黏贴复制哦。。。 》。

Graphite Simulator模拟器详解相关推荐

  1. python控制手机模拟器_Appium+python自动化之连接模拟器并启动淘宝APP(超详解)...

    简介 上一篇讲解完模拟器的安装.配置好以后,就好比我们手机已经买好,并且系统已经做好了,就差我们用数据线和电脑连接开始实战了,这篇宏哥就带着小伙伴们和童鞋们趁热打铁,讲解和分享一下如何连接模拟器(电脑 ...

  2. 华为eNSP模拟器软件介绍和基础命令详解

    目录 前言 eNSP模拟器介绍 软件特点 基础命令详解 前言 eNSP是图形化网络仿真平台,该平台通过对真实网络设备的仿真模拟,帮助广大ICT从业者和客户快速熟悉华为数通系列产品,了解并掌握相关产品的 ...

  3. Graphite详解

    Graphite详解 作者:chszs,未经博主允许不得转载.经许可的转载需注明作者和博客主页:http://blog.csdn.net/chszs Graphite是一个开源实时的.显示时间序列度量 ...

  4. Gem5模拟器,详解官网教程Event-driven programming(五)

    目录 一.解释一下gem5中的event-driven? 二.Creating a simple event callback (1)定义一个新的 C++ 类,并继承自 SimObject 抽象基类 ...

  5. 详解uni-app项目运行在ios模拟器调试

    详解uni-app项目运行在ios模拟器调试 uni-app项目运行在ios模拟器调试 文章目录 详解uni-app项目运行在ios模拟器调试 前言 一.环境准备 二.模拟器调试 总结 前言 UNI- ...

  6. Android模拟器Genymotion安装使用教程详解

    原文地址为: Android模拟器Genymotion安装使用教程详解 版权声明:本文为博主原创文章,未经博主允许不得转载. 一.注册\登录 打开Genymotion官网,https://www.ge ...

  7. prophet路由详解 机会网络 DTN网络 ONE模拟器

    ONE模拟器 简介 代码 代码详解 简介 prophet算法是机会网络中的经典算法,在Probabilistic routing in intermittently connected network ...

  8. Simplescalar 模拟器介绍 及 sim-outorder超标量乱序执行步骤详解

    SimpleScalar模拟器是一个超标量.5级流水的RISC(Reduced Instruction Set Computing)体系结构模拟器,提供了从最简单的功能模拟到超标量乱序发射的不同的模拟 ...

  9. Android模拟器修改hosts文件详解

    Android模拟器修改hosts文件详解 前言 在开发中遇到这样需求,需要在hosts文件中将某个网址域名与其对应的IP地址建立一个关联,比如关联这样一个ip: 123.45.67.89 www.u ...

最新文章

  1. 怎样Selenium IDE选择combo box中值
  2. 建立Full Trust的Browser Application
  3. LINUX使用tcgetattr函数与tcsetattr函数控制终端二
  4. Express的基本路由实现对get和post等的请求和响应
  5. boost::process::async_pipe相关的测试程序
  6. iOS9 判断微信qq是否安装
  7. Effective_STL 学习笔记(八) 永不建立 auto_ptr 的容器
  8. ASP.NET Web API 中 特性路由(Attribute Routing) 的重名问题
  9. LeetCode 1498. 满足条件的子序列数目(排序+二分查找+快速幂)
  10. [转载] 如何在Android设备之间共享Google Play应用,音乐等
  11. mex文件用matlab能打开吗,matlab中mex文件编译运行的问题
  12. Robotium 数据驱动测试框架
  13. js修改背景图片路径_前端面试题————关键渲染路径(Critical Rendering Path)...
  14. android下拉菜单刷新,android下拉刷新列表实现(pull to refresh)
  15. honeywell Xenon 1900 usb
  16. ffmpeg下载m3u8文件
  17. Netch + Connectify 实现代理转全局并共享给其他设备,例如Kindle
  18. React源码解毒 - 检测开发者是否错误的使用了props属性
  19. 11.9 至 11.17 四道典型题记录: Counter 弹出 | map函数 | 子集求取 | 有序字符桶分装
  20. 什么鬼畜耳机品牌会叫做233621

热门文章

  1. 数数小绵羊(四刷) kkmd66
  2. 针织毛衫的概念及设计
  3. sudo rm -f /
  4. C函数参数中的三个点
  5. linux拷贝文件断电后丢失,linux突然断电重启,配置文件丢失/程序无法打开/文件损坏...
  6. 计算机组装图纸手画,原神玩家为造家园能有多拼?工科大佬直接画出图纸,成品效果惊人...
  7. Java调用不同的打印机实现打印不同小票
  8. 2021邵阳市地区高考成绩排名查询,2021邵阳最新高中排名前十
  9. 学习系列--最优学习内容选择
  10. 人工智能数学基础--概率与统计7:学习中一些术语的称呼或表示变化说明以及独立事件的一些补充推论