Multi-thread提高C++性能的编程技术笔记：单线程内存池+测试代码

频繁地分配和回收内存会严重地降低程序的性能。性能降低的原因在于默认的内存管理是通用的。应用程序可能会以某种特定的方式使用内存，并且为不需要的功能付出性能上的代价。通过开发专用的内存管理器可以解决这个问题。对专用内存管理器的设计可以从多个角度考虑。我们至少可以想到两个方面：大小和并发。

从大小的角度分为以下两种：

(1)、固定大小：分配固定大小内存块的内存管理器。

(2)、可变大小：分配任意大小内存块的内存管理器。所请求分配的大小事先是未知的。

类似的，从并发的角度也分为以下两种：

(1)、单线程：内存管理器局限在一个线程内。内存被一个线程使用，并且不越出该线程的界限。这种内存管理器不涉及相互访问的多线程。

(2)、多线程：内存管理器被多个线程并发地使用。这种实现需要包含互斥执行的代码段。无论什么时候，只能有一个线程在执行一个代码段。

全局函数new()和delete()：从设计上来说，默认的内存管理器是通用的。当调用全局函数new()和delete()时，我们使用的正是默认内存管理器。这两个函数的实现不能作任何简化假设。它们在进程范围内管理内存。既然一个进程可能产生多个线程，new()和delete()就必须能够在多线程环境中运行。而且，每次请求分配的内存大小是不同的。这种灵活性以速度为代价。所做的计算越多，消耗的周期就越多。

通常情况下，客户端代码不需要全局函数new()和delete()的全部功能。它可能只(或通常)需要特定大小的内存块。客户端代码很可能在单线程环境中运行，在这种环境中并不真正需要默认的new()和delete()所提供的并发保护。这样的话，使用这两个函数的全部功能就会浪费CPU周期。通过调整内存分配策略来更好地匹配特定需求，可以明显地提高性能。

灵活性以速度的降低为代价.随着内存管理的功能和灵活性的增强,执行速度将降低.

全局内存管理器(由new()和delete()执行)是通用的，因此代价高。

专用内存管理器比全局内存管理器快一个数量级以上。

如果主要分配固定大小的内存块，专用的固定大小内存管理器将明显地提升性能。

如果主要分配限于单线程的内存块，那么内存管理器也会有类似的性能提高。由于省去了全局函数new()和delete()必须处理的并发问题，单线程内存管理器的性能有所提高。

以下是测试代码(single_threaded_memory_pool.cpp)：

#include "single_threaded_memory_pool.hpp"
#include <iostream>
#include <chrono>
#include <string>
namespace single_threaded_memory_pool_ {
// reference: 《提高C++性能的编程技术》：第六章：单线程内存池
class Rational1 {
public:
Rational1(int a = 0, int b = 1) : n(a), d(b) {}
private:
int n; // 分子
int d; // 分母
}; // class Rational1
// 专用Rational2内存管理器
// 为避免频繁地使用内存管理器,Rational2类要维护一个预分配的Rational2对象的静态连接列表,该列表列出空闲的可用对象.
// 当需要Rational2对象时,可以从空闲列表中取出一个,使用后再把它放回空闲列表以便今后分配.
// 声明一个辅助结构来连接空闲列表的相邻元素
class NextOnFreeList {
public:
NextOnFreeList* next;
}; // class NextOnFreeList
// 空闲列表被声明为一个由NextOnFreeList元素组成的列表
class Rational2 {
public:
Rational2(int a = 0, int b = 1) : n(a),d(b) {}
inline void* operator new(size_t size);
inline void operator delete(void* doomed, size_t size);
static void newMemPool() { expandTheFreeList(); }
static void deleteMemPool();
private:
static NextOnFreeList* freeList; // Rational2对象的空闲列表
static void expandTheFreeList();
enum { EXPANSION_SIZE = 32};
int n; // 分子
int d; // 分母
}; // class Rational2
NextOnFreeList* Rational2::freeList = nullptr;
// new()在空闲列表中分配一个Rational2对象.如果列表为空,则扩展列表
inline void* Rational2::operator new(size_t size)
{
if (nullptr == freeList) { // 如果列表为空,则将其填满
expandTheFreeList();
}
NextOnFreeList* head = freeList;
freeList = head->next;
return head;
}
// delete()把Rational2对象直接添加到空闲列表的头部,以返回Rational2对象
inline void Rational2::operator delete(void* doomed, size_t size)
{
NextOnFreeList* head = static_cast<NextOnFreeList*>(doomed);
head->next = freeList;
freeList = head;
}
// 当空闲列表用完后,需要从堆上分配更多的Rational2对象.
// Rational2和NextOnFreeList之间的类型转换是有危险的,必须确保空闲列表的元素足够大以支持任意一种类型
// 当我们用Rational2对象填充空闲列表时,要记得比较Rational2和NextOnFreeList的大小,并且分配较大的那一个
void Rational2::expandTheFreeList()
{
// 本质上，expandTheFreeList的实现并不是最优的.因为空闲列表中每增加一个元素，就调用一次new. 如果只调用一次new
// 获得一大块内存,然后把它切分给多个元素,这样会更高效。孤立地看，这种想法很正确。然而我们创建内存管理器时，
// 认为它不会频繁扩展和收缩,否则必须重新查看代码实现并修正它
// 我们必须分配足够大的对象以包含下一个指针
size_t size = sizeof(Rational2) > sizeof(NextOnFreeList*) ? sizeof(Rational2) : sizeof(NextOnFreeList*);
NextOnFreeList* runner = static_cast<NextOnFreeList*>((void*)new char[size]);
freeList = runner;
for (int i = 0; i < EXPANSION_SIZE; ++i) {
runner->next = static_cast<NextOnFreeList*>((void*)new char[size]);
runner = runner->next;
}
runner->next = nullptr;
}
void Rational2::deleteMemPool()
{
NextOnFreeList* nextPtr;
for (nextPtr = freeList; nextPtr != nullptr; nextPtr = freeList) {
freeList = freeList->next;
delete [] nextPtr;
}
}
///
// 固定大小对象的内存池: 观察Rational2内存管理器的实现，会很清楚地发现内存管理逻辑实际上独立于特定的Rational2类.
// 它唯一依赖的是类对象的大小----这正是用模板实现内存池的原因
template<class T>
class MemoryPool1 {
public:
MemoryPool1(size_t size = EXPANSION_SIZE);
~MemoryPool1();
// 从空闲列表中分配T元素
inline void* alloc(size_t size);
// 返回T元素到空闲列表中
inline void free(void* someElement);
private:
// 空闲列表的下一元素
MemoryPool1<T>* next;
// 如果空闲列表为空，按该大小扩展它
enum { EXPANSION_SIZE = 32 };
// 添加空闲元素至空闲列表
void expandTheFreeList(int howMany = EXPANSION_SIZE);
};
// 构造函数初始化空闲列表，参数size指定空闲列表的初始化长度
template<class T>
MemoryPool1<T>::MemoryPool1(size_t size)
{
expandTheFreeList(size);
}
// 析构函数遍历空闲列表并且删除所有元素
template<class T>
MemoryPool1<T>::~MemoryPool1()
{
MemoryPool1<T>* nextPtr = next;
for (nextPtr = next; nextPtr != nullptr; nextPtr = next) {
next = next->next;
delete [] static_cast<char*>(static_cast<void*>(nextPtr));
}
}
// alloc函数为T元素分配足够大的空间，如果空闲列表用尽，则调用expandThrFreeList函数来扩充它
template<class T>
inline void* MemoryPool1<T>::alloc(size_t size)
{
if (!next) {
expandTheFreeList();
}
MemoryPool1<T>* head = next;
next = head->next;
return head;
}
// free函数把T元素放回空闲列表，以此来释放它
template<class T>
inline void MemoryPool1<T>::free(void* doomed)
{
MemoryPool1<T>* head = static_cast<MemoryPool1<T>*>(doomed);
head->next = next;
next = head;
}
// expandTheFreeList函数用来向空闲列表添加新元素，首先从堆上分配新元素，然后把它们连接到列表中
// 该函数在空闲列表用尽时被调用
template<class T>
void MemoryPool1<T>::expandTheFreeList(int howMany)
{
// 必须分配足够大的对象以包含下一个指针
size_t size = sizeof(T) > sizeof(MemoryPool1<T>*) ? sizeof(T) : sizeof(MemoryPool1<T>*);
MemoryPool1<T>* runner = static_cast<MemoryPool1<T>*>((void*)(new char[size]));
next = runner;
for (int i = 0; i < howMany; ++i) {
runner->next = static_cast<MemoryPool1<T>*>((void*)(new char[size]));
runner = runner->next;
}
runner->next = nullptr;
}
// Rational3类不再需要维护它自己的空闲列表，这项任务委托给了MemoryPool1类
class Rational3 {
public:
Rational3(int a = 0, int b = 1) : n(a),d(b) {}
void* operator new(size_t size) { return memPool->alloc(size); }
void operator delete(void* doomed, size_t size) { memPool->free(doomed); }
static void newMemPool() { memPool = new MemoryPool1<Rational3>; }
static void deleteMemPool() { delete memPool; }
private:
int n; // 分子
int d; // 分母
static MemoryPool1<Rational3>* memPool;
};
MemoryPool1<Rational3>* Rational3::memPool = nullptr;
/
// 单线程可变大小内存管理器:
// MemoryChunk类取代之前版本中使用的NextOnFreeList类，它用来把不同大小的内存块连接起来形成块序列
class MemoryChunk {
public:
MemoryChunk(MemoryChunk* nextChunk, size_t chunkSize);
// 析构函数释放构造函数获得的内存空间
~MemoryChunk() { delete [] mem; }
inline void* alloc(size_t size);
inline void free(void* someElement);
// 指向列表下一内存块的指针
MemoryChunk* nextMemChunk() { return next; }
// 当前内存块剩余空间大小
size_t spaceAvailable() { return chunkSize - bytesAlreadyAllocated; }
// 这是一个内存块的默认大小
enum { DEFAULT_CHUNK_SIZE = 4096 };
private:
MemoryChunk* next;
void* mem;
// 一个内存块的默认大小
size_t chunkSize;
// 当前内存块中已分配的字节数
size_t bytesAlreadyAllocated;
};
// 构造函数首先确定内存块的适当大小，然后根据这个大小从堆上分配私有存储空间
// MemoryChunk将next成员指向输入参数nextChunk, nextChunk是列表先前的头部
MemoryChunk::MemoryChunk(MemoryChunk* nextChunk, size_t reqSize)
{
chunkSize = (reqSize > DEFAULT_CHUNK_SIZE) ? reqSize : DEFAULT_CHUNK_SIZE;
next = nextChunk;
bytesAlreadyAllocated = 0;
mem = new char[chunkSize];
}
// alloc函数处理内存分配请求，它返回一个指针，该指针指向mem所指向的MemoryChunk私有存储空间中的可用空间。
// 该函数通过更新该块中已分配的字节数来记录可用空间的大小
void* MemoryChunk::alloc(size_t requestSize)
{
void* addr = static_cast<void*>(static_cast<char*>(mem) + bytesAlreadyAllocated);
bytesAlreadyAllocated += requestSize;
return addr;
}
// 在该实现中，不用担心空闲内存段的释放。当对象被删除后，整个内存块将被释放并且返回到堆上
inline void MemoryChunk::free(void* doomed)
{
}
// MemoryChunk只是一个辅助类，ByteMemoryPoll类用它来实现可变大小的内存管理
class ByteMemoryPool {
public:
ByteMemoryPool(size_t initSize = MemoryChunk::DEFAULT_CHUNK_SIZE);
~ByteMemoryPool();
// 从私有内存池分配内存
inline void* alloc(size_t size);
// 释放先前从内存池中分配的内存
inline void free(void* someElement);
private:
// 内存块列表，它是我们的私有存储空间
MemoryChunk* listOfMemoryChunks = nullptr;
// 向我们的私有存储空间添加一个内存块
void expandStorage(size_t reqSize);
};
// 虽然内存块列表可能包含多个块，但只有第一块拥有可用于分配的内存。其它块表示已分配的内存。
// 列表的首个元素是唯一能够分配可以内存的块。
// 构造函数接收initSize参数来设定一个内存块的大小，即构造函数借此来设置单个内存块的大小。
// expandStorage方法使listOfMemoryChunks指向一个已分配的MemoryChunk对象
// 创建ByteMemoryPool对象，生成私有存储空间
ByteMemoryPool::ByteMemoryPool(size_t initSize)
{
expandStorage(initSize);
}
// 析构函数遍历内存块列表并且删除它们
ByteMemoryPool::~ByteMemoryPool()
{
MemoryChunk* memChunk = listOfMemoryChunks;
while (memChunk) {
listOfMemoryChunks = memChunk->nextMemChunk();
delete memChunk;
memChunk = listOfMemoryChunks;
}
}
// alloc函数确保有足够的可用空间，而把分配任务托付给列表头的MemoryChunk
void* ByteMemoryPool::alloc(size_t requestSize)
{
size_t space = listOfMemoryChunks->spaceAvailable();
if (space < requestSize) {
expandStorage(requestSize);
}
return listOfMemoryChunks->alloc(requestSize);
}
// 释放之前分配的内存的任务被委派给列表头部的MemoryChunk来完成
// MemoryChunk::free不做任何事情，因为ByteMemoryPool的实现不会重用之前分配的内存。如果需要更多内存，
// 我们将创建新的内存块以便今后分配使用。在内存池被销毁时，内存释放回堆中。ByteMemoryPool析构函数
// 释放所有的内存块到堆中
inline void ByteMemoryPool::free(void* doomed)
{
listOfMemoryChunks->free(doomed);
}
// 若遇到内存块用尽这种不太可能的情况，我们通过创建新的内存块并把它添加到内存块列表的头部来扩展它
void ByteMemoryPool::expandStorage(size_t reqSize)
{
listOfMemoryChunks = new MemoryChunk(listOfMemoryChunks, reqSize);
}
class Rational4 {
public:
Rational4(int a = 0, int b = 1) : n(a),d(b) {}
void* operator new(size_t size) { return memPool->alloc(size); }
void operator delete(void* doomed, size_t size) { memPool->free(doomed); }
static void newMemPool() { memPool = new ByteMemoryPool; }
static void deleteMemPool() { delete memPool; }
private:
int n; // 分子
int d; // 分母
static ByteMemoryPool* memPool;
};
ByteMemoryPool* Rational4::memPool = nullptr;
/
int test_single_threaded_memory_pool_1()
{
using namespace std::chrono;
high_resolution_clock::time_point time_start, time_end;
const int cycle_number1{10000}, cycle_number2{1000};
{ // 测试全局函数new()和delete()的基准性能
Rational1* array[cycle_number2];
time_start = high_resolution_clock::now();
for (int j =0; j < cycle_number1; ++j) {
for (int i =0; i < cycle_number2; ++i) {
array[i] = new Rational1(i);
}
for (int i = 0; i < cycle_number2; ++i) {
delete array[i];
}
}
time_end = high_resolution_clock::now();
fprintf(stdout, "global function new/delete time spent: %f seconds\n",(duration_cast<duration<double>>(time_end - time_start)).count());
}
{ // 专用Rational2内存管理器测试
Rational2* array[cycle_number2];
time_start = high_resolution_clock::now();
Rational2::newMemPool();
for (int j = 0; j < cycle_number1; ++j) {
for (int i = 0; i < cycle_number2; ++i) {
array[i] = new Rational2(i);
}
for (int i = 0; i < cycle_number2; ++i) {
delete array[i];
}
}
Rational2::deleteMemPool();
time_end = high_resolution_clock::now();
fprintf(stdout, "specialized rational2 memory manager time spent: %f seconds\n",(duration_cast<duration<double>>(time_end - time_start)).count());
}
{ // 固定大小对象的内存池测试
Rational3* array[cycle_number2];
time_start = high_resolution_clock::now();
Rational3::newMemPool();
for (int j = 0; j < cycle_number1; ++j) {
for (int i = 0; i < cycle_number2; ++i) {
array[i] = new Rational3(i);
}
for (int i = 0; i < cycle_number2; ++i) {
delete array[i];
}
}
Rational3::deleteMemPool();
time_end = high_resolution_clock::now();
fprintf(stdout, "fixed-size object memory pool time spent: %f seconds\n",(duration_cast<duration<double>>(time_end - time_start)).count());
}
{ // 单线程可变大小内存管理器测试
Rational4* array[cycle_number2];
time_start = high_resolution_clock::now();
Rational4::newMemPool();
for (int j = 0; j < cycle_number1; ++j) {
for (int i = 0; i < cycle_number2; ++i) {
array[i] = new Rational4(i);
}
for (int i = 0; i < cycle_number2; ++i) {
delete array[i];
}
}
Rational4::deleteMemPool();
time_end = high_resolution_clock::now();
fprintf(stdout, "single-threaded variable-size memory manager time spent: %f seconds\n",(duration_cast<duration<double>>(time_end - time_start)).count());
}
return 0;
}
} // namespace single_threaded_memory_pool_

执行结果如下：

GitHub： https://github.com/fengbingchun/Messy_Test

转载自：https://blog.csdn.net/fengbingchun/article/details/84497625

Multi-thread提高C++性能的编程技术笔记：单线程内存池+测试代码相关推荐

提高C++性能的编程技术笔记：编码优化+测试代码
缓存:在现代处理器中,缓存经常与处理器中的数据缓存和指令缓存联系在一起.缓存主要用来存储使用频繁而且代价高昂的计算结果,这样就可以避免对这些结果的重复计算.如,循环内对常量表达式求值是一种常见的低性能 ...
提高C++性能的编程技术笔记：引用计数+测试代码
引用计数(reference counting):基本思想是将销毁对象的职责从客户端代码转移到对象本身.对象跟踪记录自身当前被引用的数目,在引用计数达到零时自行销毁.换句话说,对象不再被使用时自行销毁 ...
提高C++性能的编程技术笔记：内联+测试代码
内联类似于宏,在调用方法内部展开被调用方法,以此来代替方法的调用.一般来说表达内联意图的方式有两种:一种是在定义方法时添加内联保留字的前缀:另一种是在类的头部声明中定义方法. 虽然内联方法的调用方式和 ...
提高C++性能的编程技术笔记：临时对象+测试代码
类型不匹配:一般情况是指当需要X类型的对象时提供的却是其它类型的对象.编译器需要以某种方式将提供的类型转换成要求的X类型.这一过程可能会产生临时对象. 按值传递:创建和销毁临时对象的代价是比较高的.倘 ...
提高C++性能的编程技术笔记：跟踪实例+测试代码
当提高性能时,我们必须记住以下几点: (1). 内存不是无限大的.虚拟内存系统使得内存看起来是无限的,而事实上并非如此. (2). 内存访问开销不是均衡的.对缓存.主内存和磁盘的访问开销不在同一个数量 ...
提高C++性能的编程技术笔记：总结
<提高C++性能的编程技术>这本书是2011年出版的,书中有些内容的介绍可能已经过时,已不再适用于现在的C++编程中,但大部分内容还是很有参考意义的. 这里是基于之前所有笔记的简单总结,笔 ...
提高C++性能的编程技术笔记：设计优化/可扩展性/系统体系结构相关+测试代码
1. 设计优化我们可以粗略地将性能优化分为两种类型:编码优化和设计优化.编码优化定义为不需要完整理解要解决的问题或者应用程序的执行流程就能实施的优化.通过定义看出,编码优化用于局部代码,同时该过程不 ...
提高C++性能的编程技术笔记：标准模板库+测试代码
标准模板库(Standard Template Library, STL)是容器和通用算法的强效组合. 渐近复杂度:算法的渐近复杂度是对算法性能的近似估计.它是算法集到特定性能标准集的映射.如果需要对 ...
提高C++性能的编程技术笔记：多线程内存池+测试代码
为了使多个线程并发地分配和释放内存,必须在分配器方法中添加互斥锁. 全局内存管理器(通过new()和delete()实现)是通用的,因此它的开销也非常大. 因为单线程内存管理器要比多线程内存管理器快的 ...
提高C++性能的编程技术笔记：单线程内存池+测试代码
频繁地分配和回收内存会严重地降低程序的性能.性能降低的原因在于默认的内存管理是通用的.应用程序可能会以某种特定的方式使用内存,并且为不需要的功能付出性能上的代价.通过开发专用的内存管理器可以解决这个问 ...

Multi-thread提高C++性能的编程技术笔记：单线程内存池+测试代码

Multi-thread提高C++性能的编程技术笔记：单线程内存池+测试代码相关推荐

最新文章

热门文章