求解麦克斯韦方程族时需要构建的神经网络

在基于物理信息的自解码器中，神经网络的输入为采样点（X）与隐向量（Z）的融合，神经网络的主体结构采用多通道残差网络并结合Sin激活函数。

代码如下：

# initialize latent vector

num_scenarios = config["num_scenarios"]

latent_size = config["latent_vector_size"]

latent_init = np.random.randn(num_scenarios, latent_size) / np.sqrt(latent_size)

latent_vector = Parameter(Tensor(latent_init, ms_type.float32), requires_grad=True)

network = MultiScaleFCCell(config["input_size"],

config["output_size"],

layers=config["layers"],

neurons=config["neurons"],

residual=config["residual"],

weight_init=HeUniform(negative_slope=math.sqrt(5)),

act="sin",

num_scales=config["num_scales"],

amp_factor=config["amp_factor"],

scale_factor=config["scale_factor"],

input_scale=config["input_scale"],

input_center=config["input_center"],

latent_vector=latent_vector

)

自适应加权损失函数加速收敛

在本案例中，由于源区附近区域的加密采样并作为独立子数据集进行网络训练，因此损失函数的构成包含如下五项：有源区域的控制方程和初始条件、无源区域的控制方程和初始条件以及边界条件。实验表明，这五项损失函数量级差异明显，因此简单的损失函数求和会导致网络训练失败，而手动调节每项损失函数的权重信息极为繁琐。MindElec发展了一种基于多任务学习不确定性估计的加权算法，通过引入可训的参数，自适应地调节每项损失函数的权重，可以显著地提升训练速度和精度。该算法的实现具体如下：

代码如下：

class MTLWeightedLossCell(nn.Cell):

def __init__(self, num_losses):

super(MTLWeightedLossCell, self).__init__(auto_prefix=False)

self.num_losses = num_losses

self.params = Parameter(Tensor(np.ones(num_losses), mstype.float32), requires_grad=True)

self.concat = ops.Concat(axis=0)

self.pow = ops.Pow()

self.log = ops.Log()

self.div = ops.RealDiv()

def construct(self, losses):

loss_sum = 0

params = self.pow(self.params, 2)

for i in range(self.num_losses):

weighted_loss = 0.5 * self.div(losses[i], params[i]) + self.log(params[i] + 1.0)

loss_sum = loss_sum + weighted_loss

return loss_sum

# self-adaptive weighting

mtl = MTLWeightedLossCell(num_losses=elec_train_dataset.num_dataset)

模型测试

MindElec可以通过自定义的callback函数，利用边训练边推理的功能。用户可以直接加载测试数据集，然后实现自定义的callback函数实现推理并分析结果。

代码如下：

callbacks = [LossAndTimeMonitor(epoch_steps)]

if config.get("train_with_eval", False):

input_data, label_data = get_test_data(config["test_data_path"])

eval_callback = PredictCallback(network, input_data, label_data, config=config, visual_fn=visual_result)

callbacks += [eval_callback]

模型增量训练

针对于新的问题参数，以（ϵr,μr）=（2,2）（ϵr,μr）=（2,2）为例，我们需要加载预训练的网络权重和初始化一个新的隐向量（Z）。

代码如下：

# load pretrained ckpt

param_dict = load_checkpoint(config["load_ckpt_path"])

loaded_ckpt_dict = {}

latent_vector_ckpt = 0

for name in param_dict:

if name == "model.latent_vector":

latent_vector_ckpt = param_dict[name].data.asnumpy()

elif "network" in name and "moment" not in name:

loaded_ckpt_dict[name] = param_dict[name]

# initialize the new latent vector

num_scenarios = config["num_scenarios"]

latent_size = config["latent_vector_size"]

latent_norm = np.mean(np.linalg.norm(latent_vector_ckpt, axis=1))

latent_init = np.zeros((num_scenarios, latent_size))

latent_vector = Parameter(Tensor(latent_init, ms_type.float32), requires_grad=True)

# optimizer

if config.get("finetune_model"):

model_params = model.trainable_params()

else:

model_params = [param for param in model.trainable_params()

if ("bias" not in param.name and "weight" not in param.name)]

params = model_params + mtl.trainable_params()

lr_scheduler = MultiStepLR(config["lr"], config["milestones"], config["lr_gamma"],

steps_per_epoch, config["train_epoch"])

lr = lr_scheduler.get_lr()

optim = nn.Adam(params, learning_rate=Tensor(lr))

，我们采用finetune_latent_with_model的增量训练模式，即同时更新隐向量和网络结构。电磁场的瞬时分布与参考标签数据的对比结果如下图所示。相较于PINNs直接求解单个问题，在达到同等精度（相对误差6%）的情况下，增量训练的方法得到了10倍以上的加速。

如下图：