# 图模式-编程技巧

[![下载Notebook](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/website-images/r2.7.1/resource/_static/logo_notebook.svg)](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/notebook/r2.7.1/tutorials/zh_cn/compile/mindspore_static_graph_expert_programming.ipynb)&emsp;
[![下载样例代码](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/website-images/r2.7.1/resource/_static/logo_download_code.svg)](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/notebook/r2.7.1/tutorials/zh_cn/compile/mindspore_static_graph_expert_programming.py)&emsp;
[![查看源文件](https://mindspore-website.obs.cn-north-4.myhuaweicloud.com/website-images/r2.7.1/resource/_static/logo_source.svg)](https://gitee.com/mindspore/docs/blob/r2.7.1/tutorials/source_zh_cn/compile/static_graph_expert_programming.ipynb)

本章介绍常用的静态图优化的高级编程技巧。这些技巧能够有效地提高静态图的编译效率、执行效率，并提升程序的稳定性。有关静态图编译的基础介绍，请见[Graph Mode加速](https://www.mindspore.cn/tutorials/zh-CN/r2.7.1/beginner/accelerate_with_static_graph.html)。

## 如何优化编译性能

### 使用lazy_inline装饰器

神经网络模型的编译过程往往采用默认inline的方式，把层级的代码表达最终展开成一张扁平的计算图，一方面寻求最大的编译优化机会，另一方面也可以简化自动微分以及执行的逻辑。inline后形成的计算图包含所有计算节点，可以在更大的范围内进行优化，比如常量折叠、节点融合、并行分析等。同时，也可以更好地实现内存分配，减少内存申请和性能开销。虽然inline优化对于运行期性能提升有很大帮助，但过度inline会增加编译期负担。例如，随着计算图节点数量膨胀，执行pass的耗时也在急剧增长。

为了减轻inline对编译性能的影响，对于重复调用相同计算单元的场景（典型的场景是在for循环中调用同一个Cell类的不同实例），我们提供了Lazy Inline机制来减少编译时间。

#### 大模型pipeline并行场景

在大模型场景中，编译耗时问题尤为突出。一是大模型的模型结构层次深、节点数多；二是训练时启用pipeline并行，模型规模和节点数进一步增加。如果原来图的规模是O，那开启pipeline并行，单节点图的规模变为(O/X)*Y，其中X为pipeline的stage数量，Y为micro batch的数量。以盘古13B网络为例，计算图中计算节点数量达到13.5万个，单次编译时长可接近3小时。

类似盘古的大模型网络结构由多层layer组成。开启pipeline并行时，各个micro batch的layer层结构完全相同。此时，`PipelineCell`通过for循环多次调用相同结构的layer，代码如下所示：

```python
from mindspore import nn

class PipelineCell(nn.Cell):
    def __init__(self, network, micro_size):
        ...
        self.network = network
        self.micro_size = micro_size
        ...

    def construct(self, ...):
        ...
        for i in range(self.micro_size):
            output = self.network(...)
        ...
```

如果把循环体看作被频繁调用的子图，通过把它标记为Lazy Inline，告知编译器推迟inline处理，那么就可以在编译的大部分阶段大幅度减少计算图节点数量，从而获得性能收益。例如上面的代码，可以保留`network`实例的子图结构，不inline或者延迟inline。对此，我们提供了`@lazy_inline`装饰器来实现延迟inline。

以Pangu_alpha网络为例，`PipelineCell`函数体中处理的`network`为`PanGUAlphaWithLoss`类的实例。为实现延迟inline，我们需要在`PanGUAlphaWithLoss`类的`__init__`函数上加`@lazy_inline`装饰器，以标记该类的子图结构需要被保留，不进行inline或者延迟inline。如下所示：

```python
from mindspore import nn, lazy_inline

class PanGUAlphaWithLoss(nn.Cell):
    @lazy_inline
    def __init__(self, ...):
        ...

    def construct(self, ...):
```

> 完整代码可以参考：[Pangu_alpha](https://gitee.com/mindspore/models/tree/master/official/nlp/Pangu_alpha)

还是以盘古13B网络为例，应用Lazy Inline方案后，计算图节点数量从13万多个下降到2万多个，编译时间从3小时缩短到20分钟。

#### 更加泛化的一般场景

`@lazy_inline`是`Cell::__init__`的装饰器，它会以`__init__`的所有参数生成Cell的`cell_init_args`属性。`cell_init_args`值相同，表示Cell类名和初始化参数值一致。对于相同Cell类的实例，它们的weights可能不同，因此对于`construct(self, x)`定义的网络结构，实际编译时可以转换为`construct(x, self.cell_init_args, self.trainable_parameters())`。对于同一个Cell类的不同实例，只要`cell_init_args`相同，就可以复用同一个网络结构，如下所示：

```python
def construct(self, x)
    reuse_construct(x, self.trainable_parameters())
```

引入可复用计算图后，具有相同`cell_init_args`的Cell实例只需编译解析一次。因此，在更通用的场景下，调用同一个Cell类的不同实例，只要`cell_init_args`相同，都可以加上`@lazy_inline`装饰器来加速编译。例如GPT网络：

```python
from mindspore import nn, lazy_inline

class Block(nn.Cell):
    @lazy_inline
    def __init__(self, config):
        ...

    def construct(self, x, attention_mask, layer_past):
        ...

class GPT_Model(nn.Cell):
    def __init__(self, config):
        ...
        for i in range(config.num_layers):
            self.blocks.append(Block(config))
            ...
        self.num_layers = config.num_layers

    def construct(self, input_ids, input_mask, layer_past):
        ...
        present_layer = ()
        for i in range(self.num_layers):
            hidden_states, present = self.blocks[i](...)
            present_layer = present_layer + (present,)
        ...
```

> 完整代码可以参考：[GPT](https://gitee.com/mindspore/models/tree/master/official/nlp/GPT)

GPT的网络结构由多层`Block`类的不同实例构成，这些`Block`的初始化参数都是同一个`config`。因此，加上`@lazy_inline`装饰器后，这些`Block`实例都可以复用同一个网络结构，并且在大部分编译阶段不会进行inline，从而大幅减少编译时间。

#### 使用步骤

如上面的例子，在网络脚本中，需要延迟inline和复用子图结构的Cell类，其`__init__`函数需加上`@lazy_inline`装饰器。

#### 使用限制

1. Cell以类名和`__init__`参数值生成Cell实例标识。假设`__init__`参数确定Cell 的所有属性，并且`construct`构图开始时Cell属性和`__init__`执行完后属性一致。因此，Cell与构图有关的属性，在`__init__`执行完后不能进行更改。例如：

   ```python
   from mindspore import nn, lazy_inline

   class Block(nn.Cell):
       @lazy_inline
       def __init__(self, ...):
           self.x = 0
           ...
       def construct(self, ...):
        if self.x == 0:
             ...
        else:
           ...
           ...
   class Model(nn.Cell):
       def __init__(self, ...):
           ...
           self.num_layers = 10
           for i in range(self.num_layers):
               self.blocks.append(Block(...)) # 此处Block进行初始化
               ...
           self.blocks[0].x = 1               # 此处在Block初始化后修改Block的属性，会导致该Block无法复用同一份子图

       def construct(self, ...):
            ...
            for i in range(self.num_layers):
               res = self.blocks[i](...)
           ...
   ```

如上代码所示，若网络Model中某个`Block`实例的属性`x`在初始化后被修改，则该`Block`实例无法准确复用同一个子图结构。

2. 一个Cell类的网络结构包含多个Cell_X类实例，同时每个Cell_X类的网络结构又包含多个Cell_Y实例，如果同时在Cell_X和Cell_Y类的`__init__`函数上加上`@lazy_inline`，那么只有最外层的Cell_X实例的网络结构会被编译成可复用的计算图并延迟inline，内层的Cell_Y实例的计算图还是会被inline。例如：

   ```python
   from mindspore import nn, lazy_inline

   class InnerBlock(nn.Cell):
       @lazy_inline             # InnerBlock不会被延迟inline
       def __init__(self, ...):
           ...
       def construct(self, ...):
           ...
   class OuterBlock(nn.Cell):
       @lazy_inline             # OuterBlock将会被延迟inline
       def __init__(self, ...):
           ...
           self.num_layers = 10
           for i in range(self.num_layers):
               self.blocks.append(InnerBlock(...))
       def construct(self, ...):
            ...
            for i in range(self.num_layers):
              res = self.blocks[i](...)
            ...
   class Model(nn.Cell):
       def __init__(self, ...):
           ...
           self.num_layers = 10
           for i in range(self.num_layers):
               self.blocks.append(OuterBlock(...))
       def construct(self, ...):
         ...
            for i in range(self.num_layers):
              res = self.blocks[i](...)
           ...
   ```

后续计划支持多层级的Lazy Inline机制。

### 使用HyperMap

使用场景：使用HyperMap替换for循环来优化编译性能。

`HyperMap`是一个特殊的类，构造对象时需要传入映射函数f，调用对象时需要传入f的n个参数序列。更多使用方法见：[HyperMap](https://www.mindspore.cn/docs/zh-CN/r2.7.1/api_python/ops/mindspore.ops.HyperMap.html)。映射函数f必须是`MultitypeFuncGraph`类型, 可参考[MultitypeFuncGraph](https://www.mindspore.cn/docs/zh-CN/r2.7.1/api_python/ops/mindspore.ops.MultitypeFuncGraph.html)。在使用for循环批量处理列表元素时，可以通过`HyperMap`等价替换来优化网络编译性能。

### 使用编译缓存

使用场景：在训练或推理时，如果编译依赖文件未发生变更，可以通过编译缓存来缩短编译时间。

编译缓存本质上是存储网络模型的编译中间过程文件。当网络模型不变时，生产的编译中间过程文件也是一样的，因此可以复用上一次生成的中间过程文件。

通过设置环境变量[MS_COMPILER_CACHE_ENABLE](https://www.mindspore.cn/docs/zh-CN/r2.7.1/api_python/env_var_list.html?highlight=MS_COMPILER_CACHE_ENABLE)，可以指定是否保存和加载编译缓存。

通过设置环境变量[MS_COMPILER_CACHE_PATH](https://www.mindspore.cn/docs/zh-CN/r2.7.1/api_python/env_var_list.html?highlight=MS_COMPILER_CACHE_PATH)，可以指定MindSpore编译缓存目录，用于存储图和算子编译过程生成的缓存文件。

以下为通过使能编译缓存来优化编译性能的代码示例：

In [None]:
import os
import time
import mindspore
from mindspore import nn

mindspore.set_context(mode=mindspore.GRAPH_MODE)

class Model(nn.Cell):
    def construct(self, input_x, input_y):
        output = input_x
        for _ in range(200):
            output = input_x + input_x * input_y + output
        return output

os.environ['MS_COMPILER_CACHE_ENABLE'] = '0'
x = mindspore.tensor([1], mindspore.float32)
y = mindspore.tensor([2], mindspore.float32)
model = Model()
start_time = time.time()
out = model(x, y)
end_time = time.time()
print("Disable compile_cache cost time:", end_time - start_time)

Disable compile_cache cost time: 0.5485098361968994


上述测试样例为关闭编译缓存状态，执行两次后的耗时如下（实际耗时与硬件环境有关，以下数据仅供参考）：

```text
Disable compile_cache cost time: 0.5485098361968994
Disable compile_cache cost time: 0.4614279270172119
```

可以看到，关闭编译缓存时，第2次执行样例比第1次耗时少一些，这是因为算子编译缓存是默认开启的，第2次执行样例能够利用前一次的算子编译缓存。

In [None]:
import os
import time
import mindspore
from mindspore import nn

mindspore.set_context(mode=mindspore.GRAPH_MODE)

class Model(nn.Cell):
    def construct(self, input_x, input_y):
        output = input_x
        for _ in range(200):
            output = input_x + input_x * input_y + output
        return output

os.environ['MS_COMPILER_CACHE_ENABLE'] = '1'
os.environ['MS_COMPILER_CACHE_PATH'] = 'my_compile_cache'
x = mindspore.tensor([1], mindspore.float32)
y = mindspore.tensor([2], mindspore.float32)
model = Model()
start_time = time.time()
out = model(x, y)
end_time = time.time()
os.environ['MS_COMPILER_CACHE_ENABLE'] = '0'
print("Enable compile_cache cost time:", end_time - start_time)

Enable compile_cache cost time: 0.6357541084289551


上述测试样例为开启编译缓存状态，执行两次后的耗时如下（实际耗时与硬件环境有关，以下数据仅供参考）：

```text
Enable compile_cache cost time: 0.6357541084289551
Enable compile_cache cost time: 0.09379792213439941
```

可以看到，开启编译缓存时，第2次执行样例耗时只有第一次执行耗时的1/7左右。

说明：开启编译缓存功能时，第一次执行由于暂未生成缓存，所以会有如下Warning：

```text
Warning: Check the consistency of dependency files hash failed. Execute all the compilation actions.
```

## 如何优化执行性能

### 使用jit_class

使用场景：使用`@jit_class`装饰器修饰自定义类，提高执行性能。jit_class应用于静态图模式，在动态图模式下，`@jit_class`会被忽略，不影响动态图模式的执行逻辑。

#### jit_class的介绍

用户在网络脚本中定义一个类时，可以写成继承于`Cell`的类、自定义类、`@jit_class`修饰的类，它们的用法和区别如下：

- 继承于Cell的类

  Cell是MindSpore中神经网络的基本构成单元，模型或者神经网络层应当继承该类。静态图模式下，使用`Cell`类并且在`construct`函数中编写执行代码，此时`construct`函数的代码会被编译成静态计算图。

- 自定义类

  定义自定义类后，可以对类进行实例化、调用类对象的属性和方法，请参考[自定义类的使用](https://www.mindspore.cn/tutorials/zh-CN/r2.7.1/compile/static_graph.html#支持自定义类的使用)。相比于`Cell`的类定义，自定义类更贴近用户调用Python类的使用习惯。自定义类在静态图模式下的实现方式与`Cell`不同，例如，调用自定义类对象的函数方法时，其函数方法中的代码不会被编译成静态计算图，而是通过Python解释器进行解释执行。

- `@jit_class`修饰的类

  为了兼顾用户的Python使用习惯和静态图编译带来的性能优势，提供了`@jit_class`装饰器。给自定义类修饰`@jit_class`装饰器后，该类的函数代码会被编译成静态计算图，基于图优化、静态图整图下沉等技术，编译器可以针对计算图进行全局的优化，从而获得较好的执行性能。

在静态图模式下，通过使用`@jit_class`修饰自定义类，用户可以创建、调用该类的实例，并且可以获取其属性和方法。

#### jit_class装饰器的使用

jit_class装饰器仅支持修饰自定义类，不支持修饰继承于`Cell`的类。

In [4]:
import numpy as np
import mindspore
from mindspore import nn

@mindspore.jit_class
class InnerNet:
    value = mindspore.tensor(np.array([1, 2, 3]))

class Net(nn.Cell):
    @mindspore.jit
    def construct(self):
        return InnerNet().value

net = Net()
out = net()
print(out)

[1 2 3]


如果jit_class修饰继承于`Cell`的类，将会报错。

```python
import mindspore
from mindspore import nn

@mindspore.jit_class
class Net(nn.Cell):
    @mindspore.jit
    def construct(self, x):
        return x

x = mindspore.tensor(1)
net = Net()
net(x)
```

报错信息如下：

```text
TypeError: Decorator jit_class is used for user-defined classes and cannot be used for nn.Cell: Net<>.
```

jit_class支持自定义类嵌套使用、自定义类与`Cell`嵌套使用的场景。需要注意的是，类继承时，如果父类使用了jit_class，子类也会具有jit_class的能力。

In [5]:
import numpy as np
import mindspore
from mindspore import nn

@mindspore.jit_class
class Inner:
    def __init__(self):
        self.value = mindspore.tensor(np.array([1, 2, 3]))

@mindspore.jit_class
class InnerNet:
    def __init__(self):
        self.inner = Inner()

class Net(nn.Cell):
    def __init__(self):
        super(Net, self).__init__()
        self.inner_net = InnerNet()

    @mindspore.jit
    def construct(self):
        out = self.inner_net.inner.value
        return out

net = Net()
out = net()
print(out)

[1 2 3]


#### 获取类的属性和方法

支持通过类名或类实例调用属性和方法。

In [6]:
import mindspore
from mindspore import nn

@mindspore.jit_class
class InnerNet:
    def __init__(self, val):
        self.number = val

    def act(self, x, y):
        return self.number * (x + y)

class Net(nn.Cell):
    def __init__(self):
        super(Net, self).__init__()
        self.inner_net = InnerNet(2)

    @mindspore.jit
    def construct(self, x, y):
        return self.inner_net.number + self.inner_net.act(x, y)

x = mindspore.tensor(2, dtype=mindspore.int32)
y = mindspore.tensor(3, dtype=mindspore.int32)
net = Net()
out = net(x, y)
print(out)

12


#### 创建类的实例

对于将会被编译成静态计算图的函数，如`Cell`的`construct`函数、`@jit`修饰的函数或前两者调用的子函数，如果需要在函数内创建`@jit_class`所修饰的类的实例，参数要求为常量。

In [7]:
import numpy as np
import mindspore
from mindspore import nn

@mindspore.jit_class
class InnerNet:
    def __init__(self, val):
        self.number = val + 3

class Net(nn.Cell):
    @mindspore.jit
    def construct(self):
        net = InnerNet(2)
        return net.number

net = Net()
out = net()
print(out)

5


#### 调用类的实例

调用`@jit_class`所修饰的类的实例时，将会调用该类的`__call__`函数方法。

In [8]:
import numpy as np
import mindspore
from mindspore import nn

@mindspore.jit_class
class InnerNet:
    def __init__(self, number):
        self.number = number

    def __call__(self, x, y):
        return self.number * (x + y)

class Net(nn.Cell):
    @mindspore.jit
    def construct(self, x, y):
        net = InnerNet(2)
        out = net(x, y)
        return out

x = mindspore.tensor(2, dtype=mindspore.int32)
y = mindspore.tensor(3, dtype=mindspore.int32)
net = Net()
out = net(x, y)
print(out)

10


如果该类没有定义`__call__`函数，将会报错提示。

```python
import numpy as np
import mindspore
from mindspore import nn

@mindspore.jit_class
class InnerNet:
    def __init__(self, number):
        self.number = number

class Net(nn.Cell):
    @mindspore.jit
    def construct(self, x, y):
        net = InnerNet(2)
        out = net(x, y)
        return out

x = mindspore.tensor(2, dtype=mindspore.int32)
y = mindspore.tensor(3, dtype=mindspore.int32)
net = Net()
out = net(x, y)
print(out)
```

报错信息如下：

```text
ValueError: MsClassObject: 'InnerNet' has no __call__ function, please check the code.
```

### 使用select算子

使用场景：使用`Select`算子替代if控制流语句，减少静态图子图生成，提高执行性能（也可以提高编译性能）。

编写网络时，经常会用到if语句。如果if语句的条件为变量，每个if语句都会产生额外子图。在静态图模式下，子图数量越多，编译耗时越久，因此部分场景可以通过`Select`算子等价替换if语句来优化编译性能。

需要注意的是，使用`Select`算子替换if语句会影响网络的运行性能。一方面，`Select`算子会同时执行true分支和false分支，而if语句只执行其一个分支，因此使用if运行耗时较少；另一方面，`Select`算子性能优于if语句产生的控制流算子，使用if运行耗时反而可能增加。综合上述两种因素，最终运行性能变化情况需要结合实际情况判断。一般来讲，当分支中算子数量较少，建议使用`Select`算子；当分支中算子数量较多，建议使用if语句。

以下为使用`Select`算子替代if语句来优化编译性能的代码示例：

In [9]:
import time
import mindspore
from mindspore import ops

@mindspore.jit
def if_net(x, y):
    out = 0
    for _ in range(100):
        if x < y:
            x = x - y
        else:
            x = x + y
        out = out + x
    return out

start_time = time.time()
out = if_net(mindspore.tensor([0]), mindspore.tensor([1]))
end_time = time.time()
print("if net cost time:", end_time - start_time)

@mindspore.jit
def select_net(x, y):
    out = x
    for _ in range(100):
        cond = x < y
        x = ops.select(cond, x - y, x + y)
        out = out + x
    return out

start_time = time.time()
out = select_net(mindspore.tensor([0]), mindspore.tensor([1]))
end_time = time.time()
print("select net cost time:", end_time - start_time)

if net cost time: 2.1914021968841553
select net cost time: 0.7116048336029053


### 使用Vmap进行批处理

使用场景：在处理无依赖关系的批量数据且相关的算子支持Vmap功能时，可以使用Vmap替代for循环处理批量数据来优化执行性能（也可以提高编译性能）。

MindSpore已支持Vmap功能。

以下为使用Vmap替换for循环处理批量数据来优化编译性能的代码示例：

代码的运行结果如下（实际耗时与硬件环境有关，以下数据仅供参考）：

In [1]:
import numpy as np
import time
import mindspore
from mindspore import ops, vmap

def hswish_func(x):
    return ops.HSwish()(x)

@mindspore.jit
def manually_batched(xs):
    output = []
    for i in range(xs.shape[0]):
        output.append(hswish_func(xs[i]))
    return ops.stack(output)

shape = (100, 2)
prop = 100
x_np = (np.random.randn(*shape) * prop).astype(np.float32)
x = mindspore.tensor(x_np)
x = ops.sub(x, 0)

start_time = time.time()
output_vmap = vmap(hswish_func, in_axes=(0,))(x)
end_time = time.time()
print("Vmap cost time:", end_time - start_time)

start_time = time.time()
output_manually = manually_batched(x)
end_time = time.time()
print("for loop cost time:", end_time - start_time)

Vmap cost time: 0.05766916275024414
for loop cost time: 1.9284062385559082


上述样例中，相当于需要批量处理100组Tensor数据。可以看到，使用Vmap处理的性能超过使用for循环处理性能的30倍。

## 依赖控制保证执行序

如果函数的运行结果依赖或影响外部状态，则认为该函数具有副作用，比如函数会改变外部全局变量、函数的结果依赖全局变量的值。如果算子会改变输入参数的值，或者算子的输出依赖全局参数的值，则认为这是带副作用的算子。

根据内存属性和IO状态，将副作用划分为内存副作用和IO副作用。当前内存副作用主要有Assign、优化器算子等等，IO副作用主要有Print算子。详细可以查看算子定义，内存副作用算子在定义中有side_effect_mem属性，IO副作用算子在定义中有side_effect_io属性。

Depend用于处理依赖项操作。在大多数情况下，如果操作符有IO副作用或内存副作用，则将根据用户的语义执行，不需要另外使用Depend算子来保证执行顺序。在某些情况下，如果两个运算符A和B没有顺序依赖关系，但A必须在B之前执行，建议使用Depend指定执行顺序。使用方法如下：

```python
a = A(x)
b = B(y)
```

插入Depend算子：

```python
a = A(x)
y = Depend(y, a)
b = B(y)
```

值得说明的是，用于浮点数溢出状态检测的一组特殊算子存在隐含副作用，但又不属于IO副作用或内存副作用。此外，使用时还有严格的顺序要求：在使用NPUClearFloatStatus算子前需要保证NPUAllocFloatStatus已经执行，使用NPUGetFloatStatus算子前需要保证NPUClearFloatStatus已经执行。由于这些算子使用较少，目前的方案是将其定义为无副作用形式，以Depend确保执行顺序。注意：此类浮点数溢出状态检测的算子仅在Ascend平台支持。如下：

```python
import numpy as np
import mindspore
from mindspore import nn, ops, Tensor

mindspore.set_device("Ascend")

class Net(nn.Cell):
    def __init__(self):
        super().__init__()
        self.alloc_status = ops.NPUAllocFloatStatus()
        self.get_status = ops.NPUGetFloatStatus()
        self.clear_status = ops.NPUClearFloatStatus()

    @mindspore.jit
    def construct(self, x):
        init = self.alloc_status()
        clear_status = self.clear_status(init)
        x = ops.Depend()(x, clear_status)
        res = ops.sub(x, ops.neg(x))
        init = ops.Depend()(init, res)
        get_status = self.get_status(init)
        res = ops.Depend()(res, get_status)
        return res

value = 5
data = np.full((2, 3), value, dtype=np.float16)
x = mindspore.tensor(data, dtype=mindspore.float16)
net = Net()
res = net(x)
print(res)
```

```text
[[10. 10. 10.]
 [10. 10. 10.]]
```

## 优化冗余显存拷贝操作

在函数式编程中，通过参数和返回值之外的渠道和外界进行数据交换的函数，被称为非纯函数，被认为是存在副作用的。在MindSpore框架内部，针对副作用的问题会插入Load算子，该算子属于虚拟算子，不需要在后端执行，不占用显存，仅用于表示需要读取全局变量的值。在图模式下，需要编译完整个图之后才将图中的各个算子下发到后端执行。使用Load算子多次读取全局变量，而不是多次使用真实算子多保存全局变量的值，这样可以减少显存消耗。

但是，全局变量的值可能是变化的，如果没有真实算子保存值，某些场景下会出现精度问题。针对这种情况，MindSpore框架内部会插入真实算子，占用一定的显存来保存全局变量的值，从而避免精度问题。

MindSpore提供了MS_DEV_SIDE_EFFECT_LOAD_ELIM开关来优化显存占用程度，可以通过设置export MS_DEV_SIDE_EFFECT_LOAD_ELIM=0/1/2/3进行调整。设置规则如下：

- 当设置为0时，表示对框架内部的Load算子都插入真实算子，显存占用最多，保证网络精度。
- 当设置为1或者没有设置值（即默认模式）时，表示仅在可能出现精度问题的场景保守地插入真实算子，保证网络精度。
- 当设置为2时，在损耗一定编译性能的前提下，尽量少地插入真实算子，优化显存占用，且保证网络精度。
- 当设置为3时，不插入真实算子，不保证网络精度，显存消耗最少。

我们可以通过用例和生成的中间表示（IR）来进一步理解。

```python
import numpy as np
import mindspore
from mindspore import nn, ops, Tensor, Parameter

class ForwardNet(nn.Cell):
    def __init__(self):
        super(ForwardNet, self).__init__()
        self.weight = Parameter(mindspore.tensor(np.array(0), mindspore.int32), name="param")

    def construct(self, x):
        out = 0
        i = 0
        while i < 3:
            ops.assign(self.weight, i)
            out = x * self.weight + out
            i = i + 1
        return out

class BackwardNet(nn.Cell):
    def __init__(self, net):
        super(BackwardNet, self).__init__(auto_prefix=False)
        self.forward_net = net
        self.grad = ops.GradOperation(get_all=True)

    @mindspore.jit
    def construct(self, *inputs):
        grads = self.grad(self.forward_net)(*inputs)
        return grads

x = mindspore.tensor(np.array(1), mindspore.int32)
graph_forword_net = ForwardNet()
graph_backword_net = BackwardNet(graph_forword_net)
graph_mode_grads = graph_backword_net(x)
output_except = (mindspore.tensor(np.array(3), mindspore.int32),)
assert np.all(graph_mode_grads == output_except)
```

如上用例，通过设置export MS_DEV_SAVE_GRAPHS=1保存中间文件，可以得到中间文件IR。为了便于查看，我们将得到的中间文件简化如下：

在未对框架内部的Load算子插入真实算子时，IR文件如下。可以看到存在3个Load算子，分别获取para2_param全局变量在不同时间点的值，而该变量会被Assign算子修改。即3个Load获取的值是不同的。如果我们没有对Load算子插入真实算子，即未保存para2_param全局变量在不同时间点的值，则最终结果是不对的。此时MS_DEV_SIDE_EFFECT_LOAD_ELIM设置为3，内存占用最少，但结果存在精度问题。

```text
# IR entry: @BackwardNet_construct
# Total subgraphs: 1
# Total params: 2
# Params:
%para1_inputs0 : <Tensor[Int32], ()>
%para2_param : <Ref[Tensor[Int32]], (), ref_key=:param>  :  has_default

subgraph @BackwardNet_construct() {
  %0 = Assign(%para2_param, Tensor(shape=[], dtype=Int32, value=0), U)
  %1 = UpdateState(U, %0)
  %2 = Load(%para2_param, %1)
  %3 = UpdateState(%1, %2)
  %4 = Assign(%para2_param, Tensor(shape=[], dtype=Int32, value=1), %3)
  %5 = UpdateState(%3, %4)
  %6 = Load(%para2_param, %5)
  %7 = UpdateState(%5, %6)
  %8 = Assign(%para2_param, Tensor(shape=[], dtype=Int32, value=2), %7)
  %9 = UpdateState(%7, %8)
  %10 = Load(%para2_param, %9)
  %11 = MakeTuple(%10, %6)
  %12 = AddN(%11)
  %13 = MakeTuple(%12, %2)
  %14 = AddN(%13)
  %15 = MakeTuple(%14)
  %16 = UpdateState(%9, %10)
  %17 = Depend(%15, %16)
  Return(%17)
}
```

将MS_DEV_SIDE_EFFECT_LOAD_ELIM设置为0、1或2时，可以得到简化后的IR图如下。由于该场景中的Load算子均需要插入真实算子来保存每次Assign算子修改后的值，因此设置为0、1、2时得到的IR文件是一致的。更多复杂的情况下，设置为0、1、2时可能是不同的，在此不再一一展开。

```text
# IR entry: @BackwardNet_construct
# Total subgraphs: 1
# Total params: 2
# Params:
%para1_inputs0 : <Tensor[Int32], ()>
%para2_param : <Ref[Tensor[Int32]], (), ref_key=:param>  :  has_default

subgraph @BackwardNet_construct() {
  %0 = Assign(%para2_param, Tensor(shape=[], dtype=Int32, value=0), U)
  %1 = UpdateState(U, %0)
  %2 = Load(%para2_param, %1)
  %3 = TensorMove(%2)
  %4 = UpdateState(%1, %3)
  %5 = Assign(%para2_param, Tensor(shape=[], dtype=Int32, value=1), %4)
  %6 = UpdateState(%4, %5)
  %7 = Load(%para2_param, %6)
  %8 = TensorMove(%7)
  %9 = UpdateState(%6, %8)
  %10 = Assign(%para2_param, Tensor(shape=[], dtype=Int32, value=2), %9)
  %11 = UpdateState(%9, %10)
  %12 = Load(%para2_param, %11)
  %13 = TensorMove(%12)
  %14 = MakeTuple(%13, %8)
  %15 = AddN(%14)
  %16 = MakeTuple(%15, %3)
  %17 = AddN(%16)
  %18 = MakeTuple(%17)
  %19 = UpdateState(%11, %13, %15)
  %20 = Depend(%18, %19)
  Return(%20)
}
```