协慌网

登录 贡献 社区

尝试抓住加速我的代码?

我写了一些代码来测试 try-catch 的影响,但看到了一些令人惊讶的结果。

static void Main(string[] args)
{
    Thread.CurrentThread.Priority = ThreadPriority.Highest;
    Process.GetCurrentProcess().PriorityClass = ProcessPriorityClass.RealTime;

    long start = 0, stop = 0, elapsed = 0;
    double avg = 0.0;

    long temp = Fibo(1);

    for (int i = 1; i < 100000000; i++)
    {
        start = Stopwatch.GetTimestamp();
        temp = Fibo(100);
        stop = Stopwatch.GetTimestamp();

        elapsed = stop - start;
        avg = avg + ((double)elapsed - avg) / i;
    }

    Console.WriteLine("Elapsed: " + avg);
    Console.ReadKey();
}

static long Fibo(int n)
{
    long n1 = 0, n2 = 1, fibo = 0;
    n++;

    for (int i = 1; i < n; i++)
    {
        n1 = n2;
        n2 = fibo;
        fibo = n1 + n2;
    }

    return fibo;
}

在我的电脑上,这始终打印出一个大约 0.96 的值。

当我使用 try-catch 块在 Fibo()中包装 for 循环时,如下所示:

static long Fibo(int n)
{
    long n1 = 0, n2 = 1, fibo = 0;
    n++;

    try
    {
        for (int i = 1; i < n; i++)
        {
            n1 = n2;
            n2 = fibo;
            fibo = n1 + n2;
        }
    }
    catch {}

    return fibo;
}

现在它一直打印出 0.69 ...... - 它实际上运行得更快!但为什么?

注意:我使用 Release 配置编译它并直接运行 EXE 文件(在 Visual Studio 外部)。

编辑: Jon Skeet 的优秀分析表明 try-catch 在某种程度上导致 x86 CLR 在这种特定情况下以更有利的方式使用 CPU 寄存器(我认为我们还没理解为什么)。我确认 Jon 发现 x64 CLR 没有这个区别,并且它比 x86 CLR 更快。我还在 Fibo 方法中使用int类型而不是long类型进行了测试,然后 x86 CLR 和 x64 CLR 一样快。


更新:看起来这个问题已由 Roslyn 修复。相同的机器,相同的 CLR 版本 - 在使用 VS 2013 编译时问题仍然如上所述,但在使用 VS 2015 编译时问题就消失了。

答案

专门了解堆栈使用优化的Roslyn工程师之一看了一下这个并告诉我,C#编译器生成局部变量存储的方式与JIT编译器注册方式之间的交互似乎存在问题在相应的 x86 代码中进行调度。结果是在本地的加载和存储上生成次优代码。

由于某些原因我们所有人都不清楚,当 JITter 知道该块在 try-protected 区域时,可以避免有问题的代码生成路径。

这很奇怪。我们将跟进 JITter 团队,看看我们是否可以输入错误,以便他们可以解决这个问题。

此外,我们正在努力改进 Roslyn 到 C#和 VB 编译器的算法,以确定何时可以使本地变为 “短暂” - 也就是说,只是在堆栈上推送和弹出,而不是在堆栈上分配特定位置激活的持续时间。我们相信 JITter 能够更好地完成寄存器分配,如果我们给出更好的提示,可以让当地人更早地 “死”。

感谢您引起我们的注意,并为奇怪的行为道歉。

好吧,你对事情进行计时的方式对我来说非常讨厌。对整个循环进行计时会更加明智:

var stopwatch = Stopwatch.StartNew();
for (int i = 1; i < 100000000; i++)
{
    Fibo(100);
}
stopwatch.Stop();
Console.WriteLine("Elapsed time: {0}", stopwatch.Elapsed);

这样你就不会受到微小时序,浮点运算和累积误差的影响。

进行了更改后,查看 “非捕获” 版本是否仍然比 “catch” 版本慢。

编辑:好的,我自己尝试过 - 我看到的结果相同。很奇怪。我想知道 try / catch 是否禁用了一些错误的内联,但使用[MethodImpl(MethodImplOptions.NoInlining)]却没有帮助...

基本上你需要在 cordbg 下查看优化的 JITted 代码,我怀疑......

编辑:一些信息:

  • 将 try / catch 放在n++;周围n++; line 仍然提高了性能,但并没有将它放在整个块上
  • 如果你捕到一个特定的异常(我的测试中的ArgumentException ),它仍然很快
  • 如果在 catch 块中打印异常,它仍然很快
  • 如果你在 catch 块中重新抛出异常,它会再次变慢
  • 如果你使用 finally 块而不是 catch 块,它会再次变慢
  • 如果你使用 finally 块 catch 块,那就快了

奇怪的...

编辑:好的,我们有拆卸......

这是使用 C#2 编译器和. NET 2(32 位)CLR,使用 mdbg 进行反汇编(因为我的机器上没有 cordbg)。即使在调试器下,我仍然会看到相同的性能影响。快速版本使用try块来处理变量声明和 return 语句之间的所有内容,只使用catch{}处理程序。显然慢速版本是相同的,除了没有 try / catch。调用代码(即 Main)在两种情况下都是相同的,并且具有相同的程序集表示(因此它不是内联问题)。

快速版本的反汇编代码:

[0000] push        ebp
 [0001] mov         ebp,esp
 [0003] push        edi
 [0004] push        esi
 [0005] push        ebx
 [0006] sub         esp,1Ch
 [0009] xor         eax,eax
 [000b] mov         dword ptr [ebp-20h],eax
 [000e] mov         dword ptr [ebp-1Ch],eax
 [0011] mov         dword ptr [ebp-18h],eax
 [0014] mov         dword ptr [ebp-14h],eax
 [0017] xor         eax,eax
 [0019] mov         dword ptr [ebp-18h],eax
*[001c] mov         esi,1
 [0021] xor         edi,edi
 [0023] mov         dword ptr [ebp-28h],1
 [002a] mov         dword ptr [ebp-24h],0
 [0031] inc         ecx
 [0032] mov         ebx,2
 [0037] cmp         ecx,2
 [003a] jle         00000024
 [003c] mov         eax,esi
 [003e] mov         edx,edi
 [0040] mov         esi,dword ptr [ebp-28h]
 [0043] mov         edi,dword ptr [ebp-24h]
 [0046] add         eax,dword ptr [ebp-28h]
 [0049] adc         edx,dword ptr [ebp-24h]
 [004c] mov         dword ptr [ebp-28h],eax
 [004f] mov         dword ptr [ebp-24h],edx
 [0052] inc         ebx
 [0053] cmp         ebx,ecx
 [0055] jl          FFFFFFE7
 [0057] jmp         00000007
 [0059] call        64571ACB
 [005e] mov         eax,dword ptr [ebp-28h]
 [0061] mov         edx,dword ptr [ebp-24h]
 [0064] lea         esp,[ebp-0Ch]
 [0067] pop         ebx
 [0068] pop         esi
 [0069] pop         edi
 [006a] pop         ebp
 [006b] ret

用于慢速版本的反汇编代码:

[0000] push        ebp
 [0001] mov         ebp,esp
 [0003] push        esi
 [0004] sub         esp,18h
*[0007] mov         dword ptr [ebp-14h],1
 [000e] mov         dword ptr [ebp-10h],0
 [0015] mov         dword ptr [ebp-1Ch],1
 [001c] mov         dword ptr [ebp-18h],0
 [0023] inc         ecx
 [0024] mov         esi,2
 [0029] cmp         ecx,2
 [002c] jle         00000031
 [002e] mov         eax,dword ptr [ebp-14h]
 [0031] mov         edx,dword ptr [ebp-10h]
 [0034] mov         dword ptr [ebp-0Ch],eax
 [0037] mov         dword ptr [ebp-8],edx
 [003a] mov         eax,dword ptr [ebp-1Ch]
 [003d] mov         edx,dword ptr [ebp-18h]
 [0040] mov         dword ptr [ebp-14h],eax
 [0043] mov         dword ptr [ebp-10h],edx
 [0046] mov         eax,dword ptr [ebp-0Ch]
 [0049] mov         edx,dword ptr [ebp-8]
 [004c] add         eax,dword ptr [ebp-1Ch]
 [004f] adc         edx,dword ptr [ebp-18h]
 [0052] mov         dword ptr [ebp-1Ch],eax
 [0055] mov         dword ptr [ebp-18h],edx
 [0058] inc         esi
 [0059] cmp         esi,ecx
 [005b] jl          FFFFFFD3
 [005d] mov         eax,dword ptr [ebp-1Ch]
 [0060] mov         edx,dword ptr [ebp-18h]
 [0063] lea         esp,[ebp-4]
 [0066] pop         esi
 [0067] pop         ebp
 [0068] ret

在每种情况下, *表示调试器在简单的 “步入” 中输入的位置。

编辑:好的,我现在已经查看了代码,我想我可以看到每个版本的工作方式...... 我相信较慢的版本较慢,因为它使用较少的寄存器和更多的堆栈空间。对于可能更快的小n值 - 但是当循环占用大部分时间时,它会变慢。

try / catch 块可能会强制保存和恢复更多的寄存器,因此 JIT 也会将这些寄存器用于循环...... 这样可以提高整体性能。目前尚不清楚 JIT 是否合理地决定不在 “普通” 代码中使用尽可能多的寄存器。

编辑:刚试了我的 x64 机器。在 64 位 CLR 的速度快得多(约 3-4 倍的速度)比该代码在 x86 CLR,并在 x64 的 try / catch 块不会使一个显着的差异。

Jon 的反汇编显示,两个版本之间的区别在于快速版本使用一对寄存器( esi,edi )来存储慢速版本不存在的局部变量之一。

JIT 编译器对包含 try-catch 块的代码与不代码的代码的寄存器使用做出了不同的假设。这导致它做出不同的寄存器分配选择。在这种情况下,这有利于 try-catch 块的代码。不同的代码可能导致相反的效果,所以我不认为这是一种通用的加速技术。

最后,很难说哪些代码最终会以最快的速度运行。寄存器分配和影响它的因素之类的是低级实现细节,我不知道任何特定技术如何能够可靠地生成更快的代码。

例如,请考虑以下两种方法。它们改编自现实生活中的例子:

interface IIndexed { int this[int index] { get; set; } }
struct StructArray : IIndexed { 
    public int[] Array;
    public int this[int index] {
        get { return Array[index]; }
        set { Array[index] = value; }
    }
}

static int Generic<T>(int length, T a, T b) where T : IIndexed {
    int sum = 0;
    for (int i = 0; i < length; i++)
        sum += a[i] * b[i];
    return sum;
}
static int Specialized(int length, StructArray a, StructArray b) {
    int sum = 0;
    for (int i = 0; i < length; i++)
        sum += a[i] * b[i];
    return sum;
}

一个是另一个的通用版本。用StructArray替换泛型类型会使方法相同。因为StructArray是一个值类型,所以它获得了自己的泛型方法的编译版本。然而实际运行时间明显长于专用方法,但仅适用于 x86。对于 x64,时间几乎完全相同。在其他情况下,我也观察到了 x64 的差异。