x86上128位二进制乘法最快速算法征解

无心人 · 发表于 2008-3-31 11:37:31

那你遇到的第一个问题就是寄存器不足

liangbch · 发表于 2008-3-31 13:15:02

　　寄存器不足就得使用RAM了，其实，如果这个问题改为 256bit × 256bit，所有的版本都会遇到寄存器不足的问题。　　下面是一个完全不使用任何MMX,SSE,SSE2指令的版本,共102条指令。在我的电脑上进行测试，结果表明，除了76楼（fixed bug后为96楼）的程序，比这个程序快2倍以上以外，其他的版本的加速程度都无法达到2倍。　　先贴出测试结果。 Test function: UInt128x128To256_ANSI_C32(..) 10000000 times... Elapsed time: 1905.637 ms EAAC506E 17E8573A 5A8A540B ACAE5D9E * C30C395E 93C433B8 4AC06050 7E9A50E8 = B2CC75EE B201F29B 1CDA40BB 312C399D A214AF3C 4BD8278E D1BC04E3 10523730 Test function: UInt128x128To256_SSE2_40F(..) 10000000 times... Elapsed time: 706.421 ms EAAC506E 17E8573A 5A8A540B ACAE5D9E * C30C395E 93C433B8 4AC06050 7E9A50E8 = B2CC75EE B201F29B 1CDA40BB 312C399D A214AF3C 4BD8278E D1BC04E3 10523730 Test function: UInt128x128To256_SSE2_42F(..) 10000000 times... Elapsed time: 729.128 ms EAAC506E 17E8573A 5A8A540B ACAE5D9E * C30C395E 93C433B8 4AC06050 7E9A50E8 = B2CC75EE B201F29B 1CDA40BB 312C399D A214AF3C 4BD8278E D1BC04E3 10523730 Test function: UInt128x128To256_SSE2_54F(..) 10000000 times... Elapsed time: 695.204 ms EAAC506E 17E8573A 5A8A540B ACAE5D9E * C30C395E 93C433B8 4AC06050 7E9A50E8 = B2CC75EE B201F29B 1CDA40BB 312C399D A214AF3C 4BD8278E D1BC04E3 10523730 Test function: UInt128x128To256_SSE2_56F(..) 10000000 times... Elapsed time: 580.515 ms EAAC506E 17E8573A 5A8A540B ACAE5D9E * C30C395E 93C433B8 4AC06050 7E9A50E8 = B2CC75EE B201F29B 1CDA40BB 312C399D A214AF3C 4BD8278E D1BC04E3 10523730 Test function: UInt128x128To256_SSE2_58F(..) 10000000 times... Elapsed time: 880.662 ms EAAC506E 17E8573A 5A8A540B ACAE5D9E * C30C395E 93C433B8 4AC06050 7E9A50E8 = B2CC75EE B201F29B 1CDA40BB 312C399D A214AF3C 4BD8278E D1BC04E3 10523730 Test function: UInt128x128To256_SSE2_69F(..) 10000000 times... Elapsed time: 834.156 ms EAAC506E 17E8573A 5A8A540B ACAE5D9E * C30C395E 93C433B8 4AC06050 7E9A50E8 = B2CC75EE B201F29B 1CDA40BB 312C399D A214AF3C 4BD8278E D1BC04E3 10523730 Test function: UInt128x128To256_SSE2_94F(..) 10000000 times... Elapsed time: 864.124 ms EAAC506E 17E8573A 5A8A540B ACAE5D9E * C30C395E 93C433B8 4AC06050 7E9A50E8 = B2CC75EE B201F29B 1CDA40BB 312C399D A214AF3C 4BD8278E D1BC04E3 10523730 Test function: UInt128x128To256_SSE2_96F(..) 10000000 times... Elapsed time: 403.787 ms EAAC506E 17E8573A 5A8A540B ACAE5D9E * C30C395E 93C433B8 4AC06050 7E9A50E8 = B2CC75EE B201F29B 1CDA40BB 312C399D A214AF3C 4BD8278E D1BC04E3 10523730 Test function: UInt128x128To256_ALU_102F(..) 10000000 times... Elapsed time: 945.073 ms EAAC506E 17E8573A 5A8A540B ACAE5D9E * C30C395E 93C433B8 4AC06050 7E9A50E8 = B2CC75EE B201F29B 1CDA40BB 312C399D A214AF3C 4BD8278E D1BC04E3 10523730 再贴出完整的代码.

_declspec(naked)
void UInt128x128To256_ALU_102F( UINT32 * const result,
const UINT32 * const left,
const UINT32 * const right )
{
#undef LEFT_REG
#undef RIGHT_REG
#undef RESULT_REG
#define LEFT_REG esi
#define RIGHT_REG edi
#define RESULT_REG ebp
__asm
{
push esi
push edi
push ebx
push ebp
mov RIGHT_REG, dword ptr[esp + 0Ch+16] ; right
mov LEFT_REG, dword ptr [esp + 08h+16] ; left
mov RESULT_REG, dword ptr[esp + 04h+16] ; result
xor ebx, ebx
xor ecx, ecx
// result[0]，一次乘法
mov eax,dword ptr [LEFT_REG]
mul dword ptr [RIGHT_REG]
mov dword ptr [RESULT_REG], eax
mov dword ptr [RESULT_REG+4], edx
// result[1]，2次乘法
mov eax,dword ptr [LEFT_REG]
mul dword ptr [RIGHT_REG+4]
add dword ptr [RESULT_REG+4], eax
adc ecx, edx
adc ebx,0
mov eax,dword ptr [LEFT_REG+4]
mul dword ptr [RIGHT_REG]
add dword ptr [RESULT_REG+4], eax
adc ecx, edx
adc ebx,0
mov dword ptr [RESULT_REG+8], ecx
mov ecx, ebx
// result[2], 3 次乘法
xor ebx, ebx
mov eax,dword ptr [LEFT_REG]
mul dword ptr [RIGHT_REG+8]
add dword ptr [RESULT_REG+8], eax
adc ecx,edx
adc ebx,0
mov eax,dword ptr [LEFT_REG+4]
mul dword ptr [RIGHT_REG+4]
add dword ptr [RESULT_REG+8], eax
adc ecx, edx
adc ebx,0
mov eax,dword ptr [LEFT_REG+8]
mul dword ptr [RIGHT_REG+0]
add dword ptr [RESULT_REG+8], eax
adc ecx, edx
adc ebx,0
mov dword ptr [RESULT_REG+12], ecx
mov ecx, ebx
// result[3]，4次乘法
xor ebx, ebx
mov eax,dword ptr [LEFT_REG+0]
mul dword ptr [RIGHT_REG+12]
add dword ptr [RESULT_REG+12], eax
adc ecx, edx
adc ebx,0
mov eax,dword ptr [LEFT_REG+4]
mul dword ptr [RIGHT_REG+8]
add dword ptr [RESULT_REG+12], eax
adc ecx, edx
adc ebx,0
mov eax,dword ptr [LEFT_REG+8]
mul dword ptr [RIGHT_REG+4]
add dword ptr [RESULT_REG+12], eax
adc ecx, edx
adc ebx,0
mov eax,dword ptr [LEFT_REG+12]
mul dword ptr [RIGHT_REG+0]
add dword ptr [RESULT_REG+12], eax
adc ecx, edx
adc ebx,0
mov dword ptr [RESULT_REG+16], ecx
mov ecx, ebx
// result[4]，3次乘法
xor ebx, ebx
mov eax,dword ptr [LEFT_REG+4]
mul dword ptr [RIGHT_REG+12]
add dword ptr [RESULT_REG+16], eax
adc ecx, edx
adc ebx,0
mov eax,dword ptr [LEFT_REG+8]
mul dword ptr [RIGHT_REG+8]
add dword ptr [RESULT_REG+16], eax
adc ecx, edx
adc ebx,0
mov eax,dword ptr [LEFT_REG+12]
mul dword ptr [RIGHT_REG+4]
add dword ptr [RESULT_REG+16], eax
adc ecx, edx
adc ebx,0
mov dword ptr [RESULT_REG+20], ecx
mov ecx, ebx
// result[5]，2次乘法
xor ebx, ebx
mov eax,dword ptr [LEFT_REG+8]
mul dword ptr [RIGHT_REG+12]
add dword ptr [RESULT_REG+20], eax
adc ecx, edx
adc ebx,0
mov eax,dword ptr [LEFT_REG+12]
mul dword ptr [RIGHT_REG+8]
add dword ptr [RESULT_REG+20], eax
adc ecx, edx
adc ebx,0
// result[6，7]，1次乘法
mov eax,dword ptr [LEFT_REG+12]
mul dword ptr [RIGHT_REG+12]
add ecx, eax
adc ebx,edx
mov dword ptr [RESULT_REG+24], ecx
mov dword ptr [RESULT_REG+28], ebx
pop ebp
pop ebx
pop edi
pop esi
ret
}
}

复制代码

无心人 · 发表于 2008-3-31 13:48:49

可以做到不用额外单元就不错了 =========================== 256X256似乎没必要写了只要用MMX寄存器或者SSE寄存器可以做到不用内存保存临时变量的除非超过2^31个双字乘 ============================= 之所以加速比达不到2，关键是乘法本身速度慢进位加法复杂

liangbch · 发表于 2008-3-31 13:56:04

我的代码只用了四个push 语句保存一些寄存器的旧的值。除此以外，并没有使用额外的临时变量。

无心人 · 发表于 2008-3-31 21:42:51

折腾来折腾去还是Knuth算法最好

无心人 · 发表于 2008-3-31 21:49:09

void AsmMulLL(unsigned long *pL, unsigned long *pR, unsigned long *pA, unsigned long tL, unsigned long tR) { if ((tL == 0) || (tR == 0)) return; __asm { mov ecx, tL mov esi, dword ptr [pL] mov edi, dword ptr [pR] mov ebx, dword ptr [pA] pxor mm3, mm3 mbinmul2: mov edx, ecx mov eax, ebx pxor mm0, mm0 mov ecx, tR movd mm1, dword ptr [esi] movd mm4, edi mbinmul3: movd mm2, dword ptr [edi] lea edi, [edi+4] movd mm3, dword ptr [ebx] pmuludq mm2, mm1 paddq mm0, mm3 paddq mm0, mm2 movd dword ptr [ebx], mm0 psrlq mm0, 32 lea ebx, [ebx+4] loop mbinmul3 movd edi, mm4 movd dword ptr [ebx], mm0 mov ebx, eax lea esi, [esi+4] lea ebx, [ebx+4] mov ecx, edx loop mbinmul2 emms } } 做个备份到学校去测试

无心人 · 发表于 2008-4-1 08:12:36

void UInt128x128To256_SSE2_107F( UINT32 * const result, const UINT32 * const left, const UINT32 * const right ) { __asm { mov ecx, 4 mov esi, dword ptr [left] mov edi, dword ptr [right] mov ebx, dword ptr [result] pxor xmm0, xmm0 pxor xmm1, xmm1 movdqa xmmword ptr [ebx], xmm0 movdqa xmmword ptr [ebx+16], xmm1 pxor mm3, mm3 mbinmul2: mov edx, ecx mov eax, ebx pxor mm0, mm0 mov ecx, 4 movd mm1, dword ptr [esi] movd mm4, edi mbinmul3: movd mm2, dword ptr [edi] lea edi, [edi+4] movd mm3, dword ptr [ebx] //这里存在问题 pmuludq mm2, mm1 paddq mm0, mm3 paddq mm0, mm2 movd dword ptr [ebx], mm0 psrlq mm0, 32 lea ebx, [ebx+4] loop mbinmul3 movd edi, mm4 movd dword ptr [ebx], mm0 mov ebx, eax lea esi, [esi+4] lea ebx, [ebx+4] mov ecx, edx loop mbinmul2 emms } } 改成本题要求看下时间：） //在我这里时间和40差不多

无心人 · 发表于 2008-4-1 10:38:18

//各种优化均尝试了，lea改add，loop改双指令，均无效 //edi压栈保存造成时间增加但如果改普遍的，需额外执行一个结果清零的函数目前问题 1、是否能把edi保存在常规寄存器里，就是再节约一个寄存器 2、能否在不增加很多代码情况下，去掉结果预清零过程解决这两个问题，俺的B计划之长乘将提前出笼假设m个双字乘以n个双子该算法的执行指令数约等于13m + 10mn

liangbch · 发表于 2008-4-1 11:26:47

楼主可能是想找出一个解决长乘算法的完美算法。这基本是徒劳的。最根本的解决之道是：大数的表示法不能采用2³²进制，而转为采用 $2^31$或者 $2^30$进制，即采用每个DWORD存储31位或者30位2进制数，虽然浪费了一点存储空间，也带来乘法次数的增多（增加了大约1/15多一点），但其优点可完全抵消此缺点。并对算法的设计带来实质性的帮助。对于使用ALU指令来说，可大大降低ADC指令的运行次数。对于使用SSE2指令来说，可在ALU指令的基础上真正提速2倍，充分发挥SSE2指令 1次可计算2个32bit×32bit 和 64bbit + 64bit的能力。平均而言，每次30 bit × 30bit的运算仅需要使用3条指令。举例来说，以那个128bit*128bit 的函数为例，需要 4×4次 32bit × 32bit 的乘法，平均每次 32bit × 32bit 的乘需要使用 6条以上的指令，以此推算，一个15DWORD( 15×32bit） × 15DWORD 的乘法需要 15×15×6= 1350次指令。而依照本方法，采用2^30进制，一个15×32bit的数需要 16个DWORD 存储，故采用此方式存储，需要16×16次 30bit* 30bit的乘法，所以需要 16*16*3=768条指令，相比前者的1350条指令，单指令数而言，减少至先前的57%，若以指令数和运行时间成反比（即假定每条指令的时间均相同），则此法可提速75%。

无心人 · 发表于 2008-4-1 11:42:04

那你并没看到解包运算的麻烦吧你怎么解释不在字节倍数上断开而造成结果后处理的工作量？ =========================== 而且，不光是乘法加法也是常见运算这么表示并不能在加上取得任何效果

账号		自动登录	找回密码
密码			欢迎注册

[擂台] x86上128位二进制乘法最快速算法征解

浏览过的版块