二进制32位整数快速平方根

liangbch · 发表于 2009-2-12 12:26:16

应该是，用浮点指令可以做的更好。刚刚完成了一个完全用整数指令将浮点数转化为整数的程序，见下，这个函数唯一不足之处是专为0将出错。

//*p必须是整数或者0
int double2int(double *p)
{
_asm
{
mov eax,p
mov ecx,dword ptr [eax+4]
mov edx,0xfff00000
mov eax,0xfffff
and edx,ecx //阶码
and eax,ecx //尾数
shr edx,20 //得到阶段码
add eax,0x100000 //设置位数最高有效位
mov ecx,1043
sub ecx,edx
shr eax,cl //得到整数
}
}
void testdouble2int()
{
double f;
int n;
f=23.4567;
n=double2int(&f);
printf("%lf=%d\n",f,n);
f=23.9845;
n=double2int(&f);
printf("%lf=%d\n",f,n);
f=2.4567;
n=double2int(&f);
printf("%lf=%d\n",f,n);
f=2.9845;
n=double2int(&f);
printf("%lf=%d\n",f,n);
f=65534.4567;
n=double2int(&f);
printf("%lf=%d\n",f,n);
f=65534.9977;
n=double2int(&f);
printf("%lf=%d\n",f,n);
f=1.00;
n=double2int(&f);
printf("%lf=%d\n",f,n);
f=0;
n=double2int(&f);
printf("%lf=%d\n",f,n);
}

复制代码

HouSisong 写的类似的函数是这样的，见http://blog.csdn.net/housisong/archive/2007/05/19/1616026.aspx

inline long _ftol_ieee(float f)
{
long a = *(long*)(&f);
unsigned long mantissa = (a&((1<<23)-1))|(1<<23); //不支持非规格化浮点数
long exponent = ((a&0x7fffffff)>>23);
long r = (mantissa<<8) >> (31+127-exponent);
long sign = (a>>31);
return ((r ^ (sign)) - sign ) &~ ((exponent-127)>>31);
}

复制代码

[ 本帖最后由 liangbch 于 2009-2-12 12:30 编辑 ]

无心人 · 发表于 2009-2-12 13:14:43

早上想是否32位浮点足够，中午发现，可能存在精度丢失实际计算下 Prelude> let b = 2.0**32 - 1.0 Prelude> b 4.294967295e9 Prelude> let c = sqrt b Prelude> c 65535.999992370605 Prelude> let d = 255.0 / 256.0 Prelude> d 0.99609375 无法满足要求 ======================== 我也想用整数处理浮点截断呵呵看来只能考虑64位浮点了下午调试好另外三个就考虑下

无心人 · 发表于 2009-2-12 13:16:49

上面的帖子，我提到了用修改RC的方法需要多9条指令且存在16位计算你的代码是11条很可能比fistp快可以考虑 =========================== 不对需要额外的两个压栈指令和存储即 push 0 push 0 fst qword ptr [esp]

无心人 · 发表于 2009-2-12 13:19:59

64位浮点 0的话，指数和尾数都是0 1是指数乃1023，尾数是0 看是否有避免跳转判断的代码

无心人 · 发表于 2009-2-12 13:48:25

目前的三个版本最终代码

double b32[] = {0.0, 4294967296.0};
__declspec(naked)
DWORD __fastcall iSqrt_SSE3(DWORD n)
{
__asm
{
push ecx
mov eax, ecx
and eax, 0x80000000
shr eax, 31
fld qword ptr [b32 + eax * 8]
fild dword ptr [esp]
faddp st(1), st
fsqrt
fisttp dword ptr [esp]
pop eax
ret
}
}
__declspec(naked)
DWORD __fastcall iSqrt_SSE2(DWORD n)
{
__asm
{
cvtsi2sd xmm0, ecx
mov eax, ecx
and eax, 0x80000000
shr eax, 31
movsd xmm1, qword ptr [b32 + eax * 8]
addsd xmm0, xmm1
sqrtsd xmm0, xmm0
cvttsd2si eax, xmm0
ret
}
}
__declspec(naked)
DWORD __fastcall iSqrt_FPU(DWORD n)
{
__asm
{
push ecx
sub esp, 4
fnstcw word ptr [esp]
mov edx, dword ptr [esp]
or dword ptr [esp], 0x0C00
mov eax, ecx
and eax, 0x80000000
shr eax, 31
fld qword ptr [b32 + eax * 8]
fild dword ptr [esp + 4]
faddp st(1), st
fsqrt
fldcw word ptr [esp]
fistp dword ptr [esp + 4]
mov dword ptr [esp], edx
fldcw word ptr [esp]
add esp, 4
pop eax
ret
}
}

复制代码

无心人 · 发表于 2009-2-12 14:03:46

Test FPU: sqrt(1023) = 31 FPU: sqrt(4000000000) = 63245 SSE2: sqrt(1023) = 31 SSE2: sqrt(4000000000) = 63245 SSE3: sqrt(1023) = 31 SSE3: sqrt(4000000000) = 63245 FPU Version: 158930.292 ms SSE2 Version: 177428.864 ms SSE3 Version: 155667.881 ms ======================== 从1到2^32-1循环

无心人 · 发表于 2009-2-12 14:26:28

可以看到 FPU版的控制 RC方式仅比fisttp的SSE3指令略微多一点计算指令周期 FPU: 59.2 clock SSE2: 66.1 clock SSE3: 58.0 clock

liangbch · 发表于 2009-2-12 15:00:41

你的35楼的 FPU 版本在我这里无法运行，当执行到 fld qword ptr [b32 + eax * 8] 时，程序崩溃。另外，你之前写的FPU版本也有问题， FPU 入栈操作多余出栈，最后当使用fld 时因栈满，到导致st(0)变为一个无效值。另外，你24楼的程序也有问题，在我这里运行时，当执行到 movsd xmm1, qword ptr [b32 + eax * 4] ，程序崩溃。下面给出一个FPU的版本，这个程序做到栈平衡，但当被开放数是1,4,9,16,25,49等完全平方数时，计算结果错误。

double b32 = 4294967296.0;
double zero5= -0.5;
__declspec(naked)
DWORD __fastcall iSqrt_FPU1(DWORD n)
{
__asm
{
push ecx
fld qword ptr [b32]
fldz
cmp ecx, 0x8000000
fcmovnb st, st(1)
fild dword ptr [esp]
faddp st(1),st
fsqrt
fadd qword ptr [zero5]
fistp dword ptr [esp]
fstp st
pop eax
ret
}
}

复制代码

liangbch · 发表于 2009-2-12 15:31:12

在贴一个FPU的版本，完全不是用 SSE/SSE2指令，可正常工作。

__declspec(naked)
DWORD __fastcall iSqrt_FPU2(DWORD n)
{
__asm
{
or ecx,ecx
jnz next00
mov eax,0
ret
next00:
push ecx
fld qword ptr [b32]
fldz
cmp ecx, 0x80000000
fcmovnb st, st(1)
fild dword ptr [esp]
faddp st(1),st
fsqrt
fstp qword ptr [esp-8]
fstp st
fwait
mov ecx,dword ptr [esp-4]
mov edx,0xfff00000
mov eax,0xfffff
and edx,ecx //阶码
and eax,ecx //尾数
shr edx,20 //得到阶段码
add eax,0x100000 //设置位数最高有效位
mov ecx,1043
sub ecx,edx
shr eax,cl //得到整数
pop ecx
ret
}
}

复制代码

无心人 · 发表于 2009-2-12 15:51:27

老大啊我已经修正了栈平衡问题 35#的代码是正确的另外，这两个代码都需要定义个 double b32 [] = {0.0, 4294967296.0}; 我早已经偷偷的把 double b32 = 4294967296.0; 改了啊否则要用到FCMOVcc等复杂指令的

账号		自动登录	找回密码
密码			欢迎注册

[讨论] 二进制32位整数快速平方根