x86上128位二进制乘法最快速算法征解

无心人 · 发表于 2008-3-6 11:08:51

我想这么写 xmm0=r0:1:2:3 xmm1=l0:1:2:3 xmm0=xmm0*xmm1 则xmm0 = (0:0) /2:2 但其他组合,并无好方式处理如果越界 xmm0=r1:2:3:X 恐怕出现非法读错误吧

无心人 · 发表于 2008-3-6 11:10:36

除了movd movq pmuludq movdq2q movq2dq外还下面的指令似乎有用 pack的似乎无处理DWORD的好指令 PUNPCKHDQ instruction with 128-bit operands: DEST[31:0] ← DEST[95:64]; DEST[63:32] ← SRC[95:64]; DEST[95:64] ← DEST[127:96]; DEST[127:96] ← SRC[127:96]; PUNPCKHQDQ instruction: DEST[63:0] ← DEST[127:64]; DEST[127:64] ← SRC[127:64]; PUNPCKLDQ instruction with 128-bit operands: DEST[31:0] ← DEST[31:0]; DEST[63:32] ← SRC[31:0]; DEST[95:64] ← DEST[63:32]; DEST[127:96] ← SRC[63:32]; PUNPCKLQDQ DEST[63:0] ← DEST[63:0]; DEST[127:64] ← SRC[63:0]; MOVDDUP—Move One Double-FP and Duplicate dest[0:63] = src[0:63] dest[127:64]=src[0:63]

无心人 · 发表于 2008-3-6 11:13:02

另外乘法得到的寄存器结果必须要照顾后来的加操作加必须要解开64位乘结果为两个32位数字否则加会溢出

liangbch · 发表于 2008-3-6 11:15:49

我先在的想法是，掉用 pmuludq 6次，调用mul指令4次，完成乘法计算，至于进位，使用xmm 128bit寄存器计算。

liangbch · 发表于 2008-3-6 11:19:39

确如无心人所言，解包很麻烦，从而引起指令数增加。不过，我想试试，到底是直接的方法（一次只计算32bit * 32bit)快呢，还是使用复杂的方法（一次计算2 个32bit * 32bit ）快呢？

无心人 · 发表于 2008-3-6 11:28:41

http://topic.csdn.net/t/20040713/08/3168983.html 这里有我老帖是我说MMX寄存器乘法快的证据 ============================= 另外我刚想到一个好办法能得到双乘法效果且能得到全部16个乘下午看看不过可惜这么做 SSE寄存器不够用 64位好了有16个

liangbch · 发表于 2008-3-6 12:22:16

我还是找不到打包乘，然后解包并处理进位的有效手段，指令增加的太厉害了，决定放弃这个方案。

gxqcn · 发表于 2008-3-6 12:46:34

原帖由 无心人 于 2008-3-6 11:28 发表不过可惜这么做 SSE寄存器不够用 64位好了有16个

寄存器不够可以在汇编中使用栈嘛

推荐大家用我在 6# 发的附件，因为它实现了： 1、CPU指令集的自动识别； 2、高精度计时器； 3、一个高效且可靠的对比函数，以方便大家检验自己算法的正确与否； 4、一个统一的测试接口。为了大家有个公平的擂台环境，我想补充几条规定： 1、允许使用C语言以及ALU、MMX、SSE、SSE2汇编，SSE3/SSE4及未来的SSE5暂不予考虑； 2、编译器及版本不限； 3、OS暂限定于32位平台； 4、测试程序中不允许多线程（比如说将1000万次测试分拆成两个500万次并行线程）； 5、提交的最终代码，应保证函数级完整，以方便他人测试（普通交流，允许发代码片断）； 6、提交的函数名推荐以 6# 描述的那样：“UInt128x128To256_{1}_{2}(...) ”，　其中{1}代表用到的最高级指令集；　　　{2}代表发帖楼层，如果写错了可以自行修订或请管理员帮助修改。对于最后的优胜者，可以考虑一定的奖励；只是还没想好具体方式（主要以论坛积分等形式），欢迎大家讨论。。。

无心人 · 发表于 2008-3-6 13:38:33

奖励什么就免了除非你有权把CSDN社区银行的书换成我感兴趣的哈哈 SSE4也无法分解64位所以分解还得movd加移位

无心人 · 发表于 2008-3-6 13:42:29

使用堆栈并不比分步乘简单所以使用堆栈方案我觉得可以Cancel 如果有简单方法能做到循环移位我有很少指令做16个乘法的方案以下四行一组, 第一行为left, 第二行为right, 数字为双字编号, 第三四行为双乘结果对应编号 X:Y 代表leftX*rightY 前4个能通过简单移位得到, 后四个要看Movd xmm, mem32是否冲掉xmm的高96位!! 如果否, 则简单, 如果是, 则需要POR指令还加一个额外积存器 0 1 2 3 0 1 2 3 0:0 2:2 1 2 3 0 1 2 3 0 1:1 3:3 0 1 2 3 1 2 3 0 0:1 2:3 1 2 3 0 0 1 2 3 1:0 3:2 3 0 1 2 0 1 2 3 3:0 1:2 0 1 2 3 3 0 1 2 0:3 2:1 0 1 2 3 2 3 0 1 0:2 2:0 1 2 3 0 3 0 1 2 1:3 3:1

账号		自动登录	找回密码
密码			欢迎注册

[擂台] x86上128位二进制乘法最快速算法征解