gxqcn 发表于 2012-12-17 16:29:39

ADOC/ADCX指令,用于任意精度整数操作

关注一下 AVX2 指令集的情况,搜索一下相关的资讯。

结果看到:Intel Haswell - 维基百科,自由的百科全书

根据Intel的“Tick-Tock”策略路线,Intel Haswell微架构的制程改进版代号为Intel Broadwell,采用14纳米制程,于Haswell发布后一年发布。

这不是关键,关键的是下面这句:ADOC/ADCX指令,用于任意精度整数操作
里面有个链接是介绍它的:http://download.intel.com/embedded/processor/whitepaper/327831.pdf
我下载了下,该文档的属性表明其创建于2012-08-08,
里面提到的 MULX/ADCX/ADOX 指令似乎就是专门为了长整数乘法运算服务的!

这真是个即喜又悲的消息,
喜的是有CPU专业指令支持,大整数运算将更快!
悲的是虽马上要跨入2013年了,但该款CPU还要再多等一年面世。

论坛里对大整数运算感兴趣的朋友们,来说说你们对此的看法。。。

zeroieme 发表于 2012-12-17 18:16:56

任意精度不可能,目前某些需求都超越内存容量了。

郭先抢 发表于 2012-12-17 18:32:27

菜鸟路过,表示看不明白是什么意思

liangbch 发表于 2012-12-17 19:54:34

2# zeroieme

应该至少阅读一下那个pdf再提问。题目的意思是新的指令可 应用于 任意精度大数运算,或者说提供了新的指令集,为任意精度大数运算 提供支持,而不是说只调用1条指令就可以计算任意精度大数运算了。

另外, 任意精度大数运算 中的 任意精度 是有限制条件的,不是说真的任意精度。数学中的任意是真正的任意,而物理中/现实生活中 的任意(大/小),无限等词一定是有限制条件的,而不是真的是无限的,任意的。

zeroieme 发表于 2012-12-18 14:39:29

4# liangbch


这么说吧。在已有的指令集下,人们已经可以处理任意精度大数运算。(这里也可以说是有限制条件的)
而且利用GPU并行已经超越了CPU。在物理规则的限制下,CPU想反超是不可能的,除非自己也变成GPU。
这个指令集只是锦上添花。

mathe 发表于 2012-12-18 15:26:00

GPU在大整数运算上超越CPU了吗?
GPGPU的概念前几年曾经热门过一段时间,现在已经是昨日黄花了。

gxqcn 发表于 2012-12-19 10:41:18

GPU 在整数运算上本身不及CPU,因为其位数太窄;
看趋势,CPU 还在加强大整数运算的能力;
所以,CPU 在复杂的科学计算上还是需要的。

gxqcn 发表于 2012-12-19 10:50:02

另外请注意,MULX 指令应属于 AVX2 的,将在明年的 Intel Haswell微架构中提供,
而 ADOC/ADCX 指令才会在之后的 Broadwell 微架构支持。

liangbch 发表于 2012-12-19 11:41:47

对GPU,我对NV的CUDA有些了解。GPU的主要性能指标是浮点运算能力(NV显卡单精度浮点能力很强,双精度和AMD比要差一些).因此,他主要的设计目标是提高浮点性能而不是提高整数性能。对于整数运算,位宽确实较窄,NV显卡仅仅支持24bit和32bit整数运算,依赖于不同的显卡,其性能也不尽相同。
CUDA的特点是CPU有所不同,我看到的主要有:

1. 整体计算能力依赖于流处理器的多少,流处理器越多,性能越好,随着工艺的提高,NV显卡的流处理器可以做的很多。我2010年买的GT240有96个处理器。而现在主流的NV入门级显卡GT620也有96个流处理器,而发烧级的GTX690则拥有恐怖的3072个流处理器。相对于GPU,CPU核心数量的提升则慢的多,目前Intel的桌面CPU,最多只有6个核心。

2.CPU对内存的访问是有cache支持的,高吞吐量低延时,而GPU对RAM(指大块儿的内存访问)没有cache,高吞吐量高延时,适合于并行计算,不适合写后读这样的局部内存访问。如果写后不久就需要读,则有很大的延时,所有在使用GPU编程时,要对不同类型的内存的性能有所了解,使用合适的模型来提高整体性能,比CPU编程要复杂。

liangbch 发表于 2012-12-19 12:01:58

GPU在大整数运算上超越CPU了吗?
GPGPU的概念前几年曾经热门过一段时间,现在已经是昨日黄花了。
mathe 发表于 2012-12-18 15:26 http://bbs.emath.ac.cn/images/common/back.gif

对于CUDA和CPU的性能对比,已有人做过性能对测试。论文《基于 CUDA 的矩阵乘法和FFT 性能测试》一文,做了FFT运算的性能测试。文中使用的GPU和CPU分别为有112个流处理器的PX8800GT和3.0G的Intel D830CPU,FFT库则为CUDA软件包自带的cuFFT和Intel MKL中的FFT,测试表明,前者的速度是后者的25倍。

令一篇论文《并行FFT性能分析》则对FFTW库,CUFF,MPI下的FFT做了性能对比测试。测试结果表明,在FFT应用领域,并行计算是FFTW计算速度的30-80倍,在大数据运算方面,GPU的计算速度略优于MPI,而且GPU的通信开销要少于基于MPI的并行计算,全文见http://www.doc88.com/p-801578372750.html
页: [1] 2 3 4 5
查看完整版本: ADOC/ADCX指令,用于任意精度整数操作