ADOC/ADCX指令，用于任意精度整数操作

gxqcn · 发表于 2012-12-17 16:29:39

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？欢迎注册

×

关注一下 AVX2 指令集的情况，搜索一下相关的资讯。结果看到：Intel Haswell - 维基百科,自由的百科全书

根据Intel的“Tick-Tock”策略路线，Intel Haswell微架构的制程改进版代号为Intel Broadwell，采用14纳米制程，于Haswell发布后一年发布。

这不是关键，关键的是下面这句：

ADOC/ADCX指令，用于任意精度整数操作

里面有个链接是介绍它的：http://download.intel.com/embedd ... itepaper/327831.pdf 我下载了下，该文档的属性表明其创建于2012-08-08，里面提到的 MULX/ADCX/ADOX 指令似乎就是专门为了长整数乘法运算服务的！这真是个即喜又悲的消息，喜的是有CPU专业指令支持，大整数运算将更快！悲的是虽马上要跨入2013年了，但该款CPU还要再多等一年面世。论坛里对大整数运算感兴趣的朋友们，来说说你们对此的看法。。。

zeroieme · 发表于 2012-12-17 18:16:56

任意精度不可能，目前某些需求都超越内存容量了。

郭先抢 · 发表于 2012-12-17 18:32:27

菜鸟路过,表示看不明白是什么意思

liangbch · 发表于 2012-12-17 19:54:34

2# zeroieme 应该至少阅读一下那个pdf再提问。题目的意思是新的指令可应用于任意精度大数运算，或者说提供了新的指令集，为任意精度大数运算提供支持，而不是说只调用1条指令就可以计算任意精度大数运算了。另外，任意精度大数运算中的任意精度是有限制条件的，不是说真的任意精度。数学中的任意是真正的任意，而物理中/现实生活中的任意（大/小），无限等词一定是有限制条件的，而不是真的是无限的，任意的。

zeroieme · 发表于 2012-12-18 14:39:29

4# liangbch 这么说吧。在已有的指令集下，人们已经可以处理任意精度大数运算。（这里也可以说是有限制条件的）而且利用GPU并行已经超越了CPU。在物理规则的限制下，CPU想反超是不可能的，除非自己也变成GPU。这个指令集只是锦上添花。

mathe · 发表于 2012-12-18 15:26:00

GPU在大整数运算上超越CPU了吗？ GPGPU的概念前几年曾经热门过一段时间，现在已经是昨日黄花了。

gxqcn · 发表于 2012-12-19 10:41:18

GPU 在整数运算上本身不及CPU，因为其位数太窄；看趋势，CPU 还在加强大整数运算的能力；所以，CPU 在复杂的科学计算上还是需要的。

gxqcn · 发表于 2012-12-19 10:50:02

另外请注意，MULX 指令应属于 AVX2 的，将在明年的 Intel Haswell微架构中提供，而 ADOC/ADCX 指令才会在之后的 Broadwell 微架构支持。

liangbch · 发表于 2012-12-19 11:41:47

对GPU，我对NV的CUDA有些了解。GPU的主要性能指标是浮点运算能力(NV显卡单精度浮点能力很强，双精度和AMD比要差一些).因此，他主要的设计目标是提高浮点性能而不是提高整数性能。对于整数运算，位宽确实较窄，NV显卡仅仅支持24bit和32bit整数运算，依赖于不同的显卡，其性能也不尽相同。 CUDA的特点是CPU有所不同，我看到的主要有： 1. 整体计算能力依赖于流处理器的多少，流处理器越多，性能越好，随着工艺的提高，NV显卡的流处理器可以做的很多。我2010年买的GT240有96个处理器。而现在主流的NV入门级显卡GT620也有96个流处理器，而发烧级的GTX690则拥有恐怖的3072个流处理器。相对于GPU，CPU核心数量的提升则慢的多，目前Intel的桌面CPU，最多只有6个核心。 2.CPU对内存的访问是有cache支持的，高吞吐量低延时，而GPU对RAM(指大块儿的内存访问)没有cache,高吞吐量高延时，适合于并行计算，不适合写后读这样的局部内存访问。如果写后不久就需要读，则有很大的延时，所有在使用GPU编程时，要对不同类型的内存的性能有所了解，使用合适的模型来提高整体性能，比CPU编程要复杂。

liangbch · 发表于 2012-12-19 12:01:58

GPU在大整数运算上超越CPU了吗？ GPGPU的概念前几年曾经热门过一段时间，现在已经是昨日黄花了。 mathe 发表于 2012-12-18 15:26

对于CUDA和CPU的性能对比，已有人做过性能对测试。论文《基于 CUDA 的矩阵乘法和FFT 性能测试》一文，做了FFT运算的性能测试。文中使用的GPU和CPU分别为有112个流处理器的PX8800GT和3.0G的Intel D830CPU，FFT库则为CUDA软件包自带的cuFFT和Intel MKL中的FFT，测试表明，前者的速度是后者的25倍。令一篇论文《并行FFT性能分析》则对FFTW库，CUFF，MPI下的FFT做了性能对比测试。测试结果表明，在FFT应用领域，并行计算是FFTW计算速度的30-80倍，在大数据运算方面，GPU的计算速度略优于MPI，而且GPU的通信开销要少于基于MPI的并行计算，全文见http://www.doc88.com/p-801578372750.html

账号		自动登录	找回密码
密码			欢迎注册

[讨论] ADOC/ADCX指令，用于任意精度整数操作

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。