【开箱】EPYC2 Rome 对战 Cascade Lake-SP 铂金至强 开箱及测试前瞻-CPU

镜音リン 25天前 66

今天又是很普通的一天,简单到把那一堆测试数据整理差不多就会很开心的程度

AMD在Zen2这一代终于至少在核心性能上有和intel一战之力了,而且核心数量上采取了“买一送一”的销售策略使其性价比颇高。所以拿来两颗u测一遍,以大概做个了解,顺便为以后上什么平台做打算。当然主角是企业级平台(LGA3647及TR4-SP3r2),但是测试中也会包含9900K以及3950x之类家用u。测试同时面向渲染等工作站应用和游戏等家用用途。

因为是前瞻,所以从简说明吧,简单介绍几个重点。
1. 首先是核心内部架构。两家如下图所示,其中AMD桌面和企业级核心架构相同,但是intel不同。下图是intel企业级CPU的架构,桌面级删减了一组512bit SIMD单元(下图中zmm only部分),且L2缓存带宽减半,容量减少到256KB(但是L3比企业级大而且快,产生区别的原因是企业级从ring环形总线转向mesh网格总线)。intel的流水线为14-19级,amd为19+级。

两家的区别要详细说可以写一篇论文。简单来说,intel目前的架构更加紧凑:指令解码为5路,宏指令(MOP)和微指令(μOP)都有融合操作,从而有效提升每个端口的带宽利用率;指令调度模块整数浮点在一起统一调度,后端执行单元大部分也是整数和浮点放在一起并且采用乘法加法结合(FMA)的设计,流水线总长14-19级。AMD则更加传统一些,L1带宽稍大,指令解码为传统的4路,使用更大的L0(μOP)缓存补偿效率;整数和浮点部分完全是分离的,浮点加法和乘法部分也是完全分离的(图中FMA只代表可以和相邻的FADD一起执行FMA3,实际上只是乘法器),流水线稍长(19级)。
要说哪家更“好”,那什么是“好”,本身就是一个问题。紧凑的架构能耗上有优势,可能可以跑到更高频率,而且可以把省下来的空间用来增加功能模块、L1/L2缓存等;但是这也意味着被精简的某一级可能遇到瓶颈。具体还是得看刀法是否精湛,是否张弛有度,增加的额外性能组件或特征以及实际应用的需求。
2. 各组件的延迟计算:AMD没有给出EPYC2的详细总线拓扑,特别是北桥内部,所以我自己测试并画出。注意这只是个人根据pingpong测试和缓存测试做的一个模型,作用是可以用来算每个组件到每个组件之间的延迟。EPYC2基本可以看成4个桌面级CPU挂在一个线型总线上拼成(实际上AMD也提供了将一颗CPU分成4颗的设置选项NPS=4用以一定条件下提升内存性能)。其中2个节点相对于另外2个远20-25ns。每个节点挂载4个CCX,这4个CCX只能通过北桥互通(即使在同一die内)。4个节点为双向线型连接,此处为测试得到,其他部分均为官方标称。intel mesh暂未画好。。。

这里AMD比较聪明的一点就是在HEDT定位屏蔽远的两个MC从而达成100ns附近的内存延迟。intel的HEDT就悲催的多,总不能给人3通道吧,虽然实际也比跨die好啦。不过3990WX就比较惨了,估计得步2990WX的后尘。。。
3. 简介完成。AMD的核心性能并不算差,但是总线拓扑比较捉急;使用同样指令集时性能不差,但是SIMD位宽只有256bit,intel在企业级定位上是512bit并且有更高效的AVX-512指令集。这2个弱点在有些应用中体现的不明显,而在其他情况下则可能造成较大的性能差异。这里大概给出一下适合和不适合AMD Zen2架构的应用吧。根据目前统计:
适合AMD Zen2的应用:
1. CFD(性能和intel同参数差不多甚至略高,不过计算精度略低)
2. 3D渲染(vray,corona,C4D等,大概相当于intel同样参数的5/6~7/8附近,考虑到两家核心频率差别大概24-26核:32核这样。然而AMD拥有每个核心更便宜的优势)
3. 视频剪辑拼接(adobe系列软件及X265编码另说)
4. 预算充足情况下,双路即使开UMA模式CPU占用率也偏低的应用
5. 按CPU数量授权的指令密集型应用
不适合AMD Zen2的应用:
1. 数据中心(Datacenter)及其他存储密集应用(AMD一个盘格式化后基本39万iops封顶,intel则可以跑满单盘标称,至少500万iops每颗u)
2. 机器学习、深度学习(缺少指令集,缺少部分数据格式支持,效率低)
3. HPC,部分科学计算,ANSYS部分模块(当能发挥出AVX512实力的时候,intel一颗核心可以顶amd 2颗;intel各方面软件支持更完善而高效;另外intel xeon很容易高效地组建单节点2路、4路平台)
4. 游戏及建模等实时操作的应用(最多6-8核后多余核心不能提升性能,内存总线延迟问题副作用明显,Ryzen问题较小,TR和EPYC2问题较大)
5. 移动端设备(北桥设计固定功耗较高,移动应用一般为家用或办公,对总线内存性能的需求大于全核性能)
当然实际选择时还需要考虑实际的性价比和其他个人因素需求。
其实最简单的方法,两家都买来在自己实际应用里跑跑,留比较好的,或者差不多但是价格便宜的。反正企业级不怎么掉价,桌面级也不值钱。
4. 估计有朋友会有疑问,AMD同频同核心cinebench比intel高,为什么这里说渲染只相当于intel同样参数的5/6~7/8附近呢?这里必须分享一个比较有意思的测试经历。
实际上这里得纠正一下,准确的说是AMD“桌面级”跑cinebench比较高,EPYC2效能相对正常。此处7452为不显版本,prefetch调教和正式版不太一样,所以效率也稍高。

然后我朋友提供了一个1.72GB的实际的商业模型,以供渲染测试。

渲染后结果是这样。

至于产生这种现象的原因,我引用ANAND评测中涉及缓存预取的一句话:

The prefetchers on the Rome platform don't look nearly as aggressive as on the Ryzen unit on the L2 and L3
(EPYC2 Rome平台的L2/L3缓存预取远远没有Ryzen平台那么激进)
实际上我把那些测试工具和软件按文件大小排列,基本就是AMD桌面级这些测试相对于intel效率的比值。在渲染方式上CB和Vray差不多都是每一小区块独立渲染再加载下一区块,这两个测试也是AMD桌面级的相对优势项目。在此点到为止,不知道intel啥时候跟进呢。
总之不要随便相信“AMD的IPC比intel高”这种奇怪的理论吧。话说回来IPC不仅和CPU相关,也和周边缓存内存等组件相关,甚至和软件本身有关,并不是一个统一的数值,请以实际测试为准。例如下图显示了Cinebench R15在8275CL上的CPI(IPC的倒数),这个大于1的CPI代表这个软件的性能受到不少CPU核心外的软硬件性能的影响,如缓存。
还有,最好不要用cinebench这种缓存都能装得下的东西来当做cpu性能。跑渲染的话corona这些体积比较大的软件或者拿实际模型测试,客观性会好很多。想当年Fritz Chess Benchmark流行的时候也是,AMD只有这一个跑分超强其他都一般般,后来很多人也发现了这点。历史永远会轮回,综合而实际地评价产品就永远不会吃亏。

5. 关于游戏性能,经过控制环境下测试,某些人反映的卡顿是存在的。但是只存在于少部分游戏中,大部分游戏还是没问题的。这少部分游戏中重灾区在Rome架构的AMD企业级(包括TR)CPU中,如下图所示。时常出现0.2,0.3秒的卡顿或者帧率一直很低的情况下,游戏基本也就不能玩了吧。所以个人认为Rome架构是这几年唯一可以说不适合游戏的架构。
对于桌面级Ryzen而言,大部分情况下和外面网站已有的测试差不多,R7 3700X比intel(包括3647)游戏性能落后一些,但是问题也不大。

6. AMD使用的TSMC 7nm在密度方面领先intel一代,和intel 10nm接近。这里我们关心的是Zen2实际面积和功耗相对于intel的架构和14++的组合有什么区别。
首先是面积,将各个桌面级与企业级cpu按比例缩放图如下。大家可以通过数像素的方式计算每个核心的大概面积(原图可以在后面的网盘里找到)。

然后看功耗。大家知道每个cpu核心功耗在一定范围内和频率的3次方成正比,其他部分的功耗同架构情况下相对固定。所以把核心数x频率三次方作为“能耗系数”横轴,将实际功耗作为纵轴,经过实际渲染测试,我们可以画出下图。其中点越靠右、下,说明这个点代表的CPU能耗比越高,效率越高。
图中绿色是intel家用级(9900K 4G,4.1G,4.7G),黄色是amd家用级(3700x 3900x),蓝色是不同步进(3,4,5)intel企业级3647,红色是epyc2(7452 7702)。

大家可以试着计算一下Zen2+7nm和CFL+14nm++的能耗比差距,一个简单的两点间斜率问题,看看AMD目前的能耗比是因为7nm制程还是因为频率。当然不用计算也能看出来intel的F-IVR有多丢人。经历过3770K到4770K那一次换代的朋友应该能清楚地了解到那一天被F-IVR支配的恐惧。直到现在它的效率满打满算也只有70%。我也不知道intel为什么想要把功率器件放到cpu里,但是希望intel下一代企业级CPL-SP和ICL-SP去掉这些奇怪的东西,或者单独做一个die来放它们,否则intel输给的不是TSMC的制程,而是输给了自己。

在功耗和渲染测试中,cpu频率如图。各家均受到TDP墙的影响。

结语:

这只是个前瞻,所以也就简单说点目前的情况吧。
目前实际的情况是,AMD单cpu核心数量可以堆多,价格便宜,但是intel架构设计更均衡、领先,考虑更周全。AMD前几年把几乎所有资金赌在开发CPU核心架构上,这个做法目前非常成功,AMD目前CPU核心架构至少在跑同样指令集时性能上不输intel,同样定位核心数“买一送一”,使得一些需要低价生产力的用户得益,靠此积攒了一些口碑。但是在另一方面,除去SIMD位宽少一半以外,AMD目前的架构可以说基本没有总线拓扑的意识,只考虑怎样堆出更多核心和理论性能。由此采用的外置北桥结构并不是像广告宣传那样具有“跨时代的创新”,而仅仅是在成本上和对于缺乏更高性能跨die互联方案(如EMIB)的妥协。
这种妥协带来的不仅是内存、各种总线和核心之间的延迟这种直接影响,还有核心因无法喂饱而闲置导致多核心性能无法发挥这种间接影响。很多人认为CPU多少核心就是多少倍性能,这是错误的。CPU实际发挥出来的性能应应用而异,所以不同结构适合不同应用。前文已说明,不再赘述。AMD不是万能的,Intel也不会永远是优解,大家请规避各家粉丝的绝对主义的教唆,在以最小的代价最大化达成目标的路上,没有信仰,只有利益。去信仰一个资本家,只是一种能力不足的掩饰。

以防有人不知道:多个核心die挂在北桥上这种设计15年前就有,多die封装则早至25年前。intel在Nehalem那一代把内存控制器(MC)拿进cpu,之后SandyBridge把其他高速总线也拿进来,Xeon Phi在cpu内设置MCDRAM,马上下一代还要在CPU内设置HBM。很多事情并不是1+1=2那么简单,要不然就没有那么多专业人士写那么多论文,也不会有人把06年就能堆出16核、10年就能堆出64核的总线架构推倒重来。这就涉及到一个很明显但是人们经常忽视的一个事实:核多不代表CPU一定强,这只是众多CPU性能指标其中一个方面,实际使用中能发挥出更高的性能才是真强。

前瞻就先到这,剩下的正式评测再说。500多个测试结果也不是那么好梳理的,其中还有游戏帧时间点图这种很麻烦的东西。
附送Zen2核心、北桥以及Intel 4-8核CPU的die shot,供做桌面壁纸使用

  1. 链接:https://pan.baidu.com/s/1o79DLaxfHS0XzqIyCuq3yg
  2. 提取码:9n2x

最后给可能需要选用EPYC2平台的用户几点建议:
1. 内存一定要8通道插满,再不济也得保证每节点有一根内存。
2. 内存最好不要用2666以下频率的。
3. 尽量不要考虑2S(双路)或者以上配置,双路提升在渲染中大概只有60%。
4. 不要买早期步进ES不显,稳定性是一方面,性能有百分之多少你猜?
以上建议可以不听,但是万一跑出来内存性能不到双通道或者缓存性能只有几分之一请不要感到意外。

补充一个7z压缩 intel cpu分支预测命中率,多次测试大概97-98%之间。不知道和之前坛友AMD测试能不能直接对比。

哦对了,SSD横评是绝对不会鸽的,一定。

最新回复 (130)
  • chuckle 25天前
    引用 2
    强势围观大佬
  • yoshitora 25天前
    引用 3
  • 才华观光团 25天前
    引用 4
    前排
    该来的总是会来。
    除了avx512和tsx外,其他看结果了。
    觉得intel赢面可能还挺大的..还是看应用~
    这代的epyc,总觉得还是有点迷。个人玩好像还是3647和tr比较好玩~
  • 楼主 镜音リン 24天前
    引用 5
    今天又是很普通的一天,简单到把那一堆测试数据整理差不多就会很开心的程度

    AMD在Zen2这一代终于至少在核心性能上有和intel一战之力了,而且核心数量上采取了“买一送一”的销售策略使其性价比颇高。所以拿来两颗u测一遍,以大概做个了解,顺便为以后上什么平台做打算。当然主角是企业级平台(LGA3647及TR4-SP3r2),但是测试中也会包含9900K以及3950x之类家用u。测试同时面向渲染等工作站应用和游戏等家用用途。

    因为是前瞻,所以从简说明吧,简单介绍几个重点。
    1. 首先是核心内部架构。两家如下图所示,其中AMD桌面和企业级核心架构相同,但是intel不同。下图是intel企业级CPU的架构,桌面级删减了一组512bit SIMD单元(下图中zmm only部分),且L2缓存带宽减半,容量减少到256KB(但是L3比企业级大而且快,产生区别的原因是企业级从ring环形总线转向mesh网格总线)。intel的流水线为14-19级,amd为19+级。

    两家的区别要详细说可以写一篇论文。简单来说,intel目前的架构更加紧凑:指令解码为5路,宏指令(MOP)和微指令(μOP)都有融合操作,从而有效提升每个端口的带宽利用率;指令调度模块整数浮点在一起统一调度,后端执行单元大部分也是整数和浮点放在一起并且采用乘法加法结合(FMA)的设计,流水线总长14-19级。AMD则更加传统一些,L1带宽稍大,指令解码为传统的4路,使用更大的L0(μOP)缓存补偿效率;整数和浮点部分完全是分离的,浮点加法和乘法部分也是完全分离的(图中FMA只代表可以和相邻的FADD一起执行FMA3,实际上只是乘法器),流水线稍长(19级)。
    要说哪家更“好”,那什么是“好”,本身就是一个问题。紧凑的架构能耗上有优势,可能可以跑到更高频率,而且可以把省下来的空间用来增加功能模块、L1/L2缓存等;但是这也意味着被精简的某一级可能遇到瓶颈。具体还是得看刀法是否精湛,是否张弛有度,增加的额外性能组件或特征以及实际应用的需求。
    2. 关于EPYC2的总线拓扑,似乎没有人给出,所以我自己测试并画出。EPYC2基本可以看成4个桌面级CPU挂在一个线型总线上拼成(实际上AMD也提供了将一颗CPU分成4颗的设置选项NPS=4用以一定条件下提升内存性能)。其中2个节点相对于另外2个远20-25ns。每个节点挂载4个CCX,这4个CCX只能通过北桥互通(即使在同一die内)。intel mesh暂未画好。。。

    这里AMD比较聪明的一点就是在HEDT定位屏蔽远的两个MC从而达成100ns附近的内存延迟。intel的HEDT就悲催的多,总不能给人3通道吧,虽然实际也比跨die好啦。不过3990WX就比较惨了,估计得步2990WX的后尘。。。
    3. 简介完成。AMD的核心性能并不算差,但是总线拓扑比较捉急;使用同样指令集时性能不差,但是SIMD位宽只有256bit,intel在企业级定位上是512bit并且有更高效的AVX-512指令集。这2个弱点在有些应用中体现的不明显,而在其他情况下则可能造成较大的性能差异。这里大概给出一下适合和不适合AMD Zen2架构的应用吧。根据目前统计:
    适合AMD Zen2的应用:
    1. CFD(性能和intel同参数差不多甚至略高,不过计算精度略低)
    2. 3D渲染(vray,corona,C4D等,大概相当于intel同样参数的5/6~7/8附近,考虑到两家核心频率差别大概24-26核:32核这样。然而AMD拥有每个核心更便宜的优势)
    3. 视频剪辑拼接(adobe系列软件及X265编码另说)
    4. 预算充足情况下,双路即使开UMA模式CPU占用率也偏低的应用
    5. 按CPU数量授权的指令密集型应用
    不适合AMD Zen2的应用:
    1. 数据中心(Datacenter)及其他存储密集应用(AMD一个盘格式化后基本40万iops左右封顶,intel则可以跑满单盘标称,至少500万iops每颗u)
    2. 机器学习、深度学习(缺少指令集,缺少部分数据格式支持,效率低)
    3. HPC,部分科学计算,ANSYS部分模块(当能发挥出AVX512实力的时候,intel一颗核心可以顶amd 2颗;intel各方面软件支持更完善而高效;另外intel xeon很容易高效地组建单节点2路、4路平台)
    4. 游戏及建模等实时操作的应用(最多6-8核后多余核心不能提升性能,内存总线延迟问题副作用明显,Ryzen问题较小,TR和EPYC2问题较大)
    5. 移动端设备(北桥设计固定功耗较高,移动应用一般为家用或办公,对总线内存性能的需求大于全核性能)
    当然实际选择时还需要考虑实际的性价比和其他个人因素需求。
    其实最简单的方法,两家都买来在自己实际应用里跑跑,留比较好的,或者差不多但是价格便宜的。反正企业级不怎么掉价,桌面级也不值钱。
    4. 估计有朋友会有疑问,AMD同频同核心cinebench比intel高,为什么这里说渲染只相当于intel同样参数的5/6~7/8附近呢?这里必须分享一个比较有意思的测试经历。
    实际上这里得纠正一下,准确的说是AMD“桌面级”跑cinebench比较高,EPYC2效能相对正常。此处7452为不显版本,prefetch调教和正式版不太一样,所以效率也稍高。

    然后我朋友提供了一个1.72GB的实际的商业模型,以供渲染测试。

    渲染后结果是这样。

    至于产生这种现象的原因,我引用ANAND评测中涉及缓存预取的一句话:

    The prefetchers on the Rome platform don't look nearly as aggressive as on the Ryzen unit on the L2 and L3
    (EPYC2 Rome平台的L2/L3缓存预取远远没有Ryzen平台那么激进)

    实际上我把那些测试工具和软件按文件大小排列,基本就是AMD桌面级这些测试相对于intel效率的比值。在渲染方式上CB和Vray差不多都是每一小区块独立渲染再加载下一区块,这两个测试也是AMD桌面级的相对优势项目。在此点到为止,不知道intel啥时候跟进呢。
    总之不要随便相信“AMD的IPC比intel高”这种奇怪的理论吧。话说回来IPC不仅和CPU相关,也和周边缓存内存等组件相关,甚至和软件本身有关,并不是一个统一的数值,请以实际测试为准。例如下图显示了Cinebench R15在8275CL上的CPI(IPC的倒数),这个大于1的CPI代表这个软件的性能受到不少CPU核心外的软硬件性能的影响,如缓存。
    还有,最好不要用cinebench这种缓存都能装得下的东西来当做cpu性能。跑渲染的话corona这些体积比较大的软件或者拿实际模型测试,客观性会好很多。想当年Fritz Chess Benchmark流行的时候也是,AMD只有这一个跑分超强其他都一般般,后来很多人也发现了这点。历史永远会轮回,综合而实际地评价产品就永远不会吃亏。

    5. 关于游戏性能,经过控制环境下测试,某些人反映的卡顿是存在的。但是只存在于少部分游戏中,大部分游戏还是没问题的。这少部分游戏中重灾区在Rome架构的AMD企业级(包括TR)CPU中,如下图所示。时常出现0.2,0.3秒的卡顿或者帧率一直很低的情况下,游戏基本也就不能玩了吧。所以个人认为Rome架构是这几年唯一可以说不适合游戏的架构。
    对于桌面级Ryzen而言,大部分情况下和外面网站已有的测试差不多,R7 3700X比intel(包括3647)游戏性能落后一些,但是问题也不大。

    6. AMD使用的TSMC 7nm在密度方面领先intel一代,和intel 10nm接近。这里我们关心的是Zen2实际面积和功耗相对于intel的架构和14++的组合有什么区别。
    首先是面积,将各个桌面级与企业级cpu按比例缩放图如下。大家可以通过数像素的方式计算每个核心的大概面积(原图可以在后面的网盘里找到)。

    然后看功耗。大家知道每个cpu核心功耗在一定范围内和频率的3次方成正比,其他部分的功耗同架构情况下相对固定。所以把核心数x频率三次方作为“能耗系数”横轴,将实际功耗作为纵轴,经过实际渲染测试,我们可以画出下图。其中点越靠右、下,说明这个点代表的CPU能耗比越高,效率越高。
    图中绿色是intel家用级(9900K 4G,4.1G,4.7G),黄色是amd家用级(3700x 3900x),蓝色是不同步进(3,4,5)intel企业级3647,红色是epyc2(7452 7702)。

    大家可以试着计算一下Zen2+7nm和CFL+14nm++的能耗比差距,一个简单的两点间斜率问题,看看AMD目前的能耗比是因为7nm制程还是因为频率。当然不用计算也能看出来intel的F-IVR有多丢人。经历过3770K到4770K那一次换代的朋友应该能清楚地了解到那一天被F-IVR支配的恐惧。直到现在它的效率满打满算也只有70%。我也不知道intel为什么想要把功率器件放到cpu里,但是希望intel下一代企业级CPL-SP和ICL-SP去掉这些奇怪的东西,或者单独做一个die来放它们,否则intel输给的不是TSMC的制程,而是输给了自己。

    在功耗和渲染测试中,cpu频率如图。各家均受到TDP墙的影响。

    结语:

    这只是个前瞻,所以也就简单说点目前的情况吧。
    目前实际的情况是,AMD单cpu核心数量可以堆多,价格便宜,但是intel架构设计更均衡、领先,考虑更周全。AMD前几年把几乎所有资金赌在开发CPU核心架构上,这个做法目前非常成功,AMD目前CPU核心架构至少在跑同样指令集时性能上不输intel,同样定位核心数“买一送一”,使得一些需要低价生产力的用户得益,靠此积攒了一些口碑。但是在另一方面,除去SIMD位宽少一半以外,AMD目前的架构可以说基本没有总线拓扑的意识,只考虑怎样堆出更多核心和理论性能。由此采用的外置北桥结构并不是像广告宣传那样具有“跨时代的创新”,而仅仅是在成本上和对于缺乏更高性能跨die互联方案(如EMIB)的妥协。
    这种妥协带来的不仅是内存、各种总线和核心之间的延迟这种直接影响,还有核心因无法喂饱而闲置导致多核心性能无法发挥这种间接影响。很多人认为CPU多少核心就是多少倍性能,这是错误的。CPU实际发挥出来的性能应应用而异,所以不同结构适合不同应用。前文已说明,不再赘述。
    AMD不是万能的,Intel也不会永远是优解,大家请规避各家粉丝的绝对主义的教唆,在以最小的代价最大化达成目标的路上,没有信仰,只有利益。去信仰一个资本家,只是一种能力不足的掩饰。

    以防有人不知道:多个核心die挂在北桥上这种设计15年前就有,多die封装则早至25年前。intel在Nehalem那一代把内存控制器(MC)拿进cpu,之后SandyBridge把其他高速总线也拿进来,Xeon Phi在cpu内设置MCDRAM,马上下一代还要在CPU内设置HBM。很多事情并不是1+1=2那么简单,要不然就没有那么多专业人士写那么多论文,也不会有人把06年就能堆出16核、10年就能堆出64核的总线架构推倒重来。这就涉及到一个很明显但是人们经常忽视的一个事实:核多不代表CPU一定强,这只是众多CPU性能指标其中一个方面,实际使用中能发挥出更高的性能才是真强

    前瞻就先到这,剩下的正式评测再说。500多个测试结果也不是那么好梳理的,其中还有游戏帧时间点图这种很麻烦的东西。
    附送Zen2核心、北桥以及Intel 4-8核CPU的die shot,供做桌面壁纸使用

    链接:https://pan.baidu.com/s/1o79DLaxfHS0XzqIyCuq3yg
    提取码:9n2x

    最后给可能需要选用EPYC2平台的用户几点建议:
    1. 内存一定要8通道插满,再不济也得保证每节点有一根内存。
    2. 内存最好不要用2666以下频率的。
    3. 尽量不要考虑2S(双路)或者以上配置,双路提升在渲染中大概只有60%。
    4. 不要买早期步进ES不显,稳定性是一方面,性能有百分之多少你猜?
    以上建议可以不听,但是万一跑出来内存性能不到双通道或者缓存性能只有几分之一请不要感到意外。

    补充一个7z压缩 intel cpu分支预测命中率,多次测试大概97-98%之间。不知道和之前坛友AMD测试能不能直接对比。

    哦对了,SSD横评是绝对不会鸽的,一定。

    1. P.S.
    2. 回复中的全部问题已经全部严谨的说明了,包括涉及到的测试过程。如果有什么疑问请仔细看完。这只是个预告,完成整个测试总结估计还需要一段时间,敬请期待。
  • 楼主 镜音リン 24天前
    引用 6
    才华观光团 发表于 2020-1-31 16:59
    前排
    该来的总是会来。
    能用得着那么多核的应用amd单cpu核多但是intel效率高而且可以多路。
    我倒觉得只能玩EPYC,tr预期再过一两个月价格会降30%,现在起飞已经只愿意5 6折收了。。。而且EPYC也只是对应核心数频率低0.8这样,内存和散热都好得多。
  • alexander1995 24天前
    引用 7
    顶兰总,兰总牛逼
  • jojo200 24天前
    引用 8
    请教关于Zen2架构优劣的部分,3960X和3970X同样受到上述设计理念的情况下,所受影响相较EPYC应该是较小的吧?
    那么作为个人工作室,主要用途为Photoshop堆栈,视频剪辑等场景并兼任主力游戏机的情况下,选择9980XE还是3970X?考虑价格等因素综合应选择谁?仅考虑性能又应选择谁?
  • 淡蓝色的花 24天前
    引用 9
    大佬这个贴上的数据我基本上全部不懂,我只是知道 玩游戏
  • 547737657 24天前
    引用 10
    收藏了,还是希望Intel出一款R15跑分好看的U
  • Juzi丶 24天前
    引用 11
    intel确实输给自己了
    巴掌大的xeon一块晶圆就没切几个出来,做好了还坏一半(X
    虽然AMD在某种程度上也是差不多个情况
  • 阿不xyz 24天前
    引用 12
    一看就专业,牛逼
  • 楼主 镜音リン 24天前
    引用 13
    jojo200 发表于 2020-1-31 18:39
    请教关于Zen2架构优劣的部分,3960X和3970X同样受到上述设计理念的情况下,所受影响相较EPYC应该是较小的吧 ...
    默认情况下差不多,50ns延迟换多4通道内存,tr内存超频带动if频率提升的情况下应该有所好转。
    PS我印象里是单核应用,建议不要用HEDT。建议在97k和3900里选,实际还取决于视频剪辑软件和对游戏还是视频剪辑更看重,如果软件还是adobe家的话和ps差不多处理。。。
  • 老湿真辛苦 24天前
    引用 14
    提前好评,就想看看这样的对垒
  • fszjq23 24天前
    引用 15
    TR 3970x游戏性能对比2代好多了,没有落后3800x多少
  • KMDYX 24天前
    引用 16
    硬核。。。相比之下那些跑个r15就代表cpu生产力的弱爆了
  • 楼主 镜音リン 24天前
    引用 17
    fszjq23 发表于 2020-1-31 18:58
    TR 3970x游戏性能对比2代好多了,没有落后3800x多少
    只能说,很多事情不是一个帧率的数字能解决的。除了上面说的帧延迟卡顿问题以外,帧率本身就有个波动。另外实际测试结果和误差域和分辨率和gpu都有关。这些随机误差可能造成性能差的u用随机误差吊打性能好的u的情况。。。
    所以我的测试统一用2K分辨率记录帧率和延迟散点,顺便统计延迟的标准差。

  • 才华观光团 24天前
    引用 18
    镜音リン 发表于 2020-1-31 18:24
    能用得着那么多核的应用amd单cpu核多但是intel效率高而且可以多路。
    我倒觉得只能玩EPYC,tr预期再过一两 ...
    3647又稳又全方面平衡,当然是个不错的选择。除了大家可能看到skylake(cascadelake)有点烦,在等q3的10nm新架构外~
    多路就要看软件支持了,尽管xeon scalable扩展挺不错,对于个人玩的来说,如果能一个cpu解决,那还是尽量单路吧。
    自己家用着玩,总是想核能多点就多点,用不上全核的时候频率能高就高点,真的全核满载也不低的丢人。于是3647的xeon-w就出来了。
    尽管3275全核低于8280,又不能dcpmm,大家还是玩得很开心~(也可能是因为更方便黑苹果所以开心)
    epyc 7502p这种家用,如果正好用到ps之类的,可能玩不过一个8代i5,就有点尴尬。
    这时候就觉得tr会更适合家用一点~
    按照amd传统,tr打7折,就更适合玩了。x299的正式版还在卖杀猪价= =打7折,7500的3960x,配上扩展性优秀的trx40,没有牙签总线,玩nvme raid不需要vroc。 没有avx512和tsx需求的话,他不香嘛
    至于4通道的3990x,以及没有trx40的ws, 我就摸不着头脑了= =
    adobe系列软件及X265编码另说
    另外,关于adobe和x265,也求个测试呀~期待后文~
  • 无聊的石头 24天前
    引用 19
    这是在家里隔离憋出来的吧
  • fszjq23 24天前
    引用 20
    jojo200 发表于 2020-1-31 18:39
    请教关于Zen2架构优劣的部分,3960X和3970X同样受到上述设计理念的情况下,所受影响相较EPYC应该是较小的吧 ...
    why not 3950x?
  • dsboylw 24天前
    引用 21
    镜音リン 发表于 2020-1-31 18:52
    默认情况下差不多,50ns延迟换多4通道内存,tr内存超频带动if频率提升的情况下应该有所好转。
    PS我印象里 ...
    问一下,ADOBE现在对于多核心方面,尤其视频剪辑方面,多核心利用方面不是比以往好了吗,高主频还是吃~
    未来有没有可能针对多核心进行优化
    (软件这东西,把核心代码全部重新可能性不高)
  • diogin 24天前
    引用 22
    AMD一个盘格式化后基本39万iops封顶,intel则可以跑满单盘标称,至少500万iops每颗u
    不知道你用的什么SSD做的测试。随便拿手头的一个PM981 512G NVMe 测试了下:

  • 楼主 镜音リン 24天前
    引用 23
    dsboylw 发表于 2020-1-31 19:25
    问一下,ADOBE现在对于多核心方面,尤其视频剪辑方面,多核心利用方面不是比以往好了吗,高主频还是吃~
    ...
    之前帮朋友测过ae和pr,基本上就是4-6核在跑其他看戏,除非用脚本。还有说以前有几版好现在负优化。。。以后比较难说,不过看现在intel在和adobe合作比较紧密,以后倒是有可能支持高位宽simd。
  • jojo200 24天前
    引用 24
    fszjq23 发表于 2020-1-31 19:22
    why not 3950x?
    实不相瞒,因为有万兆需求,插了万兆网卡之后pcie通道数量就紧张了
  • Laferrari 24天前
    引用 25
    傲腾果然是另一个次元的东西
  • jojo200 24天前
    引用 26
    镜音リン 发表于 2020-1-31 18:52
    默认情况下差不多,50ns延迟换多4通道内存,tr内存超频带动if频率提升的情况下应该有所好转。
    PS我印象里 ...
    目前在用的是7900X裸die灰烬到5G用,算是兼顾了游戏和其他工作所需的多核性能。
    换9980XE或3960X/3970X的话最终达成的频率显然会因更多核心而下降,尤其是在10980XE降价且新线程撕裂者发布后,犹豫比较纠结明显多了很多
  • fszjq23 24天前
    引用 27
    dsboylw 发表于 2020-1-31 19:25
    问一下,ADOBE现在对于多核心方面,尤其视频剪辑方面,多核心利用方面不是比以往好了吗,高主频还是吃~
    ...
    只能讲zen2比zen好多了
  • Misaka_9993 24天前
    引用 28
    dsboylw 发表于 2020-1-31 19:25
    问一下,ADOBE现在对于多核心方面,尤其视频剪辑方面,多核心利用方面不是比以往好了吗,高主频还是吃~
    ...
    可以尝试一下davinci,核心利用率比pr最新反正是好得多。
  • fuji113 24天前
    引用 29
    看不懂,但感觉很厉害的样子,围观大佬
  • 楼主 镜音リン 24天前
    引用 30
    diogin 发表于 2020-1-31 19:33
    不知道你用的什么SSD做的测试。随便拿手头的一个PM981 512G NVMe 测试了下:
    我用iometer。你超频了么?
    不过也才刚过40万而已,我应该说40万左右。。。我以前跑的100万iops的1725图突然找不到了,用一个74万iops的1725和250万iops的傲腾内存代替一下。。。

  • m4a1chbb 24天前
    引用 31
    涵盖面广,也能解释了不少实际使用起来突兀的情况,好帖子,辛苦了。
  • diogin 24天前
    引用 32
    当能发挥出AVX512实力的时候,intel一颗核心可以顶amd 2颗



    这里有个测试:



  • diogin 24天前
    引用 33
    镜音リン 发表于 2020-1-31 19:50
    我用iometer。你超频了么?
    不过也才刚过40万而已,我应该说40万左右。。。我以前跑的100万iops的1725图 ...
    对 SSD 来说 1467MHz 的 IFOP 根本不是瓶颈,PCIE 4.0 16GT/s 的传输频率(哪怕 3.0 也有 8GT/s),理论上只要 SSD 跟得上,IOPS 有什么理由停留在 40 万?你拿 Intel 专用的傲腾来说 EPYC2 SSD IOPS 上限 40 万是很可笑的。
  • natt 24天前
    引用 34
    硬核!!!相比之下那些跑个r15就代表cpu生产力的弱爆了
  • fszjq23 24天前
    引用 35
    natt 发表于 2020-1-31 20:11
    硬核!!!相比之下那些跑个r15就代表cpu生产力的弱爆了
    r20不跑,跑r15
  • 楼主 镜音リン 24天前
    引用 36
    diogin 发表于 2020-1-31 20:02
    对 SSD 来说 1467MHz 的 IFOP 根本不是瓶颈,PCIE 4.0 16GT/s 的传输频率(哪怕 3.0 也有 8GT/s),理论 ...
    问题是事实就是这样,我测试是拿同一块pm1725a在不同平台跑,intel一个速度amd一个速度。
    更新:这是测试结果,除了标注傲腾内存的测试以外其他全部都是PM1725a 3.2TB U.2,格式化为NTFS,IOmeter 1.1官网build测试,这个测试行业内用了十几年了吧。4KB随机QD16x16T,全新安装win10 1803系统,。够严谨了不。
    其实IO负载不是直接带宽是多少就能跑多少那么简单,有的盘甚至需要借用一部分控制器/cpu算力做元数据处理,所以连阵列卡都有IOPS标称(比如9460-16i额定1.7M iops),所以内存在内存模式比内存盘模式跑的快很多倍,也所以傲腾内存有多种模式而不是直接做成硬盘。

    还有一点,不要对一个玩数学的人来纠结严谨性的问题。
    avx512我做的2个测试x265 3.2和y cruncher提升都非常大。aida64浮点测试直接就是28接近64核。测出来没提升一般是软件早期支持版本很多组件优化不全。
  • diogin 24天前
    引用 37
    EPYC2 让我觉得不爽的硬伤有两个,一是 1467MHz IFOP(跟 Memory CLK 对不上),二是 CCD 到 IOD 读写不对称(读 32B/cycle,写 16B/cycle)。IOD 内对角线 GMI-PHY 间额外延迟 20-25ns 也是个槽点。
    其它的,基本没啥硬伤了,想想它的价格。
    另外 IOD 图那个 PCIE 4.0x32 的带宽不是 102.4G/s,应该是 126.04GB/s(128b/130b,16GT/s,双向合计)。
  • diogin 24天前
    引用 38
    镜音リン 发表于 2020-1-31 20:13
    问题是事实就是这样,我测试是拿同一块pm1725a在不同平台跑,intel一个速度amd一个速度。回去上图 ...
    唯一的可能是设置问题或软件问题,同样的PCIE标准,如果EPYC2平台能出现这么严重的瓶颈,早被AMD打回炉重做了。
  • 老湿真辛苦 24天前
    引用 39
    fszjq23 发表于 2020-1-31 18:58
    TR 3970x游戏性能对比2代好多了,没有落后3800x多少
    要是3950X是不是数据更好?
  • 楼主 镜音リン 24天前
    引用 40
    diogin 发表于 2020-1-31 20:22
    唯一的可能是设置问题或软件问题,同样的PCIE标准,如果EPYC2平台能出现这么严重的瓶颈,早被AMD打回炉重 ...
    实际上的确数据中心就基本没有用epyc2的。企业级卖出去的一般都用来租虚拟机。
    测试系统是新装的,驱动微软和三星都试过。981的iops也不止41万吧.
  • diogin 24天前
    引用 41
    镜音リン 发表于 2020-1-31 20:27
    实际上的确数据中心就基本没有用epyc2的。企业级卖出去的一般都用来租虚拟机。 ...
    咱们就技术论技术。即便 IOD 内是 Ringbus(很可能是,如果是 Crossbar 的话那对角线延迟不可能这么高),它的频率也有 1467MHz,加上 I/O 操作各级深度流水线,应付 SSD 那点 IO 绝对绰绰有余。PCIE 4.0 对 40w IOPS 来说更是看不见的天花板。
    你说的这个只是*现状*,是历史和两家商业宣传实力的巨大差距导致,这不是技术范畴。
  • baileybzn 24天前
    引用 42
    我是来收桌面背景的
  • zcjzcj11111 24天前
    引用 43
    镜音リン 发表于 2020-1-31 20:27
    实际上的确数据中心就基本没有用epyc2的。企业级卖出去的一般都用来租虚拟机。
    测试系统是新装的,驱动微 ...
    希望年底的zen3能够改善上述问题,楼主,zen3出了后,再来一篇评测优缺点汇总好么
  • diogin 24天前
    引用 44
    镜音リン 发表于 2020-1-31 20:27
    实际上的确数据中心就基本没有用epyc2的。企业级卖出去的一般都用来租虚拟机。
    测试系统是新装的,驱动微 ...
    见图

  • diogin 24天前
    引用 45
    镜音リン 发表于 2020-1-31 20:13
    问题是事实就是这样,我测试是拿同一块pm1725a在不同平台跑,intel一个速度amd一个速度。回去上图
    avx512 ...
    个人认为,严谨的测试是:
    1、严格定义和一致、受控的运行环境;
    2、排查测试过程中所有的影响和潜在的瓶颈;
    3、根据计算机基本理论,提前预测结果;
    4、采用让人信服的编译器和编译参数,以及各项开关,构建出对 AMD 和 Intel 都能达到“相对极限”的 build,来进行测试;
    5、如果测试结果不符合预期,检查原因。当然原因可能有多种,比如其中一种,很可能是编译器针对 AMD 的优化不够到位,这一点 Intel 最有发言权,他们投入了巨大的人力进行各种 workload 优化,并应用到 ICC/GCC 上。
    任何一项做不到位,这个测试都是不能让人信服的。随便拿一个测试跑一下就当结论,这种结论不仅不严谨,还有误导。
  • darklex 24天前
    引用 46
    目前在用7351+16G 2133x4,我只是拿来做NAS,主要是图128条PCIE通道...性能还可以就是功耗有点大,准备换一个7252/7262
  • feiying2222 24天前
    引用 47
    镜神作品,首先拜服下。
    学渣有几个疑问:
    1、指令宽度,AMD官方PPT指令解码确实写的传统4路,但大神们实测感觉是5路,不知道是不是有所隐瞒?
    2、总线拓扑,这种画法看起来很像1代的NUMA结构,如果真的是线性总线,即使是3990WX砍掉了4个通道(比如砍掉NODE1、NODE3的内存通道),那么最长路径从NODE0的内存接口->NODE0->NODE1->NODE2->NODE3的CCX核心,算下来内存延迟最大是130ns左右,也不算差啊,我记得之前评测里面2990WX最远端是200多ns,3990WX进步很大,不至于那么糟糕吧?
    3、搞不懂AMD的IOPS为啥低那么多啊?
    不懂的太多,请教下镜神
  • panzerlied 24天前
    引用 48
    你怎么又pm1725a了
  • feiying2222 24天前
    引用 49
    panzerlied 发表于 2020-1-31 21:29
    你怎么又pm1725a了
    柯基,我记得最早就是你说5路吧
  • psps3 24天前
    引用 50
    diogin 发表于 2020-1-31 21:06
    个人认为,严谨的测试是:
    1、严格定义和一致、受控的运行环境;
    支持严谨的技术探讨,从楼主的语言中可以看出对i家有一定的偏袒,拿i家第一代i7集成内存控制器说事,怎么不说amd的754平台就开始集成内存控制器
  • psps3 24天前
    引用 51
    diogin 发表于 2020-1-31 21:06
    个人认为,严谨的测试是:
    1、严格定义和一致、受控的运行环境;
    看到楼主测得3700x的r15多核跑分只有1961我就有点奇怪了,评测看了很多,基本都是2100多,这个差的有点多,其他的不看了
  • kthlon 24天前
    引用 52
    feiying2222 发表于 2020-1-31 21:27
    镜神作品,首先拜服下。
    学渣有几个疑问:
    1、指令宽度,AMD官方PPT指令解码确实写的传统4路,但大神们实测 ...
    他那个拓扑图根本就是错的
  • wesleyxy 24天前
    引用 53
    panzerlied 发表于 2020-1-31 21:29
    你怎么又pm1725a了
    一直都是1725和xeon啊,可能现在工包不好卖,所以你懂的
  • zhoubi 24天前
    引用 54
    psps3 发表于 2020-1-31 21:57
    看到楼主测得3700x的r15多核跑分只有1961我就有点奇怪了,评测看了很多,基本都是2100多,这个差的有点多 ...
    3700x锁全核4.3是2240分左右,全默认boost4.1左右差不多就是2100多分。1961差不多是全核3.8左右跑出来的水平,应该是过年放炮被吓到了吧这CPU
  • BFG9K 24天前
    引用 55
    psps3 发表于 2020-1-31 21:48
    支持严谨的技术探讨,从楼主的语言中可以看出对i家有一定的偏袒,拿i家第一代i7集成内存控制器说事,怎么 ...
    不说AMD的集成内存控制器就是偏袒I家啊,真是有理有据令人信服
  • 楼主 镜音リン 24天前
    引用 56
    zcjzcj11111 发表于 2020-1-31 20:44
    希望年底的zen3能够改善上述问题,楼主,zen3出了后,再来一篇评测优缺点汇总好么 ...
    这一代本来准备做一个“rise of the red”动画短篇,不过没时间加上这一代北桥设计比较失望,看下一代吧。
  • feiying2222 24天前
    引用 57
    kthlon 发表于 2020-1-31 21:58
    他那个拓扑图根本就是错的
    不是说大神实测得出吗?如果真的是这种线性topology,感觉IODIE这设计低了不少档次
  • psps3 24天前
    引用 58
    BFG9K 发表于 2020-1-31 22:26
    不说AMD的集成内存控制器就是偏袒I家啊,真是有理有据令人信服
    不过多解释,文中加了一段 以防有人不知道 强行解释,后面还有句 总之不要随便相信“AMD的IPC比intel高”这种奇怪的理论 强行解释总是让人感觉奇怪
  • 楼主 镜音リン 24天前
    引用 59
    feiying2222 发表于 2020-1-31 21:27
    镜神作品,首先拜服下。
    学渣有几个疑问:
    1、指令宽度,AMD官方PPT指令解码确实写的传统4路,但大神们实测 ...
    1. 说是五发射吧,zen2算5发射应该没毛病,但是不代表decoder是5路
    2. 实际测试EPYC2 AIDA64内存缓存测试跑到内存延迟150ns左右,3990wx不太好估计,但是3970x是100ns左右,anand有评测。
    3. 存储器I/O负载比较复杂,可能涉及到多次来回存取。这个我仍然在研究当中。
  • 楼主 镜音リン 24天前
    引用 60
    psps3 发表于 2020-1-31 21:48
    支持严谨的技术探讨,从楼主的语言中可以看出对i家有一定的偏袒,拿i家第一代i7集成内存控制器说事,怎么 ...
    从行文的角度来说,说intel的进展突然又扯上AMD不突兀么
    记得AMD当时还说架构领先intel 7年。现在哪家什么地方好就是什么地方好,好端端讨论技术为啥要扯上“从语言中看出”呢
  • 楼主 镜音リン 24天前
    引用 61
    diogin 发表于 2020-1-31 21:06
    个人认为,严谨的测试是:
    1、严格定义和一致、受控的运行环境;
    测试已补上,更新回复
  • kthlon 24天前
    引用 62
    镜音リン 发表于 2020-1-31 22:34
    1. 说是五发射吧,zen2算5发射应该没毛病,但是不代表decoder是5路
    2. 实际测试EPYC2 AIDA64内存缓存测试 ...
    找不到架构图就好好找一找 不要自己画个臆断的误导人
  • feiying2222 24天前
    引用 63
    镜音リン 发表于 2020-1-31 22:34
    1. 说是五发射吧,zen2算5发射应该没毛病,但是不代表decoder是5路
    2. 实际测试EPYC2 AIDA64内存缓存测试 ...
    关于第2点,建议找LambdaDelta要他的pingpong程序测试下,而且测试下不同域配置模式,更严谨一些
  • 楼主 镜音リン 24天前
    引用 64
    kthlon 发表于 2020-1-31 22:40
    找不到架构图就好好找一找 不要自己画个臆断的误导人
    架构图是我自己跑核心对核心ping pong延迟测出来的。AMD官方没有发布,我只能说我这个最准确。画完我还找了几个行业大佬帮忙修正。测试图见lx。
  • 楼主 镜音リン 24天前
    引用 65
    feiying2222 发表于 2020-1-31 22:40
    关于第2点,建议找LambdaDelta要他的pingpong程序测试下,而且测试下不同域配置模式,更严谨一些 ...
    看来得把测试的理论部分剧透完。。。
    我就是这么测试的,用的是cloud的测试工具,很明确的线型总线,4个节点每个外挂4个crossbar的ccx。其实从die shot并非中心对称基本就能看出这个总线既不是mesh也不是ring。

  • diogin 24天前
    引用 66
    feiying2222 发表于 2020-1-31 22:28
    不是说大神实测得出吗?如果真的是这种线性topology,感觉IODIE这设计低了不少档次 ...
    我期望 Epyc 下一代:
    1、IPC++;
    2、采用 8-core CCX/CCD,这个应该是公开的确凿变化了;
    3、添加 AVX512,堵上牙膏厂的嘴;
    4、IOD 采用 7nm 工艺,添加 512MB/1GB L4 Cache,不过这个感觉可能性不大;
    5、IOD 采用一致性延迟设计,也就是单 CPU 变成 UMA,不再是 NUMA,同时缩小延迟;
    6、CCD 到 IOD 读写对称,都变成 32B/cycle,不再出现内存写带宽只有读的一半的问题;
    7、内存频率不变(八成不变,DDR4 规范 3200 到头了)的情况下,IFOP 标定到 1600MHz。
    看最终能达成多少。。。
  • diogin 24天前
    引用 67
    镜音リン 发表于 2020-1-31 22:34
    1. 说是五发射吧,zen2算5发射应该没毛病,但是不代表decoder是5路
    2. 实际测试EPYC2 AIDA64内存缓存测试 ...
    如果我没记错,那你颗跑 150ns 的 U 是 ES。
    这是正式版的延迟(2933 CL=23 比较破的时序):

  • 847681220 24天前
    引用 68
    diogin 发表于 2020-1-31 22:44
    我期望 Epyc 下一代:
    1、IPC++;
    milan用上先进封装2倍能耗比if频率肯定不会只给到1.6Ghz啦
  • shzj1 24天前
    引用 69
    镜音リン 发表于 2020-1-31 22:43
    看来得把测试的理论部分剧透完。。。
    我就是这么测试的,用的是cloud的测试工具,很明确的线型总线,4个 ...
    我建议你和求秒打一架
  • 楼主 镜音リン 24天前
    引用 70
    diogin 发表于 2020-1-31 22:51
    如果我没记错,那你颗跑 150ns 的 U 是 ES。
    这是正式版的延迟(2933 CL=23 比较破的时序):
    这个缓存测试不太准,用AIDA64工程板,右击状态栏选择cache&memory latency测看跑到最后是多少。
    我的测试是B0步进和正式版一样,用的是3200内存。7702我也做过验证测试13xns,不过用的是2666内存。

  • diogin 24天前
    引用 71
    镜音リン 发表于 2020-1-31 22:56
    这个缓存测试不太准,用AIDA64工程板,右击状态栏选择cache&memory latency测看跑到最后是多少。
    我的测 ...
    你原帖说的是“AIDA64 内存缓存测试 150ns”。你应该用精确一点的描述。
  • feiying2222 24天前
    引用 72
    镜音リン 发表于 2020-1-31 22:43
    看来得把测试的理论部分剧透完。。。
    我就是这么测试的,用的是cloud的测试工具,很明确的线型总线,4个 ...
    看起来是哦,测试软件没问题的话
  • diogin 24天前
    引用 73
    847681220 发表于 2020-1-31 22:52
    milan用上先进封装2倍能耗比if频率肯定不会只给到1.6Ghz啦
    那自然更好了。目前这个 1467MHz 的限制让我特别不爽。
  • feiying2222 24天前
    引用 74
    diogin 发表于 2020-1-31 22:44
    我期望 Epyc 下一代:
    1、IPC++;
    真有那么多高强度高比例AVX512软件用吗?
    其次,按之前宣传的,这一代就是IOD一致性设计了,NUMA可以配置为一个域,但按照镜神的测试,还是有差别,不知道是不是配置的因素,学渣不懂啊,听大佬们说好了
  • diogin 24天前
    引用 75
    feiying2222 发表于 2020-1-31 23:07
    真有那么多高强度高比例AVX512软件用吗?
    其次,按之前宣传的,这一代就是IOD一致性设计了,NUMA可以配置 ...
    有一句俗话,“我可以不用,但你不能没有”
    这一代并不是一致性 IOD 设计,8个 GMI PHY 之间通信延迟是有多种的,不是只有一种。所谓的改变是,NUMA 域数量降低,从 4 降到了 1。但是这个 1 本身仍然是 NUMA,而不是 UMA。
  • 楼主 镜音リン 24天前
    引用 76
    diogin 发表于 2020-1-31 22:44
    我期望 Epyc 下一代:
    1、IPC++;
    1. IPC。。。说实话cpu发展到现在纯IPC已经很难有提升了,除非哪家能做出来6发射。我觉得zen3可能性不大,毕竟amd现在5-way decode都没
    2. AMD官方宣布的IPC提升(up to)意思估计就是ccx变大很多应用会好受点。
    3. AMD目前工作重心不是这方面吧。
    4. zen2 die shot里面很规整的部分可能就是缓存,所以AMD的内存copy强读写弱。只是不对软件端公开,只是个猜想。
    5. 跨die延迟硬伤,靠8节点的北桥只能省下来大概40-50ns内存延迟,跨核心还是老样子。我倒是希望AMD弄出来新的总线,或者tsmc能给出类似EMIB的方案。IF基本上就是升频的pcie。
    6. ccx8核估计需要64B/cycle以上吧
    7. 内存和IFOP同步,现在插3200内存就可以1600总线吧

    另外那个102.4GB/s是根据连到PCI-e PHY的64bit/cycle算的
  • feiying2222 24天前
    引用 77
    diogin 发表于 2020-1-31 23:12
    有一句俗话,“我可以不用,但你不能没有”
    这一代并不是一致性 IOD 设计,8个 GMI PHY 之间通信 ...
    明白了,但4个NUMA为啥用线性拉通,而不是一个环,好不少啊。搞不懂...
  • 楼主 镜音リン 24天前
    引用 78
    feiying2222 发表于 2020-1-31 23:07
    真有那么多高强度高比例AVX512软件用吗?
    其次,按之前宣传的,这一代就是IOD一致性设计了,NUMA可以配置 ...
    个人和工作站是少见了,但是HPC必须有,而且要好用,所以intel现在仍然在增加AVX512指令集的类型(如vnni ifma)和数据类型支持(如bfloat16)
  • feiying2222 24天前
    引用 79
    镜音リン 发表于 2020-1-31 23:17
    个人和工作站是少见了,但是HPC必须有,而且要好用,所以intel现在仍然在增加AVX512指令集的类型(如vnni ...
    嗯,可能那些科研人员用吧,纯数值理论运算型,个人是没见过哈,即使之前接触过天河之类的东西
  • 楼主 镜音リン 24天前
    引用 80
    wesleyxy 发表于 2020-1-31 21:59
    一直都是1725和xeon啊,可能现在工包不好卖,所以你懂的
    还是两年前的味道,不谈技术,光揣测意图。10年以后我还是会说家用版傲腾性能不如1725好哦。
    还有3647部分型号已经缺货疯涨,但是起飞还只愿意5-6折收TR,可能让你大失所望吧。
    diy界听过2句名言,一是做品牌机服务器的都是傻子,二是桌面零售家用级的东西永远比服务器洋垃圾性能高。
  • 才华观光团 24天前
    引用 81
    feiying2222 发表于 2020-1-31 23:07
    真有那么多高强度高比例AVX512软件用吗?
    其次,按之前宣传的,这一代就是IOD一致性设计了,NUMA可以配置 ...
    目前avx512个别领域常见,别的地方相对较少或者说极少。
    我可以不用,但你不能没有 这个其实有点道理。毕竟intel在icelake全面加入avx512了,哪怕是移动端频率再低也有这个= =
    说不定intel的影响力,会带着一些大厂在一些软件上,优化支持avx512.也许会需要挺久,也许两三年就有更多支持。
    怎么说呢,谁也不想一颗不便宜的线程撕裂者/eypc,缺个指令集,过个3年,部分软件跑起来有点49入国军的感觉……24核跑12核的水平……
    不过那时候,coffeelake也一样out了,只不过那些便宜,没这么心疼emmm
  • 暗影翔 24天前
    引用 82
    darklex 发表于 2020-1-31 21:10
    目前在用7351+16G 2133x4,我只是拿来做NAS,主要是图128条PCIE通道...性能还可以就是功耗有点大,准备换一 ...
    大佬的nas挂了几个万兆卡和hba卡啊
    下午上淘宝看了一圈,2140b的价格真好,比7251便宜很多。48个lanes也够上2个万兆,4个hba卡。
    大佬的7351是用服务器散热吹么?风扇噪音大么?
  • feiying2222 24天前
    引用 83
    才华观光团 发表于 2020-1-31 23:26
    目前avx512个别领域常见,别的地方相对较少或者说极少。
    我可以不用,但你不能没有 这个其实有点道理。 ...
    不太可能线性2倍关系,边际效益+两者频率差异吧,更别说指令比率问题了...另外,AVX512在哪些个别领域常见啊?
  • mkkkno1 24天前
    引用 84
    关于3d的渲染部分我说一下吧,渲染总体的情况是比较复杂的。
    cb20和cb15的测试因为测试时间的问题,不可能让你等几个小时去跑测试,所以用比较简单的场景去测试,但是覆盖大部分的shader类型及常见的光线构成。(几个渲染器的测试都是这样做的)
    渲染时间也不是只和场景的模型的复杂程度相关。1.5g的工程文件不能说明什么,反而有时候更能迷惑人,而且不知道是包含贴图及缓存或者代理,还是纯工程文件,如果是打包文件1.5g就是小儿科,工作中几个G十几个G的也不是没有,前段时间遇见了一个垃圾工程,纯工程文件就近10G,大家做的欲仙欲死,走偏了……
    举几个例子:
    1)如果都是场景里物体数量巨大(往往这就是工程文件庞大的原因);但是,材质确足够简单(或者远了根本看不清,被渲染器简化了计算),这时候考验渲染速度应该是io速度和内存容量,cpu性能倒在其次。大部分的时间花在了加载和解析上面了(准备阶段),真正的计算时间其实很短。
    2)另外一种情况,现在渲染大部分都是“分块”的,一个“块”就是一个线程,分块其实是有额外开销的,一是“块”与“块”之间的融合;二是“块”的大小(就是分块的数量),因为场景一般都是不“均匀”的,有些“块”快一些,有些“块”慢一些;这就需要根据具体的场景去合理划分,测试中发现有的地方“卡”住不动,就该主动的去减小“分块”让更多的核心去计算这个“硬骨头”,这也是有些渲染器加入了动态“分块”的功能,但有时候更需要人工去干预一下——优化场景从根本上解决,或者换个方向渲染等“聪明”的办法……
    3)场景简单但足够“复杂”,比如存在粒子系统(没有预先算好的缓存);特殊的材质(物体类型),比如毛发;复杂的光线,比如焦散……这类场景渲染速度非常感人。
    这样的场景测试出来会发现,有时候两台配置差距很大的机器渲染时间相差无几,也可能渲染时间相差甚巨。
    所以比较理想的测试应该是买几台目标机,加入农场,使用一段时间,用农场的数据来判断,这样才可靠。注意这是一个您的特定生产环境的综合成绩,也是您最需要的测试。当然也可分析出您的农场的可能存在的瓶颈(比如网络带宽、服务器IO性能、集群软件的策略……)
    话说回来,有些渲染器就是这么做的,比如oc就是用一系列比较常见的场景来测试,得出一个总分;
    另一方面cb15、cb20、vray测试、blender测试……作为纯计算力的参考没问题。
    场景够小,不需要考虑io和内存容量的影响,对比下这些渲染器的测试成绩,一般不会出现某一个领先很多,而另外一个渲染器落后不少的情况(因为他们是真的在使用的渲染器,他们的原理差不多,实现路径有区别,或者简化计算的侧重点不同),已经很能说明问题了。
  • diogin 24天前
    引用 85
    镜音リン 发表于 2020-1-31 23:13
    1. IPC。。。说实话cpu发展到现在纯IPC已经很难有提升了,除非哪家能做出来6发射。我觉得zen3可能性不大, ...
    CCX 8 核是把目前的两个 4 核 CCX 合并,IFOP 位宽并不需要改变。当然能翻倍更好了。
    你说的第 4 点,这个确实有可能。我也找了很久 IOD 的细节,找不到。
    第 7 点,1467 是有出处的,详见: https://developer.amd.com/wp-content/resources/56745_0.80.pdf ,2.2.3 部分。
    我也发过帖子:https://www.chiphell.com/thread-2179187-1-1.html
    CPU-Z 的这个 NB 频率,我猜测是不准确的。

  • darklex 24天前
    引用 86
    暗影翔 发表于 2020-1-31 23:27
    大佬的nas挂了几个万兆卡和hba卡啊
    下午上淘宝看了一圈,2140b的价格真好,比7251便宜很多。48个la ...
    一个单口AQ107万兆+两张双口博通57810万兆,还有一张H730阵列卡,还有一张显卡,还有一张采集卡...
    散热用猫头鹰U12S TR4-SP3,没啥声音
  • 楼主 镜音リン 24天前
    引用 87
    mkkkno1 发表于 2020-1-31 23:33
    关于3d的渲染部分我说一下吧,渲染总体的情况是比较复杂的。
    cb20和cb15的测试因为测试时间的问题,不可能 ...
    这个块怎么分也是问题,比如corona或者keyshot这种基本就是整个场景加载好以后随机的对每个像素进行光线追踪吧。这也是比较新的软件的一个趋势,首先它不存在你说的困难块的问题,其次点渲染以后很快就能看个大概。
    的确不会出现领先落后差太多的问题,但是这种跑分至少百分之20-30也有了。出现的原因,就算作为纯算力参考,跑在缓存里和跑在内存里也是两个概念。真要看纯算力直接跑aida64 gpgpu。
  • 才华观光团 24天前
    引用 88
    feiying2222 发表于 2020-1-31 23:30
    不太可能线性2倍关系,边际效益+两者频率差异吧,更别说指令比率问题了...另外,AVX512在哪些个别领域常见 ...
    科学计算领域。 另外前几天OSPRay支持avx512了~x265压制也支持了
    除以2只是简略计算~
    不管用不用的上,如果zen2的tr支持了avx512,哪怕没有intel avx512的性能(和gold 51xx一样砍半的性能也行),也能少许多非议吧。
    反正还是按需购买~
  • 楼主 镜音リン 24天前
    引用 89
    diogin 发表于 2020-1-31 23:40
    CCX 8 核是把目前的两个 4 核 CCX 合并,IFOP 位宽并不需要改变。当然能翻倍更好了。
    你说的第 4 点,这 ...
    每个ccx核心数量加了一倍,带宽自然也要加一倍,否则全部满载的时候可能会拥塞。现在就已经比较紧俏了。不过也有可能不加位宽,频率加成内存2倍。
  • feiying2222 24天前
    引用 90
    才华观光团 发表于 2020-1-31 23:45
    科学计算领域。 另外前几天OSPRay支持avx512了~x265压制也支持了
    除以2只是简略计算~
    x265确实支持了,但是目前AVX512运算占比太低了,速率相对于AVX256版本提升不到5%,频率下降不少,也许以后优化会好点...
  • diogin 24天前
    引用 91
    镜音リン 发表于 2020-1-31 23:48
    每个ccx核心数量加了一倍,带宽自然也要加一倍,否则全部满载的时候可能会拥塞。现在就已经比较紧俏了。不 ...
    Milan 当前已公开的信息是把两个 4 核 CCX 合并成一个 8 核 CCX,而不是两个 CCX 核心数各翻倍。另外发起 IF 通信的是 L3,不是 core。
  • BFG9K 24天前
    引用 92
    镜音リン 发表于 2020-1-31 23:13
    1. IPC。。。说实话cpu发展到现在纯IPC已经很难有提升了,除非哪家能做出来6发射。我觉得zen3可能性不大, ...
    那么suuny cove和willow cove的IPC其实也没有相对skylake有明显的提升吗?
  • 楼主 镜音リン 24天前
    引用 93
    diogin 发表于 2020-1-31 23:55
    Milan 当前已公开的信息是把两个 4 核 CCX 合并成一个 8 核 CCX,而不是两个 CCX 核心数各翻倍。另外发起 ...
    就是这个问题,所以IFOP总线数量也减半。要保持原来的带宽每一条就得加倍啊
  • diogin 24天前
    引用 94
    镜音リン 发表于 2020-2-1 00:04
    就是这个问题,所以IFOP总线数量也减半。要保持原来的带宽每一条就得加倍啊 ...
    Epyc Rome:一个 CCD = 2 个 CCX(4+4),一个 CCD 对应一条 IFOP
    Epyc Milan:一个 CCD = 1 个 CCX(8),一个 CCD 对应一条 IFOP
    IFOP 总线数量怎么会减半?
  • 楼主 镜音リン 24天前
    引用 95
    BFG9K 发表于 2020-2-1 00:02
    那么suuny cove和willow cove的IPC其实也没有相对skylake有明显的提升吗?
    我觉得是,官方宣称18%的spec cpu提升,其中大部分还可能是和zen2一样调高缓存激进度的结果。反而是低功耗的tremont比较有意思。

  • 楼主 镜音リン 24天前
    引用 96
    diogin 发表于 2020-2-1 00:10
    Epyc Rome:一个 CCD = 2 个 CCX(4+4),一个 CCD 对应一条 IFOP
    Epyc Milan:一个 CCD = 1 个 CCX(8),一 ...
    我的锅。。。我想成1个ccx 32B了
  • mkkkno1 24天前
    引用 97
    镜音リン 发表于 2020-1-31 23:41
    这个块怎么分也是问题,比如corona或者keyshot这种基本就是整个场景加载好以后随机的对每个像素进行光线追 ...
    您说的是渐进式渲染吧。路径跟踪算法,降噪功能强大,但是材质和物理属性同样会影响渲染时长,物理规律不可违抗。
    就像在一堆简单运算中出现了一个另类(非常复杂的运算),这一部分必然会耗费更多的时间和资源,其他部分耗费的时间相对比较少,不管您是看得见还是看不见,也就是帧缓存里会不会呈现的问题。
    我举的例子仅仅是例子,不全面也正常。
    我想说明的是您的场景可能是您工作环境中的场景,数据也具有一定的特异性,是适合您的测试数据,那些渲染标准测试可能更“普通”一点。当然渲染的测试结果的可复现性是没有问题的,所以您的场景是工作中占比最多的情况,作为标准完全没问题。
    就像一些同事,总是有自己的习惯,做出来的东西渲染就是慢,刚好这种习惯在某些配置下会快不少,但不代表大家的场景都会在这个配置下快。
    最了解渲染器应该是开发者吧,他们的“优化”也是最好的,所以应该这样说,测试软件提供的场景是开发者们“充分优化”后的理想场景,而我们的场景可能没有优化的那么“好”,如果“合理”一些,应该就能贴近测试软件的测试成绩。
    缓存不是cpu里面的物理缓存,是粒子缓存、或者流体缓存、或者是点缓存、也可能是贴图序列……造成了误解,见谅;
    我说的渲染是一个宽泛的渲染,不是准备好后,一种“存粹”的渲染,可能要计算一下物体的状态什么的,等等,还有些模块是垃圾的单线程操作……怎么说呢,我们一般把整个过程作为一个整体来考虑,而不是最后渲染软件呈现出来的那个时间。
    纯算力我指的是渲染应用中的纯算力;
  • miaoM 24天前
    引用 98
    好鬼专业啊!!!
  • evangelion_air 24天前
    引用 99
    “其实最简单的方法,两家都买来在自己实际应用里跑跑,留比较好的”
    你看看,这是人话嘛?
  • 楼主 镜音リン 24天前
    引用 100
    mkkkno1 发表于 2020-2-1 00:32
    您说的是渐进式渲染吧。路径跟踪算法,降噪功能强大,但是材质和物理属性同样会影响渲染时长,物理规律不 ...
    渐进式渲染一个好处是可以提前看到大概会成什么样,从而人工决定要不要放弃渲染重新设置摄像机。
    目前我的测试里是,不管什么渲染器,随着场景体积增加(或者是每次加载的数据量增加),ryzen相对于EPYC2和intel cpu的优势逐渐转化成劣势。我认为这里明显就有一个缓存激进性因素在里面,少量数据用激进的缓存策略可以全部丢进L3处理,大量数据就得老老实实读内存;缓存不那么激进的cpu小场景可能还是跑在内存里,就比较吃亏。
    而在意渲染时长的情况一般都是大模型大场景。所以我觉得按评测渲染算力来说,我觉得必须用场景(约等于体积)比较大的测试软件才能测出真实的渲染算力。
  • mkkkno1 24天前
    引用 101
    镜音リン 发表于 2020-2-1 01:08
    渐进式渲染一个好处是可以提前看到大概会成什么样,从而人工决定要不要放弃渲染重新设置摄像机。
    目前我 ...
    我理解您的意思了,我们说的应该是不同的方面。
    另外,您说的渐进式渲染,相机是不会动的,因为脚本里规定了相机的运动方式和位置,一般调整的是灯光和材质还有渲染参数(有些时候灯光调整了还不用重新渲染)。渐进式渲染的三种控制模式(或者其他数量的控制模式)的灵活性应该更重要一些,比如时间控制(规定渲染时间)、噪点控制等……
  • 楼主 镜音リン 24天前
    引用 102
    才华观光团 发表于 2020-1-31 19:16
    3647又稳又全方面平衡,当然是个不错的选择。除了大家可能看到skylake(cascadelake)有点烦,在等q3的10 ...
    TR打7折再过几个月可能演变成5折,而且一般都悄无声息,包括显卡也是这样。AMD啥时候能改改定价策略
    家用我觉得不纠结可以减少很多麻烦。随便弄个够用的平台,然后没事干盯一下咸鱼,有好价的收来装个逼就跑多舒服。
    adobe外网测试不少吧,x265 3.2我测试的时候支持avx512的cpu编译开skl优化和avx512,不支持的cpu开avx2。3个intel 24-28核夹在amd 7452和7702中间。
  • 楼主 镜音リン 24天前
    引用 103
    darklex 发表于 2020-1-31 21:10
    目前在用7351+16G 2133x4,我只是拿来做NAS,主要是图128条PCIE通道...性能还可以就是功耗有点大,准备换一 ...
    要通道数用plx卡堆。。。
  • 楼主 镜音リン 24天前
    引用 104
    zhoubi 发表于 2020-1-31 22:12
    3700x锁全核4.3是2240分左右,全默认boost4.1左右差不多就是2100多分。1961差不多是全核3.8左右跑出来的 ...
    新装1803系统,3200内存,跑10次最高分就这样了,渲染的时候4.05左右。之后又找那个卖intel ssd的chh认证商家面基也跑了一遍。不是我的问题了,上2000分估计得高频内存吧。
  • 楼主 镜音リン 24天前
    引用 105
    mkkkno1 发表于 2020-2-1 01:21
    我理解您的意思了,我们说的应该是不同的方面。
    另外,您说的渐进式渲染,相机是不会动的,因为脚本里规 ...
    感觉你比我更了解渲染负载一些
    计划以后会测试ospray,求测试场景用自带的简单场景就行还是必须找别人做的实景模型?

  • xxxyyy 24天前
    引用 106
    对于民用还是太高价了,感觉intel短小精悍,amd大步流星
  • mkkkno1 24天前
    引用 107
    镜音リン 发表于 2020-2-1 02:54
    感觉你比我更了解渲染负载一些
    计划以后会测试ospray,求测试场景用自带的简单场景就行还是必须找 ...
    我知道的也就是皮毛,下面是个人的理解,肯定有很多错误和遗漏:
    1)流程
    我简化一下渲染在我们这里的典型流程(一般启动程序就开始计算时间,发出去是要收费的):
    渲染控制器发现渲染节点空闲并适合本渲染任务——分配渲染任务(一帧或者多帧)给此节点并生成渲染脚本——渲染节点收到服务端的脚本——从服务器下载工程文件(如不下载则跳过)——启动程序和插件(这里可以是工作站模式或者命令模式或者直接是后台服务)——载入工程文件(并不包含各种缓存和贴图,如果是本地渲染则前面整个部分都省略)——计算对象并赋予各种属性(层级关系,uv,贴图,等等)
    这里挑几个典型的对象简单说明一下(很多时候我们忽略了这个过程,包括渲染测试程序,但在实际工作中有些时候这个时间会很长,渲染器应该有记录这个时间scene setup):
    比如有粒子系统,如果没有预先计算好的缓存,就得计算粒子流,得到粒子在这一帧的状态信息,有些复杂的粒子,在加上垃圾的算法,会很慢,如果有动态模糊一类的计算量就更大了;
    再比如各种变形器……有些真就是单线程的,这时内存慢慢增加,如果场景过大,或者有些其他错误,软件崩溃,渲染失败~
    ——构建渲染环境 (如using Embree ray tracing  ,building Embree static trees ,building Embree dynamic geometry trees )内存持续增长,如果场景复杂这个过程会很长,当然也有可能崩溃——灯光的准备(这个有些是单独的)——计算相机的射线、灯光的射线、反射的射线、折射的射线、gi的射线……——加载各种贴图、计算置换等等——开始正式渲染(一般渲染器这时候才开始显示渲染时间,内存占用也比较稳定了)——渲染到帧缓存(内存中)——降噪(有些渲染器在安装的时候会让你下载一个最新的训练库,这是进来很火的,不过计算大部分都交给显卡了,当然纯cpu有些也支持)等后期处理——按通道输出序列帧;进入下一帧渲染(多帧模式)或者从新加载场景渲染另一帧……
    可见真正大家测试的部分其实只是其中的一块,复杂场景会在前面部分耗费很多时间,后期处理和存档也会耗费不少时间(超大分辨率的时候),而且不是单一的计算,是混合的。实际工作的时候这些时间不得不计算在内。
    2)shader
    各种材质因为反射折射的属性不一样,计算的时间差距非常大,就像焦散和散射这两个老大难。要根据自己常见的场景来测试,比如我们有时候做珠宝展示的全息影片,焦散和散射就不能用后期来解决,硬算都是泪。
    这个就不展开讲了,一是复杂;再则自己也是半罐水。
    3)建议
    自己构建场景,平常用得多的特性单独测试或者有针对性的综合测试。既可以针对性优化,遇到具体场景时不同的配置渲染速度心里也有个大致的预期。
    比如:
    反射折射的单独测试(大追踪深度);
    巨大物体数的场景测试;
    单个超细模型的渲染测试:
    3s材质测试;
    多重透明度渲染测试(这个很多软件渲染都慢);
    各种插件的渲染测试;
    ……
    综合测试(什么都有,但是侧重某一个或几个方面)
    顺便提一下,节前一个项目,我的2990wx/128G真香条,一直当渲染器参加公司农场渲染(我很少参加真正的制作了,机器大部分时间闲置或者做低负载的工作——摸鱼),反正没事就把功率计装上了,发现平时渲染时功耗在400w左右,如果反射折射吃力的时候,会飙到500w以上;还有另外一种情况——虽然都是cpu占用100%,有些场景鼠标都移动困难;有些场景我还能玩玩其他软件,这个我没有仔细研究是什么原因。
    非常期待你的后续测试;您所测试的cpu大部分我都没有,羡慕。
  • ssz999 24天前
    引用 108
    镜音リン 发表于 2020-2-1 02:03
    新装1803系统,3200内存,跑10次最高分就这样了,渲染的时候4.05左右。之后又找那个卖intel ssd的c ...
    楼主您好,我记得有说农企家由于win系统CPU核心调用的问题是到1903版解决的,能请您测试下1903版下的农企家的表现吗?
  • qh88511 24天前
    引用 109
    楼主太专业了,自己完全看不懂,
  • Kviiv 24天前
    引用 110
    不明觉厉
  • ExtremeGTR 24天前
    引用 111
    太专业了 只能看懂一点点
  • luckissy 24天前
    引用 112
    企业市场以后基本都是云厂商。AMD核心数量优势在这方面就有巨大优势了。
  • opl90100 24天前
    引用 113
    拜读完大作
    但是更关心你的SSD评测,催更催更催更催更催更催更催更
  • 楼主 镜音リン 24天前
    引用 114
    luckissy 发表于 2020-2-1 09:35
    企业市场以后基本都是云厂商。AMD核心数量优势在这方面就有巨大优势了。
    你是不是对云有什么误解。。。
    给你推荐个文章:
    https://mp.weixin.qq.com/s/BbvQZqjR0nMvrMrjufScug
    就算是云,终究还是拿来给人用的。
    另外谁也没规定一个节点就一颗u,intel虽然单u核少但是可以2s 4s 8s往上堆。结果归根结底还是看实际性价比。
  • 楼主 镜音リン 24天前
    引用 115
    ssz999 发表于 2020-2-1 08:45
    楼主您好,我记得有说农企家由于win系统CPU核心调用的问题是到1903版解决的,能请您测试下1903版下的农企家 ...
    AMD记得说了好几次修复,结果目前调度策略还是从第一个线程开始顺着往后填。3700x应该还能弄到,过几天做个验证测试看看。
  • ssz999 24天前
    引用 116
    镜音リン 发表于 2020-2-1 10:15
    AMD记得说了好几次修复,结果目前调度策略还是从第一个线程开始顺着往后填。3700x应该还能弄到,过几天做 ...
    好的,十分感谢
  • 楼主 镜音リン 24天前
    引用 117
    opl90100 发表于 2020-2-1 10:09
    拜读完大作
    但是更关心你的SSD评测,催更催更催更催更催更催更催更 ...
    不要催更
  • 某些人可真是能找黑点,连先提谁后提谁都能成为黑点……大过年的阶级斗争的弦蹦太紧了不好,该放松点了
  • wesleyxy 24天前
    引用 119
    镜音リン 发表于 2020-1-31 23:25
    还是两年前的味道,不谈技术,光揣测意图。10年以后我还是会说家用版傲腾性能不如1725好哦。
    还有3 ...
    首先我没回复你,我回的是柯基!!!
    谁管你说啥 ,1725就那样,反正你一直都在各大Q群吹1725秒天秒地,管不着!!
    反正有认识的都把双8280M和DCPMM都灭门了,换7702正式版
    如果DIY界有这2句名言的话,我个人觉得肯定是工包兰说的
    BTW:你的主号111alan已经被ban了,你现在用的马甲号就悠着点用啊,反正你战力强悍,可以一天到晚的吹,还是去Q群吹比较好,我知道一个真小白都被你忽悠用了1.2w买2个3.2T的1725 U.2,你是真厉害,他还跟我说这盘企业级的很厉害
  • 楼主 镜音リン 24天前
    引用 120
    mkkkno1 发表于 2020-2-1 06:54
    我知道的也就是皮毛,下面是个人的理解,肯定有很多错误和遗漏:
    1)流程
    估计ospray得等ospray studio release版发布再说了。。。没什么往第三方软件导入模型的经历,之前折腾一些特殊的游戏引擎,有plugin的情况下都费了好久。我先看看ospray提供的范例里有没有好点的。
    对于有的时候100%卡有时候100%不卡的问题,我的理解是100%指的只是每个核心每个时钟周期都有指令在跑,但是①CPI可能也就1附近,cpu核心的发射数(指令并行)不确定有没有用完。②总线拥塞,这个我在用7452和8175同时60开天下3的时候遇到过区别。③内存容量可能不知不觉满了。
  • 楼主 镜音リン 24天前
    引用 121
    wesleyxy 发表于 2020-2-1 10:58
    首先我没回复你,我回的是柯基!!!
    谁管你说啥 ,1725就那样,反正你一直都在各大Q群吹1725秒天秒地, ...
    抱歉,实测哦。不仅是各项理论测试,还有十几项实际测试。只是文的坑没填罢了,测试图零零散散也发了差不多吧。我甚至还做了一个数学模型来跑这个东西。不过你是理解不来什么是实测吧,可能一项测试都看不懂,秒数都不知道数。你只以为别人吹了你不太懂的东西,打败了你当时认为的地表最强ssd,你要反击,多可怜。。。
    1.2w是啥时候买的不敢说呢,2年前?3年前?我倒是认识一个差不多价格买了3片的,2片R0游戏一片系统。我推荐过的人反馈都挺好的,用着的确说快。可惜你,一点知识都没有,自然也就吹不动,也找不到东西吹咯
    可能当年111alan这个号是你举报的吧,我依稀还记得我是二手区卖一片800g的盘忘了是EMC oem的,直接封号感觉也比较奇怪。
    各自行个好呗,以后不要出现在我的贴里,我也不会出现在你的贴里。咱谁都不是善茬。
    还有我以后如果价格合适也是可能会用一段时间AMD EPYC2的哦,不过这和你没有关系,因为黑不着。不对,谁知道黑不黑的着呢。。。有些人,不知道为什么就会招惹上。
  • canonkong 24天前
    引用 122
    镜音リン 发表于 2020-2-1 10:15
    AMD记得说了好几次修复,结果目前调度策略还是从第一个线程开始顺着往后填。3700x应该还能弄到,过几天做 ...
    要测Zen2的最优性能,还是得用win7,上次你发我的文件,测试下来还是win7占优,我觉得win7的调度策略比较适合ryzen。
  • 楼主 镜音リン 24天前
    引用 123
    canonkong 发表于 2020-2-1 11:30
    要测Zen2的最优性能,还是得用win7,上次你发我的文件,测试下来还是win7占优,我觉得win7的调度策略比较 ...
    win7那种策略应该是带超线程的u都比较适合吧。另外没有各种安全补丁和印度人的意大利面代码。。。
    继续求换内存跑3700x 5g位的ycruncher。
  • wesleyxy 24天前
    引用 124
    镜音リン 发表于 2020-2-1 11:15
    抱歉,实测哦。不仅是各项理论测试,还有十几项实际测试。只是文的坑没填罢了,测试图零零散散也发 ...
    哈,那是你自己认为的,都说了,谁管你说啥,管不着
    还是那句,反正你战力强悍,可以一天到晚的吹,你还是去Q群吹比较好
    btw,是我看你的贴,已经觉得搞笑了,槽点太多了,不想说了,也不回你这贴了
  • 楼主 镜音リン 24天前
    引用 125
    wesleyxy 发表于 2020-2-1 11:37
    哈,那是你自己认为的,都说了,谁管你说啥,管不着
    还是那句,反正你战力强悍,可以一天到晚的吹,你还 ...
    管不着就好,建议把你在此贴中的言论清理一下,以示互不侵犯。
    还有能不能别盯着我,我每次上论坛或者那个chh商家的q群你就来,从不迟到,精力比我充沛多了。我好几天没空去q群,基本只在起飞群说了两句话吧,但是一发帖你又来了
  • feiying2222 24天前
    引用 126
    镜音リン 发表于 2020-2-1 11:43
    管不着就好,建议把你在此贴中的言论清理一下,以示互不侵犯。
    还有能不能别盯着我,我每次上论坛 ...
    我还是想不太明白,为啥2020年了还这种线性拓扑哈。
    NPS1 implies the Rome CPU is a single NUMA domain, with all the cores in the socket and all the memory in this one NUMA domain. Memory is interleaved across the eight memory channels. All PCIe devices on the socket belong to this single NUMA domain。
    看这段说明8个通道应该都是交错的,ping pong软件是按照核心id一对一对来测试的吗?
  • kthlon 24天前
    引用 127
    建议楼主多学习学习再开始下结论,多看看科学严谨的测试方法和结论应该是怎么下的,民科不可取
  • kthlon 24天前
    引用 128
    https://www.dell.com/support/art ... performance?lang=en
    送你一点学习资料,找不到资料不等于你脑补的就是对的
  • muyiyuchen 24天前
    引用 129
    大作支持,我记得苏妈在zen2时候不是提过他们用机器学习做了一版分支预测的算法,不知道A家分支预测成功率和I家比怎么样
  • 楼主 镜音リン 24天前
    引用 130
    muyiyuchen 发表于 2020-2-1 12:17
    大作支持,我记得苏妈在zen2时候不是提过他们用机器学习做了一版分支预测的算法,不知道A家分支预测成功率 ...
    TAGE?目前只用在L2 L3上。不过当时玩AMD那几天没想过去下μprof去测。之前LambdaDelta测试的数据和我测试的数据都贴在最后,但是他的分支数量比我的少的多而且没有具体写L2和L3的命中率,所以不知道能不能比。。。
  • Darkabysstower 23天前
    引用 131
    俺们臭玩游戏的看看就好
  • 游客
    132
返回