单独发帖讨论一下epyc2 rome的北桥内部互联结构-CPU

镜音リン 24天前 38

https://www.dell.com/support/art ... performance?lang=en
这篇读完了,好像暂时没有遇到我不知道的,也没说北桥内部4个quadrant实际怎么连的。
@feiying2222 交错指的是内存,如果是1个numa域NPS=1的话,不管里面什么拓扑内存都是交错的,就是最普通的多通道内存结构。NPS=4提升性能的原理是每个小节点内部内存只是内部两个通道交错,延迟是最近的,而如果NPS=1的话必须得等所有节点的数据都到齐才算完成一次读取。
我用ping pong软件从第一个核心开始ping到最后一个,然后第二个开始,直到倒数第二个,单路应该和核心命名方式无关了。得出来的延迟是这样的:

由此得出这样的拓扑问题在哪呢?图中内存和核心间延迟全部计算过,和实测一致。每个节点也有favored device。求改正,谢谢。

仔细看了几遍,仍然根本没找到哪个图是测试具体互联结构的。更别说严谨。。。
最新回复 (107)
  • panzerlied 24天前
    引用 2
    怎么还在用win10 1803测试,不都2004了?
    你是打错字了?
  • 楼主 镜音リン 24天前
    引用 3
    panzerlied 发表于 2020-2-1 12:38
    怎么还在用win10 1803测试,不都2004了?
    你是打错字了?
    说测试啊,因为之前测试收集数据的时间比较早,而且目前看不同版本win差别不大,所以基本统一了。我现在还在用1809.
  • 楼主 镜音リン 24天前
    引用 4
    @kthlon
  • feiying2222 24天前
    引用 5
    这个交错可能是我会错英文的意思,但到底是哪个意思。其次,这个图如果是1对1单个测试的,无话可说。
    我就是想不通为啥这样设计,加一条路径就成环了,复杂度不至于倍增吧
    写的时候,是不是参考了这一篇?https://www.anandtech.com/show/14694/amd-rome-epyc-2nd-gen/8
  • kthlon 24天前
    引用 6
    求你了,别拿图2出来丢人了成不,你直接去民科吧发帖说解决了哥德巴赫猜想比较快一点
  • kthlon 24天前
    引用 7
    当然 如果你是要像铁血那种用假图钓个有真图的人回帖,那我也无话可说,拿结果倒推条件的玩法高中老师就不让我用了
  • 楼主 镜音リン 24天前
    引用 8
    kthlon 发表于 2020-2-1 12:59
    求你了,别拿图2出来丢人了成不,你直接去民科吧发帖说解决了哥德巴赫猜想比较快一点 ...
    实际是什么样画个草图也行啊。。。能和我核心互ping测试一致的我只能想到这个结构了。或者测试有什么问题也可以指出。
  • 楼主 镜音リン 24天前
    引用 9
    kthlon 发表于 2020-2-1 13:02
    当然 如果你是要像铁血那种用假图钓个有真图的人回帖,那我也无话可说,拿结果倒推条件的玩法高中老师就不 ...
    或者说你以什么样的理由可以说明这个图有问题。。。不要搞得不明不白的
  • 楼主 镜音リン 24天前
    引用 10
    feiying2222 发表于 2020-2-1 12:47
    这个交错可能是我会错英文的意思,但到底是哪个意思。其次,这个图如果是1对1单个测试的,无话可说。
    我就 ...
    哦对,这个interleave应该还是指的是bank interleave。
    meaning that each module is accessed sequentially for smaller bits of data rather than completely filling up one module before accessing the next one
  • kthlon 24天前
    引用 11
    镜音リン 发表于 2020-2-1 13:13
    或者说你以什么样的理由可以说明这个图有问题。。。不要搞得不明不白的 ...
    你找求秒吧 我没空画 或者你可以去找一下3970X的reviewguide  拿结果倒推条件,然后下个结论,这个方法是很不科学且草率的
  • 楼主 镜音リン 24天前
    引用 12
    feiying2222 发表于 2020-2-1 12:47
    这个交错可能是我会错英文的意思,但到底是哪个意思。其次,这个图如果是1对1单个测试的,无话可说。
    我就 ...
    是的,这个内存缓存测试我也自己测了一遍放出来了。不做ring可能是双向ring比较复杂吧,amd目前没有现成的方案,而且他明显两个节点比另外两个节点远20-25ns(官方承认)。
  • feiying2222 24天前
    引用 13
    镜音リン 发表于 2020-2-1 13:26
    是的,这个内存缓存测试我也自己测了一遍放出来了。不做ring可能是双向ring比较复杂吧,amd目前没有现成 ...
    可能吧,都是硬件设计大神的事情,按理说很成熟的东西了……总体感觉这架构已进步很大了
  • kthlon 24天前
    引用 14
    feiying2222 发表于 2020-2-1 13:39
    可能吧,都是硬件设计大神的事情,按理说很成熟的东西了……总体感觉这架构已进步很大了 ...
    你们都跑偏了
    本来benchmark的作用,就是为了更加仿真模拟实际运行的结果
    结果你们都不相信实际生产力软件跑出来得成绩,跑去相信各种自己写的野鸡测试??
    渲染类测试比较靠谱,就是因为渲染器用的就是实际使用的
    aida64自己都写着他们的测试成绩在不同版本和环境下没有可比性,你们都当看不见吗
  • 楼主 镜音リン 24天前
    引用 15
    kthlon 发表于 2020-2-1 13:25
    你找求秒吧 我没空画 或者你可以去找一下3970X的reviewguide  拿结果倒推条件,然后下个结论,这个方法是 ...
    3970x的review大的几家我全都看过了。内存延迟100ns附近很明确用的是 4 Channel Optimization.
    https://www.youtube.com/watch?v=GPkTDzhq-kg
    这不是拿结论推导条件,你按每个点到每个点算延迟全部符合实际测试,带宽全部是amd公布的数据。而且我也没把话说绝对,我是说按实际测试推导得出,直接认定为绝对错误封贴不太恰当吧。。。
    要是这种推导都算不科学和草率的话,那我买跑的测试里有几个是科学的。。。
    求秒不知道是不是指LambdaDelta,一是他不公开测试工具,二是他的mesh测试成绩和intel公布的数据矛盾(intel双路本地内存89ns,1hop到第二颗cpu内存139ns,按他的测试完全不可能),也不能作为公知处理吧。
  • 楼主 镜音リン 24天前
    引用 16
    kthlon 发表于 2020-2-1 13:43
    你们都跑偏了
    本来benchmark的作用,就是为了更加仿真模拟实际运行的结果
    那么说评测只能跑实际测试,不允许分析架构特性?也不允许有自己的看法?我觉得这样才是不科学吧,vtune那些软件都白给了。。。
    AIDA64是部分测试会更新所以不能跨版本对比,但是很多是可以的。
  • 丝露花雨 24天前
    引用 17
    求秒金言:
    我只想说,如果你一直这样顾左右而言他,我甚至不想回你了。
  • kthlon 24天前
    引用 18
    镜音リン 发表于 2020-2-1 13:44
    3970x的review大的几家我全都看过了。内存延迟100ns附近很明确用的是 4 Channel Optimization.
    https://w ...
    让你看review guide,又不是review
    这么说吧,了解架构的人也没空跑这里来扯这个蛋,这两天都在忙着开会
    你猜测可以,讨论可以,但不是你这种敲砖钉脚的下结论的方式
    这里是讨论区,不是结论区,你喜欢下结论投paper啊
  • 楼主 镜音リン 24天前
    引用 19
    kthlon 发表于 2020-2-1 13:53
    让你看review guide,又不是review
    这么说吧,了解架构的人也没空跑这里来扯这个蛋,这两天都在忙着开会 ...
    说出自己总结,就算敲砖钉脚的下结论?不说出自己总结的东西怎么讨论?我有一种“我怎么说,只要说出来了就是错的”的感觉。
    这么说吧,刚刚把那一堆developer guide都翻一遍了,也没看到具体的北桥内部结构。就算我是做一个模型吧,这个模型的确符合实际测跨核心、缓存和内存的测试结果。采用建模的方式研究问题,不需要一棍子打死吧。
  • 楼主 镜音リン 24天前
    引用 20
    丝露花雨 发表于 2020-2-1 13:53
    求秒金言:
    我只想说,如果你一直这样顾左右而言他,我甚至不想回你了。
    都是跑cpu的,都不是设计cpu的,高姿态是为何
  • 丝露花雨 24天前
    引用 21
    镜音リン 发表于 2020-2-1 14:21
    都是跑cpu的,都不是设计cpu的,高姿态是为何
    他不是给FPGA写程序的么
  • 楼主 镜音リン 24天前
    引用 22
    丝露花雨 发表于 2020-2-1 15:17
    他不是给FPGA写程序的么
    我认识写fpga的也不少啊,其中一个最近还会帮我修个主板。。。
  • 楼主 镜音リン 24天前
    引用 23
    feiying2222 发表于 2020-2-1 13:39
    可能吧,都是硬件设计大神的事情,按理说很成熟的东西了……总体感觉这架构已进步很大了 ...
    这代技能点全点到cpu核心上了吧
  • 丝露花雨 24天前
    引用 24
    镜音リン 发表于 2020-2-1 15:24
    我认识写fpga的也不少啊,其中一个最近还会帮我修个主板。。。
    我来好好学习的
  • 丝露花雨 24天前
    引用 25
    “我8180M打游戏跟9900K没啥区别”
  • 丝露花雨 24天前
    引用 26
    大佬还是别回复我了,我这个小弱崽子
    留个言是来mark一下的 方便我好好学习
  • panzerlied 23天前
    引用 27
    讨论很好,但是我认为3970X/60X是4个node上面各挂了1个CCD,不然你怎么解释以下测试结果?

    我认为片内IF的延迟绝不夸张,虽然还没到忽略的程度,但是三种模式下游戏测试的差距则更为夸张,有兴趣自己去找https://forum.level1techs.com/t/ ... gacy-mode/150797/15看


    如果按照你的拓扑图就是:3970X/60X和2990WX/70WX的逻辑图应该是惊人地类似,有两个node没有近端内存,但是片内每一跳的延迟会好得多,延迟数据几乎体现不出来node区别


    但是如果3970X/60X只开2个node,那就只应该有两种而不是三种典型的测试结果,和你的拓扑图矛盾
    所以不按照你的拓扑图就是各个node相邻两个是平等的,但是对于4node的3970X/60X每个node只开放1个通道


    延迟极端受到功耗影响,目前cbs还不能调rome的很多东西,我也不知道,就这样吧
  • 楼主 镜音リン 23天前
    引用 28
    panzerlied 发表于 2020-2-1 17:35
    讨论很好,但是TR是4个node上面各挂了1个CCD,不然你怎么解释以下测试结果?
    我的意思是,3970x是只有近端2个节点有ccd和内存,远端2个完全作废。3990wx才用上远端两个。
    大概看明白了,legacy就是NPS2,这样延迟就比NPS1低。但是关到12核第二个节点就没有ccx了,可能因为缓存一致性要求减弱所以延迟略有降低?我测试的过程中,虽然经过节点延迟一定增加,但是也不是非常标准的确定延迟的线性总线,所以我在北桥中间3条线用了一个大概5ns范围。。。
    延迟的确也不夸张,但是近的2个和远的2个有20-25ns是官方承认的。另外那货应该不叫if。

  • 楼主 镜音リン 23天前
    引用 29
    panzerlied 发表于 2020-2-1 17:35
    讨论很好,但是我认为3970X/60X是4个node上面各挂了1个CCD,不然你怎么解释以下测试结果?
    如果是4个节点都有一个ccd,那就无法解释那100ns以内的内存延迟了,关12核延迟应该也是降低接近20ns才对,就算考虑到内存超频。
  • Mx.Affinity 23天前
    引用 30
    不懂,来学习
  • xxxyyy 23天前
    引用 31
    都是看需求,没有实际需求的研究没边没际,没定性也没度量
  • diogin 23天前
    引用 32
    发几张图,对比下。
    2933 coupled,power determinism, apbdis=1, soc fixed=p0(aida64 检测的 bclk 有误):


    3200 decoupled, performance determinism, apbdis=0:

    另附按摩店最近出的一篇 HPC 调优文档:https://developer.amd.com/wp-content/resources/56827-1-0.pdf
  • diogin 23天前
    引用 33
    不同 BIOS 参数下 CB r15 跑分成绩也差不少:

  • diogin 23天前
    引用 34
    在 AMD 没有官方公布 ROME IOD 的详细细节前,根据各种测试结果反推出来的只能叫猜测,不能做结论。
    楼主你很多结论都下得特别草率,诸如 ROME SSD 最高 40W IOPS,牙膏厂最高 500W IOPS 等等,你昨天的文章里太多歪屁股的地方。这种明显夸张的带节奏在CHH被质疑是很正常的,大家都不傻。
  • 楼主 镜音リン 23天前
    引用 35
    diogin 发表于 2020-2-1 23:47
    在 AMD 没有官方公布 ROME IOD 的详细细节前,根据各种测试结果反推出来的只能叫猜测,不能做结论。
    楼主 ...
    但是已经公布的部分基本可以做结论了。那4个北桥分2组中间有20-25ns是官方的,内存缓存测试别人也都测过很多遍。自己测出来的也就是那4个节点具体怎么排布这个细节而已。
    定在40万iops左右差不多其实,今天找了一些4.0盘的评测,那些标称75万的盘也就跑1.7G+(42-43万),测试平台还是高频内存。intel一个节点1000万是没毛病的,因为跑的时候我在场所以我就算一颗u 500万,我的大概意思就是intel你可以跑满一个盘,amd不能。
    其实主要是闹事的那货我认识,天天盯人后面找茬那种。
    还有我的3200测试,if也显示1600,不过性能比你的反而差点。

    R15 tdp撞墙

  • diogin 23天前
    引用 36
    镜音リン 发表于 2020-2-1 23:57
    但是已经公布的部分基本可以做结论了。那4个北桥分2组中间有20-25ns是官方的,内存缓存测试别人也都测过很 ...
    5-10ns,20-25ns 这个数据我在一个日站上看到过,不过 AMD 官方的确认我没找到。这俩数据应该是无误的。坦白说 AMD 不公布 IOD 的一些细节,容易让用户雾里看花,不知道原因是什么。
    至于 SSD,合着在理论瓶颈根本没达到的情况下,你就断定它跑不上了?而不是去找原因?这种明显以偏盖全的行为根本不应该是你这种级别的人应该做的。
    关于 3200,我已经说过,AMD 官方文档(应用优化文档,以及我上面刚刚发的 HPC 优化文档)说了 IFOP 最高 1467MHz,如果 MCLK 是 1600MHz 则需要匹配时序,会增加延迟。你拿一个你手头的 150ns 的测试,就说 AMD 内存延迟 150ns,这节奏带得。。。
    影响性能的因素很多,不要随便拿一个测试就当结论,做为一个技术人员,评判东西不要片面,要经得起推敲,不要给人歪屁股的印象。这是我想说的。
  • diogin 23天前
    引用 37
    镜音リン 发表于 2020-2-1 23:57
    但是已经公布的部分基本可以做结论了。那4个北桥分2组中间有20-25ns是官方的,内存缓存测试别人也都测过很 ...
    TDP 撞墙这种事,我说个案例吧,我另一台机(X11SRM-F + XEON-W 2150B),关闭各种程序,只留 CPU-Z,跑一下,4500多分,查看 TDP,显示已经撞墙。跑完后,我先跑一下 AVX2,等它跑完再跑普通测试,显示5700多分,同样,TDP也显示撞墙。
    TDP撞墙这种事,不要太当真。另外 ROME 是 cTDP,像我这颗 7502P,TDP 180W,cTDP 可以调到 200W。
  • 楼主 镜音リン 23天前
    引用 38
    diogin 发表于 2020-2-2 00:11
    5-10ns,20-25ns 这个数据我在一个日站上看到过,不过 AMD 官方的确认我没找到。这俩数据应该是无误的。 ...
    就是说磁盘和文件系统负载并不是按理论带宽算的。比如一颗u 给1线程,不论qd给多少都很难上20万IOPS,按理来说就算ring的32B/cycle都足够多少硬盘用了。
    然而我还有美光2933内存跑的一套内存、缓存和跨核心结果,基本一样。2933内存带宽还低一点。

  • diogin 23天前
    引用 39
    镜音リン 发表于 2020-2-2 00:29
    就是说磁盘和文件系统负载并不是按理论带宽算的。比如一颗u 给1线程,不论qd给多少都很难上20万IOPS,按 ...
    然后你就当结论了?而不是发 bug report 给 AMD 或 SSD 制造商?
  • diogin 23天前
    引用 40
    调优要有建设性,我不信以 AMD 工程师的水平,他们解决不了这个问题。
    很可能一个底层驱动修复个 BUG,或者更新个 SSD 固件就解决了。
  • kthlon 23天前
    引用 41
    diogin 发表于 2020-2-2 00:39
    然后你就当结论了?而不是发 bug report 给 AMD 或 SSD 制造商?
    那不赶紧下结论带节奏还能咋地?
  • 楼主 镜音リン 23天前
    引用 42
    diogin 发表于 2020-2-2 00:39
    然后你就当结论了?而不是发 bug report 给 AMD 或 SSD 制造商?
    因为我测过几十个ssd和至少十几个cpu都是这样的,包括intel平台。你去找浴室这些专门做存储测试的人问也不会回答总线带宽多少iops就能跑多少。磁盘I/O本身就比较复杂,包括各种协议、文件系统之类支出,如果是win系统ntfs,再加上更深的队列,和现在ssd趋势是延迟越来越低,那比图上的linux还要恐怖。所以个人现在的ssd测试cpu都得统一用3.4GHz附近12核以上,大部分QD1,要不然误差很容易超过10%。

  • diogin 23天前
    引用 43
    kthlon 发表于 2020-2-2 00:53
    那不赶紧下结论带节奏还能咋地?
    看错了,板主。。。看成镜音的回复了。。
  • 楼主 镜音リン 23天前
    引用 44
    diogin 发表于 2020-2-2 00:59
    跟 Intel 相差一个数量级的测试结果,你当成结论?佩服。
    所以我的图里intel企业级平台有两个数据,一个同样ssd的数据做对比,一个傲腾内存的数据做上限。
    不放傲腾就公平了么?
  • diogin 23天前
    引用 45
    镜音リン 发表于 2020-2-2 01:02
    所以我的图里intel企业级平台有两个数据,一个同样ssd的数据做对比,一个傲腾内存的数据做上限。
    不放傲 ...
    一个在 AMD 上不能用的 SSD(原因是 Intel 只适配它自己的平台),你放在 Intel 上,然后说 Intel 碾压 AMD?做对比不是这么做的,科学的做法我昨天已经说过了,不再重复。
  • diogin 23天前
    引用 46
    镜音リン 发表于 2020-2-2 00:55
    因为我测过几十个ssd和至少十几个cpu都是这样的,包括intel平台。你去找浴室这些专门做存储测试的人问也不 ...
    如果 AMD 注意到这个问题并修复了这个问题,或者证明你的某些环境配置不合理,你的结论怎么办?推翻?当然,节奏已经带了,推翻就推翻呗。
  • 楼主 镜音リン 23天前
    引用 47
    diogin 发表于 2020-2-2 01:08
    一个在 AMD 上不能用的 SSD(原因是 Intel 只适配它自己的平台),你放在 Intel 上,然后说 Intel 碾压 A ...
    科学的测试是包含了啊,同一块盘3700x和7452都是38万,8700和8280是71万-72万. 这已经足够说明问题了。
    当然科学也代表着有优势项目需要拿出来耍耍,毕竟傲腾也不是个空头。之前看到的演示是纯闪存1000万iops,拿傲腾来演示一下cpu的单盘上限我觉得也不是什么涉及严谨不严谨的原则问题。
  • 楼主 镜音リン 23天前
    引用 48
    diogin 发表于 2020-2-2 01:10
    如果 AMD 注意到这个问题并修复了这个问题,或者证明你的某些环境配置不合理,你的结论怎么办?推翻?当然 ...
    问题是这一般就不是个问题,是个特性。以前测试也遇到过低频e5开多少线程都没救的情况。为什么总是怀疑我amd配置问题。。。3700x我测试了可不止一次,还不是在一个地方。epyc我测过7452和7702,这些都集体出问题?
    只能说要真是个问题,能修早修了。现在amd跑数据库差差不多都是行业普遍认识了。
  • diogin 23天前
    引用 49
    镜音リン 发表于 2020-2-2 01:16
    科学的测试是包含了啊,同一块盘3700x和7452都是38万,8700和8280是71万-72万. 这已经足够说明问题了。
    ...
    我再说一次:这种明显不符合常理的地方,如果你是一个真正的用户,你应该汇报给 AMD,而不是直接下结论说 AMD 的 SSD IOPS 不行。
  • 楼主 镜音リン 23天前
    引用 50
    diogin 发表于 2020-2-2 01:22
    我再说一次:这种明显不符合常理的地方,如果你是一个真正的用户,你应该汇报给 AMD,而不是直接下结论说 ...
    据我测试过几十片盘的经验和我认识的一些跑数据库的人的经验来说,我没觉得哪不合理。评测都见过一些,比如phoronix测的MariaDB就比较符合我这边的结果。
    https://www.phoronix.com/scan.ph ... pyc-7502-7742&num=6
  • diogin 23天前
    引用 51
    镜音リン 发表于 2020-2-2 01:29
    据我测试过几十片盘的经验和我认识的一些跑数据库的人的经验来说,我没觉得哪不合理。评测都见过一些,比 ...
    https://www.storagereview.com/node/7654
    随便找了一个,搭配 Rome,12块Micron 9300 Pro 3.84TB 并行跑,跑出接近 700万 4k 随机 iops,算一下每块 58.33万 iops,qd 不明。
    https://www.micron.com/-/media/c ... uct_brief.pdf?la=en
    镁光官方数据显示这块盘 83.5万 4k 随机 iops,qd=512 的数据。
    先不分析 12 块同时跑(同时 qd 多少未知)会有什么瓶颈,光这个 58w,已经超过你测试过你的上限 40w。
    另外还有一些讯息:
    https://storagereview.com/samsun ... t_for_amd_epyc_7002
    https://www.anandtech.com/show/1 ... amd-rome-processors
    三星1733,4k iops 150w,pcie4,面向 epyc rome,按你的理论,这块 SSD 完全白设计了?
  • 楼主 镜音リン 23天前
    引用 52
    diogin 发表于 2020-2-2 01:59
    https://www.storagereview.com/node/7654
    随便找了一个,搭配 Rome,12块Micron 9300 Pro 3.84TB 并行跑 ...
    linux vdbench,我还没玩过,下次去试试。。。不过已经不是win系统更不是格式化成ntfs,效率自然高,没什么可比性(要不然咋那么多人喷win server)。
    不过标83.5万iops linux只发挥出58万已经是大问题了吧。按这个情况1733、1735 150万iops不一定能发挥到一半。
    我只是发一个预告啊,内容大大超出预期所以不是什么地方都写的很明白,现在都被挖出来了
  • diogin 23天前
    引用 53
    镜音リン 发表于 2020-2-2 02:13
    linux vdbench,我还没玩过,下次去试试。。。不过已经不是win系统更不是格式化成ntfs,效率自然高,没什 ...
    你抓偏数据的能力,我很佩服,特意忽略我前面说的“先不分析 12 块同时跑(同时 qd 多少未知)会有什么瓶颈”,直接抓着 58/83 做文章,还有什么上限40w?早扔脑后啦。
    12块同时跑,跟SSD挂在哪、中断发给哪个ccx,都有高度的关系,而你,就抓住一个58做文章了。
    同时还把 OS 的锅也甩掉啦。
    不得不服。
  • 楼主 镜音リン 23天前
    引用 54
    diogin 发表于 2020-2-2 02:19
    你抓偏数据的能力,我很佩服,特意忽略我前面说的“先不分析 12 块同时跑(同时 qd 多少未知)会有什么瓶 ...
    多块同时跑,我个人的经验是,只要qd和线程给的足,多少块就是多少块的性能。
    个人试过5块同时跑,还是混搭(pm1725a,2个1725,1个pblaze5,一个p3600).人穷没那么多盘。
  • 楼主 镜音リン 23天前
    引用 55
    镜音リン 发表于 2020-2-2 02:38
    要找毛病,一个预告,紧巴巴一两个小时写出来,当然全篇都能找出毛病。
    我总不能一条不适用性说“ 不适合 ...
    既然发了出来,就要扛得住别人的质疑。别人不会在乎你有没有发完,而只会看你当前发出来的东西。没有那么多人有那么多时间反复看你修改的内容的。
    为什么别人跟你“过不去”?原因不正是因为你的文章里有太多误导吗?就你昨天那文章,一堆没见过的号在那里顶,常混CHH的哪个不知道这代表啥。
    我不多说了,最后给你发个数据,你自己看怎么修改你的大作吧。希望你能摆正屁股。
    链接:http://developer.amd.com/wp-content/resources/56367_0.70.pdf
    这还只是上一代 Naples 的数据。

  • diogin 23天前
    引用 56
    diogin 发表于 2020-2-2 02:57
    既然发了出来,就要扛得住别人的质疑。别人不会在乎你有没有发完,而只会看你当前发出来的东西。没有那么 ...
    问题就是,本来给一个dell的大佬看过,嗯没问题,然后发出来,是不是问题都找出来了,还有恶意试图扒黑历史的。。。感觉这两天我就像免费针对性客服一样,当然也有一些人挺通情达理。
    新号估计是混其他区或者不常上的过来围观的吧,毕竟我转发了几个群。
    误导从何而来。。。全篇就讨论几个问题:
    1. 两家核心架构大体有什么差别
    2. 总线拓扑,延迟计算
    3. amd核多intel延迟低完成度高,所以适合。。。不适合。。。
    4. 不要用CB这种激进的缓存直接就塞进去的跑分
    5. 工艺对比,直接发图
    目前基本每一项都有人有疑问,现在基本已经都解答完了,除了版主那个不愿意说的拓扑和这个硬盘的问题。

    另外,图中的测试过于官方,很可能是RAW没格式化直接跑的。部分做评测的都有这个毛病,因为这样跑出来比别人都高。这个你有空余的盘子自己试试就知道了。我记得我上篇ssd评测留下的几个profile都还在可以去下。
    记得我还把我那片1725a带到亡命畜生那里跑过一次,结果和自己跑的一样。
  • 楼主 镜音リン 23天前
    引用 57
    很多硬件和软件,都是需要调优,才能发挥它的最大能力。如何调优,就是资深工程师的价值所在。
    例如你买了台双路 8280L,装了个 CentOS,啥也不调就给开发人员,然后开发人员部署了个 WEB 服务器,满怀豪气地说导量吧!结果一导,大量用户显示无法访问,开发人员骂你这什么鸟服务器?然而实际的服务器负载才0.0几。
    啥原因?8280L 垃圾?根本不是,而是你的软件(应用+内核)根本没调优,能跑个啥量啊。
    同样的道理,你要测试一个硬件平台,测试每个组件设备,如果你不知道瓶颈在哪里,随便一测,就说这个设备就这点水平?真辣鸡。你觉得这样合适么?
    我反复强调的,就是一定要有科学的测试态度,和深入的知识来进行测试。否则,跟上面不懂原因的开发人员的认识又有什么差别。
  • diogin 23天前
    引用 58
    diogin 发表于 2020-2-2 03:21
    很多硬件和软件,都是需要调优,才能发挥它的最大能力。如何调优,就是资深工程师的价值所在。
    例如你买了 ...
    调优啊,我觉得我ssd算比较在行的。去年测傲腾的时候我还去专门关闭一定数量核心和超线程,关闭p状态定量打开c状态来调延迟。AMD平台你以为我没干过这些事。。。老朱和起飞那边AMD是稀缺货,到手肯定好好整的,机会不多。而且那颗7452价格非常好,主板当时只有老版H11SSL我换bios芯片刷成的新版,折腾了好几天,虽然最后还是放弃给别人了。
  • 楼主 镜音リン 23天前
    引用 59
    镜音リン 发表于 2020-2-2 03:25
    调优啊,我觉得我ssd算比较在行的。去年测傲腾的时候我还去专门关闭一定数量核心和超线程,关闭p状态定量 ...
    4K IOPS 测试纯粹就是测底层 4K 大小的 BLOCK 操作性能,跟你上层文件系统毫无关系。
    如果 AMD 能调得出持平甚至超越 spec 的性能,说明这个硬件不是瓶颈。
    普通用户调不到,很大的原因是驱动、系统(内核调度、中断处理、ACPI级别等等)、固件等针对 AMD 的优化程度不足,而这些在 Intel 这边可能都实现了。要不然 Intel 为什么宣传它生态厉害,而 AMD 在 Windows 支持不足的时候只能靠个 Ryzen Power Plan 来提升一些性能。至于 HPET 之类的,例子多了。
    但是这不代表 Intel 的硬件比 AMD 的厉害。
  • diogin 23天前
    引用 60
    diogin 发表于 2020-2-2 03:32
    4K IOPS 测试纯粹就是测底层 4K 大小的 BLOCK 操作性能,跟你上层文件系统毫无关系。
    如果 AMD 能调得出 ...
    不同文件系统的性能区别,现在大把测试可以看。
    所以我不怎么喜欢讨论谁强谁弱,我一般都是讨论谁适合使用适合什么场景。
  • 楼主 镜音リン 23天前
    引用 61
    镜音リン 发表于 2020-2-2 03:43
    不同文件系统的性能区别,现在大把测试可以看。
    所以我不怎么喜欢讨论谁强谁弱,我一般都是讨论谁适合使 ...
    给你科普一下 IOPS 的影响因素:
    The specific number of IOPS possible in any system configuration will vary greatly, depending upon the variables the tester enters into the program, including the balance of read and write operations, the mix of sequential and random access patterns, the number of worker threads and queue depth, as well as the data block sizes.[1] There are other factors which can also affect the IOPS results including the system setup, storage drivers, OS background operations etc.
    如果连 IOPS 跟 Filesystem 无关这点都意识不到,那就别号称在行了。
  • diogin 23天前
    引用 62
    diogin 发表于 2020-2-2 03:51
    给你科普一下 IOPS 的影响因素:
    然而4KB 随机读,qd16x16t,已经确定了,这一段没什么关系吧。
    随便找了篇论文,可以看一下。他的带宽单位是MB/s,换算一下就行。
    https://pdfs.semanticscholar.org ... 9e3b0f636f4ba18.pdf
  • 楼主 镜音リン 23天前
    引用 63
    镜音リン 发表于 2020-2-2 03:55
    然而4KB 随机读,qd16x16t,已经确定了,这一段没什么关系吧。
    随便找了篇论文,可以看一下。他的带宽单 ...
    你得先搞明白什么叫块设备,什么叫数据块,什么叫文件系统,什么叫 page cache 等等。如果连这些都分不出层次,那咱没什么好讨论的了。随便找一本操作系统内核的书,都能让你弄明白。
  • diogin 23天前
    引用 64
    diogin 发表于 2020-2-2 04:02
    你得先搞明白什么叫块设备,什么叫数据块,什么叫文件系统,什么叫 page cache 等等。如果连这些都分不出 ...
    都是基础的基础啦
  • 楼主 镜音リン 23天前
    引用 65
    镜音リン 发表于 2020-2-2 04:07
    都是基础的基础啦
    所以根据这些基础的基础,你得出了 SSD 的 IOPS 跟 FS 有关的结论?
    这是不是说明你的基础还不够牢。。
  • diogin 23天前
    引用 66
    仔细看下 IOPS 相关的知识吧。一个很好的起点是维基:https://en.wikipedia.org/wiki/IOPS
  • diogin 23天前
    引用 67
    diogin 发表于 2020-2-2 04:12
    仔细看下 IOPS 相关的知识吧。一个很好的起点是维基:https://en.wikipedia.org/wiki/IOPS ...
    不用这么麻烦,弄个空的ssd,安全擦除以后iometer直接跑,然后再擦除格式化以后再跑,区别立竿见影。我要装逼的时候干过很多次了。

  • 楼主 镜音リン 23天前
    引用 68
    但是近的2个和远的2个有20-25ns是官方承认的
    你这个是怎么理解的
    AMD原话是这样说的:
    In NPS4, the NUMA domains are reported to software in such a way as it chiplets always access the near (2 channels) DRAM. In NPS1 the 8ch are hardware-interleaved and there is more latency to get to further ones. It varies by pairs of DRAM channels, with the furthest one being ~20-25ns (depending on the various speeds) further away than the nearest.  Generally, the latencies are +~6-8ns, +~8-10ns, +~20-25ns in pairs of channels vs the physically nearest ones.
    也就是说是quadrant到离自己最远的是20-25,怎么理解成的近的两个和远的两个是20-25的。
  • gnattu 23天前
    引用 69
    镜音リン 发表于 2020-2-2 04:17
    不用这么麻烦,弄个空的ssd,安全擦除以后iometer直接跑,然后再擦除格式化以后再跑,区别立竿见影。我要 ...
    因为你测试的东西已经不(仅仅)是ssd的iops了,你把操作系统的caching甚至lazywrite都量了进去,而这些东西已经是比ssd高一层的额外overhead。在优化不当的系统上,这类overhead可能会大幅降低性能,但是这并不意味着硬件无法发挥ssd的全力,如果raw性能很高格式化的文件系统性能很低这只说明这个系统需要优化而不是硬件有瓶颈。
  • gnattu 23天前
    引用 70
    镜音リン 发表于 2020-2-2 03:43
    不同文件系统的性能区别,现在大把测试可以看。
    所以我不怎么喜欢讨论谁强谁弱,我一般都是讨论谁适合使 ...
    不同文件系统的性能区别与SSD自己的IOPS无关,文件系统(系统处理文件系统时)浪费掉的io并不能说成是SSD没有被发挥出来,否则用极为激进内存cache的文件系统就变成让硬件速度变快了
  • gnattu 23天前
    引用 71
    我不是很理解楼主的pingpong测试的结果(因为那个分布我觉得很奇怪),但是从amd官方说法来看,基本上是只有访问离自己最远的那个quadrant的时候才会有显著升高的延迟,离自己较近的两个都明显更低。除非amd说谎,不然楼主你画的这个拓扑图一定是不对的。
  • gnattu 23天前
    引用 72
    学习学习!
  • 459633561 23天前
    引用 73
    楼主顾左右而言他的本领令我颇为佩服,整个回复的中心思想就是“我没错!”
    这样吧,反正你预告也发了,在你回复清楚楼上几位朋友的质疑之前,正文还是好好打磨一下不要发了
    PS:55L某些词语都出来了 你这个也离死不远了
  • kthlon 23天前
    引用 74
    根据测试结果,描述现象,是没有问题的。
    但如果根据现象,在没有去研究本质问题在哪之前就下了一个问题在哪的定性结论,是不妥当的...
    不过这次讨论的氛围挺好的,技术讨论就该这样子- -
    回帖顺当mark
  • inSeek 23天前
    引用 75
    azure Lsv2用的epyc 7551,单路最高标2.7M IOPS
    二代最高0.4M IOPS??
  • 赫敏 23天前
    引用 76
    赫敏 发表于 2020-2-2 12:16
    azure Lsv2用的epyc 7551,单路最高标2.7M IOPS
    二代最高0.4M IOPS??
    MS那个2.7M IOPS是8个NVME设备吧
    LZ那数是单个NVME的
    这个差别要紧吗?
  • inSeek 23天前
    引用 77
    inSeek 发表于 2020-2-2 12:22
    MS那个2.7M IOPS是8个NVME设备吧
    LZ那数是单个NVME的
    不要紧,盘越多越能说明问题
  • panzerlied 23天前
    引用 78
                           
    镜音リン 发表于 2020-2-2 03:14
    问题就是,本来给一个dell的大佬看过,嗯没问题,然后发出来,是不是问题都找出来了,还有恶意试图扒黑历 ...
    上一帖还正准备回复就不行了,这里来继续聊聊渲染的事情。
    先分析一下几个渲染器测试:
    1)CB15


    测试里有反射、模糊反射、反射有菲尼尔、没有折射、没有透明的物体、有全局光照(GI)、有硬阴影和软阴影(可能用了面光源)、可能使用了混合材质、凹凸贴图
    场景比较简单,这是前些年的渲染器的状况,比较基础的材质和灯光,没有复杂纹理和pbr材质,没有线性工作流。

    内存使用状况655.0MB的内存使用率,cpu缓存不懂,也不可能知道cpu缓存的调用机制
    2)CB20


    写到这里发现都使用了全局光照(GI),后面的分析就不列出了
    cb20明显进步了不少,这也是业界整体进步的表现,可能已经使用了pbr和线性工作流,引入了hdr,没有cb15高光溢出的情况,更柔和。
    如果测试的时候细心一点,会发现:右侧玻璃书柜透明部分与左下的沙发部分的渲染明显要比别的地方慢一些,因为这里的材质和模型都更耗费资源。

    这是cb20的内存使用情况,随着材质纹理和场景的复杂程度提升,内存占用达到了2402.4MB


    3)V-Ray



    这两个场景分别是cpu与cpu/gpu混合渲染的场景
    因为是cpu,那只说上一个场景,这里应该用了某种离散分布插件做了草地,使用了景深,有线性雾效,hdr未知,PBR未知,线性工作流肯定是有的,没有开后期处理的智能降噪,噪点蛮多的,这个渲染精度是达不到出图要求的,后面的corona同样也有这样的情况;
    这两个场景应该是vray的典型场景,更偏向于建筑场景一类的制作项目。
    其实vray也是有渐进式渲染的,渐进式渲染也不是那么特别。

    内存使用了1467.2MB,可能是没有用置换和贴图的各向异性,同时用了物体的实例化(关联),占用没有cb20高。
    4)Corona

    像vray的场景吧,说明使用场景差不多,所以Chaos Group(V-Ray的公司)收购了corona。这场景同时又像游戏场景,那必然使用了PBR和线性工作流,那个步兵战车和棚子应该就是bpr材质的代表,其他的自然环境应该和V-ray差不多,也有线性雾效但没有景深,都回避了渲染极慢的透明物体的问题。

    内存占用是不是很惊喜,与V-Ray差不多,1456.3MB。


    5)您的测试场景




    分析一下,模型的面很多、有些金属反射、木有折射、材质很简单、有GI、灯光……
    与实际的工作场景区别挺大的。
    产品渲染我找两张网络图片,如有侵权请告知,秒删


    我建议参照这些渲染测试,再作一些适合您渲染习惯或者专业要求的场景来测试更好一些。
    6)我以前的实际场景测试
    年代久远,文件找不到了。
    来个表格吧(这个表格不够完善,我晚上再重新测试下,重装系统后软件版本已经升级,我考虑用新的软件重新来一次):
    数据来源,自己很久前的测试,这个测试时包含了加载存档时间的,与上面的测试还有点点区别,但应该影响不大,[url=2990WX实用工作机(编辑完毕) https://www.chiphell.com/thread-1903219-1-1.html (出处: Chiphell - 分享与交流用户体验)]链接点我[/url]
    2990wx

    2700x

    cpu
    CB20
    CB15
    V-Ray
    Corona
    实测V-ray
    2990wx
    13719/340.3%
    5420/304.0%
    25701/251.1%
    81334/202.8%
    6/333.3%
    2700x
    4031/100%
    1783/100%
    11946/100%
    401140/100%
    20/100%
  • mkkkno1 22天前
    引用 79
    gnattu 发表于 2020-2-2 06:59
    你这个是怎么理解的
    AMD原话是这样说的:
    你这个是anand上看到的吧,我昨天睡觉之前也翻到了。我又跑了一遍7702,还是和他说的不符。
    我的测试工具在这,你可以自己试试。
    pingpong一次是来回的延迟,要除以2. 另外注意关超线程。
    链接:https://pan.baidu.com/s/1fP3_poRaThqRn5ie36V0QA
    提取码:hcol
  • 楼主 镜音リン 22天前
    引用 80
    mkkkno1 发表于 2020-2-2 17:26
    上一帖还正准备回复就不行了,这里来继续聊聊渲染的事情。
    先分析一下几个渲染器测试:
    这个分析比较赞。
    我的模型是一个设计师直接让我测的,应该是实际设计过程中最经常需要渲染的内容吧,工作的时候不可能还需要兼顾到外界的场景。当然也只是一个方面。我也不可能把所有设计师都问一遍把商业模型都借来,个人评测,能力有限。
    缓存的作用方面还得看hotspot热数据的大小,按常识来说采用渐进式、模型越大,hotspot越大,这个我得看看vtune有没有办法测了。
    我做的渲染测试模型内存占用:

  • 楼主 镜音リン 22天前
    引用 81
    kthlon 发表于 2020-2-2 11:15
    楼主顾左右而言他的本领令我颇为佩服,整个回复的中心思想就是“我没错!”
    这样吧,反正你预告也发了,在 ...
    你的意思是说,即使自己已经做了比较完整全面的测试,讨论的时候不应该坚持自己的观点,一定要有“我错了”?讨论的时候提及别人没考虑到的重点,话题还是原来的话题,这就是“顾左右而言他”?
    我的测试一向以别人没看到的地方为重点。完整文章,可以看看我上几篇ssd、无线网卡之类的测试,这些部分肯定是会非常严谨的说明的。只是一个预告,当然不可能写成几万字所有疑问都解释到。
    不过目前按之前预告的帖子情况看,总有几个人只要不承认AMD“全局的强”,就会直接认为我是立场问题,还有直接人身攻击的,照这个节奏,全文发不发在CHH上再考虑吧。
  • 楼主 镜音リン 22天前
    引用 82
    gnattu 发表于 2020-2-2 07:16
    因为你测试的东西已经不(仅仅)是ssd的iops了,你把操作系统的caching甚至lazywrite都量了进去,而这些 ...
    当然,本身就有overhead,而且overhead与实际硬盘(包括驱动)、平台都有关系。作为用户用的是整个一套下来的性能,所以当然不能直接看RAW性能了事。
    个人能做的优化已经尽力做到了,和别的类似方法的评测也对比过,和别人也交流过。跑的时候是全盘100%LBA随机1000秒,cache的问题可以排除。
  • 楼主 镜音リン 22天前
    引用 83
    gnattu 发表于 2020-2-2 07:46
    我不是很理解楼主的pingpong测试的结果(因为那个分布我觉得很奇怪),但是从amd官方说法来看,基本上是只 ...
    2近1远除非是ring否则不能解释。而且论远近核心的延迟,不论谁测出来的,差距都远不止anand引用的那么小吧。pingpong测试上面给出了,你可以自己跑一下。
  • 楼主 镜音リン 22天前
    引用 84
    镜音リン 发表于 2020-2-2 19:50
    你的意思是说,即使自己已经做了比较完整全面的测试,讨论的时候不应该坚持自己的观点,一定要有“我错了 ...
    比较完整全面的测试
    ????多大自信
    你随便吧 我不管你了
  • kthlon 22天前
    引用 85
    inSeek 发表于 2020-2-2 12:10
    根据测试结果,描述现象,是没有问题的。
    但如果根据现象,在没有去研究本质问题在哪之前就下了一个问题在 ...
    本质方面,总线拓扑我是完全测出来分析出来了,ssd方面我大概解释了一下,而且实际在不同和相同的平台不同系统也测试了几遍。我觉得这种情况下下结论,没什么问题吧。
  • 楼主 镜音リン 22天前
    引用 86
    kthlon 发表于 2020-2-2 20:02
    ????
    理论核心浮点性能,跨核心延迟,内存缓存带宽和延迟,硬盘带宽和延迟,科学计算,渲染5个,视频编码,不同游戏类型5个项目7个(大部分是完整的帧率、帧生成时间散点和平均和标准差统计),外加功耗统计和分析。
    这都不算“相对全面”,那我不知道什么叫全面。
    我只想说,我接受质疑,但是AMD粉丝们也需要接受质疑。
  • 楼主 镜音リン 22天前
    引用 87
    镜音リン 发表于 2020-2-2 20:08
    理论核心浮点性能,跨核心延迟,内存缓存带宽和延迟,硬盘带宽和延迟,科学计算,渲染5个,视频编码,不同 ...
    我再重复一遍
    你测什么我不管
    你的结论太草率 你的结构图有问题 自己搞不清楚就不要瞎XX下结论 测试成绩多少就是多少没问题
    架构搞不清楚搞不懂 不能100%确认 就不要在那似是而非去误导别人
  • kthlon 22天前
    引用 88
    你既然脑补出了个所谓“架构图”,要么拿出可信来源,要么自证确实是正确的
    结果吵了几天,根本没有令人信服的论据
    至于测试,你爱测试什么测什么,我管不着
  • kthlon 22天前
    引用 89
    kthlon 发表于 2020-2-2 20:12
    我再重复一遍
    你测什么我不管
    我的结论里只有“四个节点是怎么连接”这一方面是自己的结论,其他都是官方的。
    这方面我也把实际的测试图放出来了,根据实际测试来说,至少我不觉得可以明确的说有问题。我下的众多结论和这个图里我推导部分有关的也非常少。
    同时按测试图去质疑别人引用的预估,也没什么问题,别人预估的是NPS1还是NPS4都没说。
    我觉得你没必要死守这图就是错的这种理论吧。先入为主也很正常,但是有实测的时候没必要坚持之前的观点另外测什么不管,就不要觉得别人自信也有问题。
    下图是一个核心到一个核心互ping实际测试出来的。每个点代表某个核心到某个核心的延迟。结构图里我推导的部分源自于此。

  • 楼主 镜音リン 22天前
    引用 90
    镜音リン 发表于 2020-2-2 20:19
    我的结论里只有“四个节点是怎么连接”这一方面是自己的结论,其他都是官方的。
    这方面我也把实际的测试 ...
    既然版主觉得是野鸡ping程序,那不知道镜神可否用Intel Memory Latency Checker再测试下,应该可以测试EPYC,测试前记得禁用H/W prefetcher
  • feiying2222 22天前
    引用 91
    feiying2222 发表于 2020-2-2 20:41
    既然版主觉得是野鸡ping程序,那不知道镜神可否用Intel Memory Latency Checker再测试下,应该可以测试EPY ...
    试了一下,3.7加了一个cache to cache,但是只显示一个结果而不是遍历整个核心。正在研究。
  • 楼主 镜音リン 22天前
    引用 92
    镜音リン 发表于 2020-2-2 21:02
    试了一下,3.7加了一个cache to cache,但是只显示一个结果而不是遍历整个核心。正在研究。 ...
    个人觉得是应该能测试出来的,大不了配置为4个numa,另外可以用这个工具和牙膏牌做一个对比
  • feiying2222 22天前
    引用 93
    镜音リン 发表于 2020-2-2 19:40
    这个分析比较赞。
    我的模型是一个设计师直接让我测的,应该是实际设计过程中最经常需要渲染的内容吧,工 ...
    你说的这些已经让我无法理解了,可能他是个设计师而不是真的做cg的,如果我有同事这样做(如果是成手)我会把他骂哭;
    渲染器最大的用户应该是做cg的,测试的却是……
    这点内存其实不算什么,内存占用和模型、材质、灯光、分辨率还有渲染参数都有关,工作中遇见过要用到80-90g内存的场景;
    你的常识其实是错误的,如果有兴趣可以自己尝试了解一下相关的知识;
    自己设定测试条件去测试得到数据,但是这些条件自己都不清楚的情况,官方的是不是会更好一些;
    提醒一下,“渐进式”不是“均匀”的,“渐进式”也会聪明的寻找需要采样的地方,也可以盲目的采样(比如直到所有的噪点都满足一个非常小的阈值),
    真要是均匀的你渲染的时间应该按“天”来计算……
  • mkkkno1 22天前
    引用 94
    feiying2222 发表于 2020-2-2 21:05
    个人觉得是应该能测试出来的,大不了配置为4个numa,另外可以用这个工具和牙膏牌做一个对比 ...
    大概知道了,用mlc --c2c_latency -c2 -w4这种就可以测试指定线程4的数据指定线程2去读。目前手上暂时没有rome,我去找人测试一下。。。
  • 楼主 镜音リン 22天前
    引用 95
    mkkkno1 发表于 2020-2-2 21:14
    你说的这些已经让我无法理解了,可能他是个设计师而不是真的做cg的,如果我有同事这样做(如果是成手)我 ...
    是的,他的确是做工业设计的。实际上出产品效果图都是这样的。最多加个桌子、展台之类背景
    官方也有区分,比如cinebench R15模型小到缓存可以容纳,测试自然不那么科学。corona之类就好很多,和我自己的模型结果接近。甚至R20都比R15好很多。
    你是说我对hotspot的大小和模型大小和渲染方式有关的理解是错误的?我是直接把别人概念图的模型拿来用的,视角都没变,也没什么自设条件。但是这5个渲染测试跑下来大概规律基本就是模型越大的测试L3激进的作用越不明显。这怎么解释,难道数量还不够多。
  • 楼主 镜音リン 22天前
    引用 96
    feiying2222 发表于 2020-2-2 21:05
    个人觉得是应该能测试出来的,大不了配置为4个numa,另外可以用这个工具和牙膏牌做一个对比 ...
    我做了一个批处理,按核心1ping到2 5 17 33 49. 可以测试一下。prefetcher 测试的时候自动关闭,但是最好手动关闭超线程吧。
    链接:https://pan.baidu.com/s/1VWesAvAfQHcJYY9TeOCVpA
    提取码:p639
  • 楼主 镜音リン 22天前
    引用 97
    镜音リン 发表于 2020-2-2 22:07
    我做了一个批处理,按核心1ping到2 5 17 33 49. 可以测试一下。
    链接:https://pan.baidu.com/s/1VWesAvA ...
    嗯,可以逐个测试下。佩服敬业精神,但如果要证明你的拓扑图,那公平实测更重要
    突然想起来,J叔也测试过互联延迟,在这里:https://www.chiphell.com/thread-2165899-3-1.html
  • feiying2222 22天前
    引用 98
    feiying2222 发表于 2020-2-2 22:12
    嗯,可以逐个测试下。佩服敬业精神,但如果要证明你的拓扑图,那公平实测更重要
    突然想起来,J叔也测试过 ...
    看到了,按他的测试结果我的图应该是对的啊,在33 65和97线程有3个跳跃。只是比我的数值相对小一点而已。
  • 楼主 镜音リン 22天前
    引用 99
    话说为什么相邻4个CCX(在一块subslice上的)的核心间延迟会有两种水平(相差大概5ns)呢?
  • 堕落的翼 22天前
    引用 100
    堕落的翼 发表于 2020-2-2 22:25
    话说为什么相邻4个CCX(在一块subslice上的)的核心间延迟会有两种水平(相差大概5ns)呢? ...
    因为测试图里是32核的u,一个节点只有4个ccx. 64核测试时间预计超过24小时所以放弃了,只关成24核做了一次对照验证。
  • 楼主 镜音リン 22天前
    引用 101
    镜音リン 发表于 2020-2-2 22:29
    因为测试图里是32核的u,一个节点只有4个ccx. 64核测试时间预计超过24小时所以放弃了,只关成24核做了一次 ...
    32c ROME应该是每个subslice连接两个CCX吧?关成24核是关成3c/CCX *8嘛
  • 堕落的翼 22天前
    引用 102
    镜音リン 发表于 2020-2-2 22:22
    看到了,按他的测试结果我的图应该是对的啊,在65和97线程有两个跳跃。只是比我的数值相对小一点而已。 ...
    把J叔的测试结果(U0->all)花了下图:

    AMD那个稍微有点离散,但总体感觉是5层,确实和你的结果很接近。
    但牙膏厂比你的高太多了,是什么原因?
  • feiying2222 22天前
    引用 103
    feiying2222 发表于 2020-2-2 23:07
    把J叔的测试结果(U0->all)花了下图:
    5层就很正常了,一层ccx内,一层跨ccx,3层跨节点。
    我发布测试工具发了个贴,他比intel工具测试的也高很多,按这种测试结果官方公布的内存延迟应该是完全不能实现的。。。估计是测试工具的锅吧。

  • 楼主 镜音リン 22天前
    引用 104
    堕落的翼 发表于 2020-2-2 22:43
    32c ROME应该是每个subslice连接两个CCX吧?关成24核是关成3c/CCX *8嘛
    是的。这样测试时间我记得都有半小时。
  • 楼主 镜音リン 22天前
    引用 105
    镜音リン 发表于 2020-2-2 23:13
    5层就很正常了,一层ccx内,一层跨ccx,3层跨节点。
    我发布测试工具发了个贴,他比intel工具测试的也高 ...
    到底哪个工具有问题,等镜神用Intel Memory Latency Checker测试下看看哦
  • feiying2222 22天前
    引用 106
    镜音リン 发表于 2020-2-2 23:16
    是的。这样测试时间我记得都有半小时。
    好慢
  • 堕落的翼 22天前
    引用 107
    feiying2222 发表于 2020-2-2 23:20
    到底哪个工具有问题,等镜神用Intel Memory Latency Checker测试下看看哦
    刚发的那个贴里有intel测试结果,和我的差不多。amd在等人测试数据。
  • 楼主 镜音リン 22天前
    引用 108
    堕落的翼 发表于 2020-2-2 23:26
    好慢
    cache to cache每个核心到每个核心都跑一遍。intel那个工具可以指定核心就快多了
  • 游客
    109
返回