Anandtech 发布intel 40核 Ice Lake Xeon 8380 评测,迟到两年的产物-CPU

gtx9 16天前 18

早点出对着Rome就好了,可惜.........
https://www.anandtech.com/show/1 ... eon-scalable-review
多线程性能


单线程性能

每线程性能

最新回复 (104)
  • panzerlied 16天前
    引用 2
    出了就好,不过我记得今天好像有比这个更劲爆的传言。
    说的是什么Ice Lake-SP就是intel今年最大的发布了?
  • ambacl 16天前
    引用 3
    转贴机杀疯了,KAG!
  • kqb981 16天前
    引用 4
    今年我入 Ice Lake-SP 只有一种可能 —— 被迫购买 A100 服务器。
    顺便 Ice Lake-SP 的主要优势应该是市场惯性和供货充足…… 吧,供货应该是充足……的吧 ~
  • kqb981 16天前
    引用 5
    panzerlied 发表于 2021-4-6 23:43
    出了就好,不过我记得今天好像有比这个更劲爆的传言。
    说的是什么Ice Lake-SP就是intel今年最大的发布了? ...
    低情商: Alder Lake-S 恐延期至 2022 年;
    高情商: Ice Lake-SP 是今年 Intel 最大的发布;
  • FionaKureii 16天前
    引用 6
    出来即被7002 7003夹击的屑CPU
  • kqb981 16天前
    引用 7
    FionaKureii 发表于 2021-4-6 23:58
    出来即被7002 7003夹击的屑CPU
    8380 的定价是 $8099,比 8280 定价便宜了 20%
  • FionaKureii 16天前
    引用 8
    kqb981 发表于 2021-4-7 00:09
    8380 的定价是 $8099,比 8280 定价便宜了 20%
    感谢E P Y C 让我用上便宜的ICE LAKE SP (大嘘)
  • allensakura 16天前
    引用 9
    终于升级到8通道
    还记得当年一个大神信誓旦旦的说Naples不可能有8通道,把我拉黑了
    ICL-SP的对手应该是Naples才对,而不是ROME更不是MILAN
  • ban2ben 16天前
    引用 10
    kqb981 发表于 2021-4-6 23:56
    低情商: Alder Lake-S 恐延期至 2022 年;
    高情商: Ice Lake-SP 是今年 Intel 最大的发布;
    ...
    6xx mm2当然是最大的发布。
  • jerrytsao 16天前
    引用 11
    allensakura 发表于 2021-4-7 00:27
    终于升级到8通道
    还记得当年一个大神信誓旦旦的说Naples不可能有8通道,把我拉黑了
    ICL-SP的对手应该 ...
    怎么就变成了17年中的Naples...最早牙膏计划17年换Ice Lake其实有点瞎扯了(就那时的10nm工艺进度), 后来对头Rome实际性还大一点
  • allensakura 16天前
    引用 12
    jerrytsao 发表于 2021-4-7 00:39
    怎么就变成了17年中的Naples...最早牙膏计划17年换Ice Lake其实有点瞎扯了(就那时的10nm工艺进度), 后来对 ...
    是晚了点,但SPR-SP的预设对手是Rome,ICL-SP的对手当然就是Naples了嘛
  • ban2ben 16天前
    引用 13
    660mm2真的作为CPU来说很大了.......
    良率挺堪忧的我觉得...
    唯二的槽点
    1.核心还是太少了
    2.用的ICL-U那一代10nm制程还是太差了,换10SF跑高频就好了,换了之后甚至我觉得可以出个28C的HEDT。

    这个IPC提升比MSDT多不少,问题来了,你明明能做出这种东西,为什么非要MSDT给出一坨屎呢。
  • 用户 16天前
    引用 14
    ban2ben 发表于 2021-4-7 00:47
    660mm2真的作为CPU来说很大了.......
    良率挺堪忧的我觉得...
    唯二的槽点
    Rocket lake用更新架构willow cove,从10sf backport到14nm,还比icelake server早发布,啪啪打脸。没准用rocket lake方法做2个16核胶水起来,比这货没准还强一点
  • ban2ben 16天前
    引用 15
    用户 发表于 2021-4-7 00:56
    Rocket lake用更新架构willow cove,从10sf backport到14nm,还比icelake server早发布,啪啪打脸。没准 ...
    换14强不了,14nm 32C功耗只怕270未必压得住喔,BP回去之后还掉了很多IPC。
    还不如10SF重置跑个高频了....
  • 引用 16
    比我想象中的还烂,我觉得5950X开了PBO2都能飞掉28核的Xeon 6330。。。
  • 楼主 gtx9 16天前
    引用 17
    ban2ben 发表于 2021-4-7 01:00
    换14强不了,14nm 32C功耗只怕270未必压得住喔,BP回去之后还掉了很多IPC。
    还不如10SF重置跑个高频了... ...
    那里掉IPC了...intel官方宣称RKL-S和ICL-U都是19%的IPC
    ICX高的应该是1.25MB L2功劳
  • ban2ben 16天前
    引用 18
    gtx9 发表于 2021-4-7 01:11
    那里掉IPC了...intel官方宣称RKL-S和ICL-U都是19%的IPC
    ICX高的应该是1.25MB L2功劳 ...
    你看看tgl......
    不过tgl没有3200aa的测试倒是真的?
  • ban2ben 16天前
    引用 19
    我用第三人称 发表于 2021-4-7 01:07
    比我想象中的还烂,我觉得5950X开了PBO2都能飞掉28核的Xeon 6330。。。
    难吧,要跑4.55ghz全核心才行,6330 28c 2.6g,ipc差不多的情况下要4.55g才稳超。
  • jerrytsao 16天前
    引用 20
    我用第三人称 发表于 2021-4-7 01:07
    比我想象中的还烂,我觉得5950X开了PBO2都能飞掉28核的Xeon 6330。。。
    人家支持6TB, 还秒了你的128GB内存, 这种无意义的对比就不要拿来说了
  • 引用 21
    最为离谱的还是TDP相近的情况下(270W vs 280W)多线程输给了米兰32核(米兰还拖着个100W+的IOD),IPC提升全被这硅渣工艺给吃了。
    Xeon只能看明年的Sapphire Rapids,虽然SPR面对Genoa这种96核+12ch DDR5的怪物肯定是要输的,但是不至于像IceLake-SP这么丢脸。
  • pcgsf22 16天前
    引用 22
    ban2ben 发表于 2021-4-7 00:47
    660mm2真的作为CPU来说很大了.......
    良率挺堪忧的我觉得...
    唯二的槽点
    高频代价是高功耗,服务器功耗还是要控制的
    MSDT没有空间给你塞大缓存
  • kqb981 16天前
    引用 23
    用户 发表于 2021-4-7 00:56
    Rocket lake用更新架构willow cove,从10sf backport到14nm,还比icelake server早发布,啪啪打脸。没准 ...
    Rocket Lake-S 用的是 Sunny Cove 魔改的 Cypress Cove ……
    跟 Willow Cove 关系不大……
    顺便 Willow Cove 的 IPC 比 Sunny Cove 更低~
  • kqb981 16天前
    引用 24
    我用第三人称 发表于 2021-4-7 01:25
    最为离谱的还是TDP相近的情况下(270W vs 280W)多线程输给了米兰32核(米兰还拖着个100W+的IOD),IPC提升全被 ...
    我有种预感,Alder Lake-S 会延期(或者纸面发布 + 长期缺货)。
  • 赫敏 16天前
    引用 25
    其实还行吧。玩不起整机只能在亚麻上玩玩,所以每线程性能还可以
    当然还是那句话7F53快到碗里来
  • 赫敏 16天前
    引用 26
    jerrytsao 发表于 2021-4-6 12:16
    人家支持6TB, 还秒了你的128GB内存, 这种无意义的对比就不要拿来说了
    实际上极少用到这么高内存的。亚麻最主流的配置是每T给2-4g内存,所以32C128g的配置是最流行的搭配之一
  • 赫敏 16天前
    引用 27
    ban2ben 发表于 2021-4-6 11:47
    660mm2真的作为CPU来说很大了.......
    良率挺堪忧的我觉得...
    唯二的槽点
    产能不足咯,之前有说过
  • YsHaNg 16天前
    引用 28
    kqb981 发表于 2021-4-6 15:52
    今年我入 Ice Lake-SP 只有一种可能 —— 被迫购买 A100 服务器。
    顺便 Ice Lake-SP 的主要优势应该是市场 ...
    干脆等下一代直接玩amx新指令
  • ilivy 16天前
    引用 29
    知道打不过,但是为什么要憋这么久
  • kqb981 16天前
    引用 30
    YsHaNg 发表于 2021-4-7 04:46
    干脆等下一代直接玩amx新指令
    项目有刚需,不得不买。其次,到时候矩阵运算肯定用 Hopper 了,或者下下代 GPU。(也有可能试试 XeHPC)
    正经人没人在 Inference 和 Trainning 上用 CPU,包括 Intel~
  • YsHaNg 16天前
    引用 31
    kqb981 发表于 2021-4-7 00:13
    项目有刚需,不得不买。其次,到时候矩阵运算肯定用 Hopper 了,或者下下代 GPU。(也有可能试试 XeHPC)
    ...
    gpu运算灵活性太差 我们没计划做 有外界的人在实现用Matlab的arrayfire库动态切换运行时 我计划用这个加速stencil/卷积算符
  • 用户 16天前
    引用 32
    YsHaNg 发表于 2021-4-7 08:37
    gpu运算灵活性太差 我们没计划做 有外界的人在实现用Matlab的arrayfire库动态切换运行时 我计划用这个加 ...
    pytorch快成软硬件业界共识了
  • YsHaNg 16天前
    引用 33
    用户 发表于 2021-4-7 00:42
    pytorch快成软硬件业界共识了
    是啊 问题power8上面能跑吗
  • kqb981 16天前
    引用 34
    YsHaNg 发表于 2021-4-7 08:37
    gpu运算灵活性太差 我们没计划做 有外界的人在实现用Matlab的arrayfire库动态切换运行时 我计划用这个加 ...
    Stencil 更吃存储而不是计算,真要追求高性能的话显然 GPU 是更好的选择。进一步来讲就 Ice Lake 那个小缓存,大一点的 kernel 分分钟爆掉。
    CPU 对比 GPU 在稠密矩阵乘和视频编码这种应用上差距更小。

    而且如果想实现高性能,AVX-512 的开发成本是比 CUDA 要高的。更不要说还有 AVX-512 降频,Tuning 的时候恶心死你~
  • kqb981 16天前
    引用 35
    YsHaNg 发表于 2021-4-7 08:46
    是啊 问题power8上面能跑吗
    问题也不需要在 power8 上跑啊,现在 power 更多是和 GPU 搭配,最大的卖点就是通过 nvlink 直连 GPU。
  • YsHaNg 16天前
    引用 36
    kqb981 发表于 2021-4-7 00:50
    问题也不需要在 power8 上跑啊,现在 power 更多是和 GPU 搭配,最大的卖点就是通过 nvlink 直连 GPU。 ...
    客户压根没装gpu 你问我谁 埃克森美孚
  • 用户 16天前
    引用 37
    YsHaNg 发表于 2021-4-7 08:46
    是啊 问题power8上面能跑吗
    看看 https://gauravm.gitbook.io/about/blogs/installing-pytorch-and-transformers-on-ibm-powerpc-architecture
  • kqb981 16天前
    引用 38
    用户 发表于 2021-4-7 08:42
    pytorch快成软硬件业界共识了
    PyTorch 加载大量数据(或者说流式加载数据)还做得不行。
    没找到官方接口,得自己手撸~
  • ban2ben 发表于 2021-4-7 00:47
    660mm2真的作为CPU来说很大了.......
    良率挺堪忧的我觉得...
    唯二的槽点
    为啥用老一代10还要拖这么长时间啊?
    这80T被两年前的64T吊打也太惨了。。
  • ONEChoy 16天前
    引用 40
    ban2ben 发表于 2021-4-7 00:37
    6xx mm2当然是最大的发布。
    噗笑了,做块烧饼整片晶圆上,吊打世间万物
  • 用户 16天前
    引用 41
    kqb981 发表于 2021-4-7 08:53
    PyTorch 加载大量数据(或者说流式加载数据)还做得不行。
    没找到官方接口,得自己手撸~ ...
    数据加载是数据库方面的问题。pytorch纯是搞计算的。
  • kqb981 16天前
    引用 42
    YsHaNg 发表于 2021-4-7 08:52
    客户压根没装gpu 你问我谁 埃克森美孚
    那没招了……
    这种情况我也经常遇到,硬着头皮写 AVX-512 ~(Power 这种高端玩意更本没用过)
    大一点的 kernel 想上 3.5-D Blocking 都做不到。
  • kqb981 16天前
    引用 43
    阿诺德施瓦辛格 发表于 2021-4-7 08:54
    为啥用老一代10还要拖这么长时间啊?
    这80T被两年前的64T吊打也太惨了。。 ...
    你知道 Ice Lake-SP 原计划什么时间发布吗?
    最初的规划是两年前发布……
  • YsHaNg 16天前
    引用 44
    kqb981 发表于 2021-4-7 00:47
    Stencil 更吃存储而不是计算,真要追求高性能的话显然 GPU 是更好的选择。进一步来讲就 Ice Lake 那个小缓 ...
    还行啊 avx-512至少比它前辈们好用多了 我写库的 准确的说 编译器/解释器的 写好了一次就可以了 我们的stencil是能执行任意代码的 简单的说 任意文本能parse的语句 甚至能在stencil里面执行c或者提前提供了parser的乱七八糟东西
    真要高性能我得首先去实现mpi协议=。= 在挪鼠标新建文件夹了
  • kqb981 16天前
    引用 45
    用户 发表于 2021-4-7 08:56
    数据加载是数据库方面的问题。pytorch纯是搞计算的。
    ……我现在正发愁手上 2TB 的数据没法一次扔内存里面呢,TensorFlow 好歹有个的数据库~
  • YsHaNg 16天前
    引用 46
    用户 发表于 2021-4-7 00:53
    看看 https://gauravm.gitbook.io/about/blogs/installing-pytorch-and-transformers-on-ibm-powerpc-arc ...
    Interesting 我们正好也有python桥接工具 不过这么说来 我直接翻译成c不更好吗
  • kqb981 16天前
    引用 47
    YsHaNg 发表于 2021-4-7 08:58
    还行啊 avx-512至少比它前辈们好用多了 我写库的 准确的说 编译器/解释器的 写好了一次就可以了 我们的st ...
    大佬你什么时候弄一个专门优化 avx-512 的代码生成工具,造福一下我们这种苦逼搬砖工
    我们之前写 RTM 遇到一个 kernel,平摊到每个核要 4MB,直接 GG。
    最后扔到 V100 上靠 HBM 显存解决战斗,从此对 HBM 充满了好感~
  • YsHaNg 16天前
    引用 48
    kqb981 发表于 2021-4-7 01:02
    大佬你什么时候弄一个专门优化 avx-512 的代码生成工具,造福一下我们这种苦逼搬砖工 ...
    你想怎么优化 写短吗 我们专干这事的 (滑稽
  • zoo 16天前
    引用 49
    不错,搞到D2才发布,超过了农企卖的挺好的一款也搞到D的产品
  • kqb981 16天前
    引用 50
    YsHaNg 发表于 2021-4-7 09:06
    你想怎么优化 写短吗 我们专干这事的 (滑稽
    把串行的 C 语言 (伪代码更好) 直接翻译成优化好的并行 C 代码就行。
    或者类似 openmp/openacc 这种编译指导语句。
  • 用户 16天前
    引用 51
    kqb981 发表于 2021-4-7 09:01
    ……我现在正发愁手上 2TB 的数据没法一次扔内存里面呢,TensorFlow 好歹有个的数据库~ ...
    我几年前就在pytorch issue里问过这个问题,为啥dataloader不直接搞成数据库。人家的说法是nvidia在搞https://github.com/rapidsai/cudf。感觉数据库上支持并发比pytorch并发dataloader更靠谱。
  • kqb981 16天前
    引用 52
    用户 发表于 2021-4-7 09:10
    我几年前就在pytorch issue里这个问题,为啥dataloader不直接搞成数据库。人家的说法是nvidia在搞https:/ ...
    这个 cudf 看起来好像不错的样子,回去研究一下。
    PyTorch 那个 Dataloader (理论上自己实现的话,什么操作都可以做,但大家更喜欢照抄模版) 应该是从内存往显存里面扔数据用的吧……
    现在的问题是把数据从 ssd 批量加载到内存里面……
  • YsHaNg 16天前
    引用 53
    kqb981 发表于 2021-4-7 01:10
    把串行的 C 语言 (伪代码更好) 直接翻译成优化好的并行 C 代码就行。
    或者类似 openmp/openacc 这种编译 ...
    我司专精code golf 23333
    你提的第一个 最沙壁的办法 gcc -march尽量往高里调
    第二个 Conor Hoekstra有在做 不过他最近沉迷于直播
  • BFG9K 16天前
    引用 54
    刚进论坛,不懂这么高端的东西,请问楼主英特尔是又要倒闭了吗?
  • YsHaNg 16天前
    引用 55
    用户 发表于 2021-4-7 01:10
    我几年前就在pytorch issue里问过这个问题,为啥dataloader不直接搞成数据库。人家的说法是nvidia在搞htt ...
    rapids team leader最近在开小差 在帮我们搞讲座
  • kqb981 16天前
    引用 56
    YsHaNg 发表于 2021-4-7 09:17
    我司专精code golf 23333
    你提的第一个 最沙壁的办法 gcc -march尽量往高里调
    第二个 Conor Hoekstra有在 ...
    实现一个能跑的其实我也能做,关键是高性能,至少做到 domain specific 上的高性能。
  • YsHaNg 16天前
    引用 57
    kqb981 发表于 2021-4-7 01:20
    实现一个能跑的其实我也能做,关键是高性能,至少做到 domain specific 上的高性能。 ...
    串行c代码 单一功能的 写成avx-512其实可以直接写汇编码 但是人力耗费巨大 这才是我们开发编译器 parser的意义 你要说低延迟方面的高性能 现有的已经足够好
  • Juzi丶 16天前
    引用 58
    米兰现在都预定到6月了,就一虚空发售,当然有一部分原因就是和罗马同价...
  • kqb981 16天前
    引用 59
    YsHaNg 发表于 2021-4-7 09:25
    串行c代码 单一功能的 写成avx-512其实可以直接写汇编码 但是人力耗费巨大 这才是我们开发编译器 parser ...
    有推荐的开源项目或者 Paper 吗?我学习一下~
  • wqxhrl 15天前
    引用 60
    我用第三人称 发表于 2021-4-7 01:25
    最为离谱的还是TDP相近的情况下(270W vs 280W)多线程输给了米兰32核(米兰还拖着个100W+的IOD),IPC提升全被 ...
    TR那个IOD那么高功耗的吗?我一直以为功耗挺低的。
  • 银色的麦茬 15天前
    引用 61
    kqb981 发表于 2021-4-7 08:13
    项目有刚需,不得不买。其次,到时候矩阵运算肯定用 Hopper 了,或者下下代 GPU。(也有可能试试 XeHPC)
    ...
    AMX只支持BF16和INT8,除了深度学习做其他的事情精度是不是低了些?
  • kqb981 15天前
    引用 62
    银色的麦茬 发表于 2021-4-7 09:55
    AMX只支持BF16和INT8,除了深度学习做其他的事情精度是不是低了些?
    Intel 的现状不是 All in AI 而不得吗
  • YsHaNg 15天前
    引用 63
    kqb981 发表于 2021-4-7 01:36
    有推荐的开源项目或者 Paper 吗?我学习一下~
    paper那我肯定拿不来 毕竟连cs都没学过 代码优化再分发现在有在用的工具是软件模拟硬件pipeline 记录热点profile 用微软的time traveling debugger做基础 热点部分写成c作为编译好的dll调用 我们叫做idiom
    co-dfns是我们另一个项目 目标做成一个compiler 能把动态语句做分析编译然后实时分配到不同的runtime上去
  • YsHaNg 15天前
    引用 64
    银色的麦茬 发表于 2021-4-7 01:55
    AMX只支持BF16和INT8,除了深度学习做其他的事情精度是不是低了些?
    高低位可以crosslane分别去做运算再shuffle回来只要能保证不overflow就可以 一般也就reduction需要注意
  • kqb981 15天前
    引用 65
    YsHaNg 发表于 2021-4-7 09:57
    paper那我肯定拿不来 毕竟连cs都没学过 代码优化再分发现在有在用的工具是软件模拟硬件pipeline 记录热点 ...
    看了一下 co-dfns,这个是做 APL 语言的吧。
    源代码貌似没有全部开源(还有代码风格我看不懂……)
    估计短时间用不上这个……
    其实我想要的编译器是那种包括自动性能优化(不是 -O3 这种低级玩意),支持 C/C++ 就行。不过如果真能做出来震惊业界是肯定的。
  • YsHaNg 15天前
    引用 66
    kqb981 发表于 2021-4-7 02:11
    看了一下 co-dfns,这个是做 APL 语言的吧。
    源代码貌似没有全部开源(还有代码风格我看不懂……)
    完全开源 只不过为了做runtime切换会用到dyalog闭源解释器 已有的毕竟开发了40来年 很多地方接近极限 作者的代码风格我吐槽很久了 他用notepad++写的23333
    -O3不够你用可以更精细调节 就像-march= icelake-client有时候还不如skylake快 因为gcc9对-mprefer参数的一些改变 这个就影响到多大比例展开loop生成avx2运算 好处相当明显 他们那些能做静态分析的可以把很长很复杂的branch调用都生成并行代码 动态语言就只能靠profile局部做
  • 相思风雨中 15天前
    引用 67
    kqb981 发表于 2021-4-6 23:52
    今年我入 Ice Lake-SP 只有一种可能 —— 被迫购买 A100 服务器。
    顺便 Ice Lake-SP 的主要优势应该是市场 ...
    A100不是epyc么
  • kqb981 15天前
    引用 68
    相思风雨中 发表于 2021-4-7 10:28
    A100不是epyc么
    我们因为项目原因,目前只能用 Intel 的 CPU ……
  • kqb981 发表于 2021-4-7 08:58
    你知道 Ice Lake-SP 原计划什么时间发布吗?
    最初的规划是两年前发布……
    所以这硅渣工艺拖那么久怎么回事,又不是10sf
  • jcd_chh 15天前
    引用 70
    wqxhrl 发表于 2021-4-7 09:46
    TR那个IOD那么高功耗的吗?我一直以为功耗挺低的。
    anandtech测的闲置package功耗:7763 99W,75F3 111W;7742 65W,7662 72W。他们认为和IOD有关。毕竟8280和8380才26-27W。
    不过想想把芯片组都吞进去了,Xeon的芯片组TDP还有15-30w左右
  • 赫敏 15天前
    引用 71
    wqxhrl 发表于 2021-4-6 20:46
    TR那个IOD那么高功耗的吗?我一直以为功耗挺低的。
    桌面上1/4规格的都有20w了
  • aibo 15天前
    引用 72
    jcd_chh 发表于 2021-4-7 12:03
    anandtech测的闲置package功耗:7763 99W,75F3 111W;7742 65W,7662 72W。他们认为和IOD有关。毕竟8280 ...
    这也是用太多IF总线的弊端了
    高速互联总线本来就很吃功耗
    做在基板上的功耗开销又要大于牙膏直接做在硅片内部
  • zhangzhonghao 15天前
    引用 73
    转总杀疯了
  • 银色的麦茬 15天前
    引用 74
    kqb981 发表于 2021-4-7 08:47
    Stencil 更吃存储而不是计算,真要追求高性能的话显然 GPU 是更好的选择。进一步来讲就 Ice Lake 那个小缓 ...
    这一代AVX-512不怎么降频了,light 不降频,heavy 80%
  • 银色的麦茬 15天前
    引用 75
    这代最大的问题是频率太低了
  • gtv 15天前
    引用 76
    ICELAKE 只是过渡产物,重点看spr
  • kqb981 15天前
    引用 77
    银色的麦茬 发表于 2021-4-7 13:26
    这一代AVX-512不怎么降频了,light 不降频,heavy 80%
    你好像回复错人了……
  • kqb981 15天前
    引用 78
    gtv 发表于 2021-4-7 14:08
    ICELAKE 只是过渡产物,重点看spr
    所以说 11 代都是过度产品?
    看看 TGL-H 会不会翻车?翻了的话,嘿嘿 —— 也是过度产品~
  • kqb981 15天前
    引用 79
    YsHaNg 发表于 2021-4-7 10:23
    完全开源 只不过为了做runtime切换会用到dyalog闭源解释器 已有的毕竟开发了40来年 很多地方接近极限 作 ...
    我用到的日常调优基本都是 Intel VTune 测的,更多是复杂负载下的异步负载均衡问题……然后就是各种调 Cache 级别的手动优化。
    顺便 V100 ( CUDA 9.0 ) 的 Cache 做的挺不错的,原来需要做 share memory 的地方基本上不需要手动优化了。
    不过 Intel 这面……基本上还是手动,icc 自带优化基本上……不起作用……
  • aibo 15天前
    引用 80
    kqb981 发表于 2021-4-7 14:21
    所以说 11 代都是过度产品?
    看看 TGL-H 会不会翻车?翻了的话,嘿嘿 —— 也是过度产品~ ...
    因为1个是无中生有,还是原本计划在19年出来的东西的退化版
    另一个也是预计19/20年的东西
    当然过不过渡也取决于12代。
    这不12代要延期的说法已经来了么。。。
  • gtv 15天前
    引用 81
    kqb981 发表于 2021-4-7 14:21
    所以说 11 代都是过度产品?
    看看 TGL-H 会不会翻车?翻了的话,嘿嘿 —— 也是过度产品~ ...
    只说xeon的话, CPX 是FACEBOOK 定制版本(支持BF16),ICX 才是正统CLX 接班人,无奈制程delay.
  • kqb981 15天前
    引用 82
    aibo 发表于 2021-4-7 14:34
    因为1个是无中生有,还是原本计划在19年出来的东西的退化版
    另一个也是预计19/20年的东西
    12 代估计是 2021 Q3 第一天 Paper Launch,2022 年 Q1 最后一天 发售,2022 年 Q2 、Q3可以买到手。
  • 楼主 gtx9 15天前
    引用 83
    kqb981 发表于 2021-4-7 14:41
    12 代估计是 2021 Q3 第一天 Paper Launch,2022 年 Q1 最后一天 发售,2022 年 Q2 、Q3可以买到手。 ...
    这倒不用......
    乐观一点21Q3发布,Q4上市
    悲观一点21Q4发布,22Q1上市
  • kqb981 15天前
    引用 84
    gtx9 发表于 2021-4-7 15:50
    这倒不用......
    乐观一点21Q3发布,Q4上市
    Intel 当初吹 Rocket Lake-S 2021 Q1 前半段发售,结果 2021 Q1 最后一天才正式发货。
  • YsHaNg 15天前
    引用 85
    kqb981 发表于 2021-4-7 06:26
    我用到的日常调优基本都是 Intel VTune 测的,更多是复杂负载下的异步负载均衡问题……然后就是各种调 Ca ...
    你指的单次load cache size吗 那恭喜现在更复杂了 l2现在是NINE的 之前还能做的预测dirty data cross lane一些hack现在也不行了 11代上面测单核AVX-512纯vector load + store产生这么个奇怪的pattern
    CPU上面代码运行分支长的多 不像GPU上面cache规整 能pragma shared已经很方便 CPU代码里经常有long jump这样的 除非cache way多到一定程度 可以对整个stack做maskload 当你的操作乱到一定程度了就只好openmp task甚至MPI 隔离的更多 延迟增加 负载更好控制 shared虽然不太好做因为变成了NUMA 但是可以用ghost layer部分实现
    像你之前说到load数据集需要用到数据库的级别 那我完全菜鸡 不知道你用不用kokkos 像oneAPI一样想一统浆糊但是背后势力大得多 oneAPI这个坑实际是苏格兰一个小厂做的 实际就十几个人 一直在延期
  • kqb981 15天前
    引用 86
    YsHaNg 发表于 2021-4-7 16:53
    你指的单次load cache size吗 那恭喜现在更复杂了 l2现在是NINE的 之前还能做的预测dirty data cross lan ...
    OneAPI  竟然是苏格兰小厂做的?19 年我去宣讲会的时候还被吹上天了……
  • YsHaNg 15天前
    引用 87
    kqb981 发表于 2021-4-7 08:59
    OneAPI  竟然是苏格兰小厂做的?19 年我去宣讲会的时候还被吹上天了……
    codeplay啊 规模确实不大 资历也不是很老 本身游戏引擎起家 17年开始崛起了
  • kqb981 15天前
    引用 88
    YsHaNg 发表于 2021-4-7 17:20
    codeplay啊 规模确实不大 资历也不是很老 本身游戏引擎起家 17年开始崛起了
    奇怪的知识又增加了.jpg
  • zoo 15天前
    引用 89
    gtx9 发表于 2021-4-7 15:50
    这倒不用......
    乐观一点21Q3发布,Q4上市
    留给spr的时间窗口不长了
  • zhangzhonghao 15天前
    引用 90
    zoo 发表于 2021-4-7 18:00
    留给spr的时间窗口不长了
    zen4这么快的吗?还以为明年底才有
  • 银色的麦茬 15天前
    引用 91
    kqb981 发表于 2021-4-7 14:19
    你好像回复错人了……
    诶,我看你最后一句不是说AVX512降频嘛,所以回了一下最新的情况
  • YsHaNg 15天前
    引用 92
    银色的麦茬 发表于 2021-4-7 12:04
    诶,我看你最后一句不是说AVX512降频嘛,所以回了一下最新的情况
    现在怎么测出来的?有没有能上手的跑一下https://github.com/travisdowns/avx-turbo测每秒op
  • jerrytsao 15天前
    引用 93
    YsHaNg 发表于 2021-4-7 20:27
    现在怎么测出来的?有没有能上手的跑一下https://github.com/travisdowns/avx-turbo测每秒op ...

  • 堕落的翼 15天前
    引用 94
    ban2ben 发表于 2021-4-7 00:47
    660mm2真的作为CPU来说很大了.......
    良率挺堪忧的我觉得...
    唯二的槽点
    别救了,砍掉重练吧(指ADL
  • kqb981 15天前
    引用 95
    银色的麦茬 发表于 2021-4-7 20:04
    诶,我看你最后一句不是说AVX512降频嘛,所以回了一下最新的情况
    Ice Lake-SP AVX-512 FMA 的数量是 Rocket Lake-S 的两倍 —— 重负载中的重负载~
    我很期待 ICL-SP AVX 时的发热
  • kaiwenwu 15天前
    引用 96
    kqb981 发表于 2021-4-7 00:09
    8380 的定价是 $8099,比 8280 定价便宜了 20%
    这个价格你看看就好了,8280云服务中心付的钱也就三折,8380实际上和8280差不多
  • 用户 15天前
    引用 97
    kaiwenwu 发表于 2021-4-8 02:55
    这个价格你看看就好了,8280云服务中心付的钱也就三折,8380实际上和8280差不多 ...
    难怪那么多大船U,原来是套路
  • kaiwenwu 15天前
    引用 98
    用户 发表于 2021-4-8 02:58
    难怪那么多大船U,原来是套路
  • 赫敏 15天前
    引用 99
    kaiwenwu 发表于 2021-4-7 13:55
    这个价格你看看就好了,8280云服务中心付的钱也就三折,8380实际上和8280差不多 ...
    有谁用8280?亚麻都只买24核的型号
  • YsHaNg 15天前
    引用 100
    kqb981 发表于 2021-4-7 15:26
    Ice Lake-SP AVX-512 FMA 的数量是 Rocket Lake-S 的两倍 —— 重负载中的重负载~
    我很期待 ICL-SP AVX  ...
    如果沿用client的设定 avx512轻重负载一个level 不过server上的512fma是client*2
    顺便 翻到这个 https://nn-512.com/
  • kaiwenwu 15天前
    引用 101
    赫敏 发表于 2021-4-8 03:55
    有谁用8280?亚麻都只买24核的型号
    我怎么知道? 我只是讲一下Intel给的折扣。
  • 2ndWeapon 15天前
    引用 102
    8368比8380少两个核心可频率高了10%际性能只会比8380更高,然而价格只要6743刀,intel蜜汁定价
  • 用户 15天前
    引用 103
    2ndWeapon 发表于 2021-4-8 08:45
    8368比8380少两个核心可频率高了10%际性能只会比8380更高,然而价格只要6743刀,intel蜜汁定价 ...
    8368: 38核2.4~3.4
    8380: 40核2.3~3.4
    还有个8368Q: 38核2.6~3.7,要求上水冷
  • 2ndWeapon 15天前
    引用 104
    用户 发表于 2021-4-8 08:58
    8368: 38核2.4~3.4
    8380: 40核2.3~3.4
    3.4是单核睿频,8368Q 6743刀全核3.3 ,普通8368全核也有3.2 定价更低只要6302刀,8380全核只有3.0,理论上多线程性能只跟普通8368相当,单线程更弱。。。
  • atles 14天前
    引用 105
    panzerlied 发表于 2021-4-6 23:43
    出了就好,不过我记得今天好像有比这个更劲爆的传言。
    说的是什么Ice Lake-SP就是intel今年最大的发布了? ...
    我这边有更劲爆的消息:xeon 3代分为skylake和icelake两个批次的die,21Q2出货的你猜是哪个
  • 游客
    106
返回