现在搞深度学习大家买什么显卡?-显卡

tinybaby 1月前 29

现在算力不够了,之前有4块RTX3090,觉得性价比很好,但现在RTX3090价格贵,还不一定买得到。
RTX2080 Ti估计也买不到,自己也看不上。
不知道同行们现在买什么卡?
有使用华为Atlas的训练卡朋友吗?期待介绍一下,网上几乎看不到完整的测评。
最新回复 (33)
  • ultranick 1月前
    引用 2
    3090 有钱一定买的到   你要几块?
  • 用户 1月前
    引用 3
    除了老黄的卡,Jim Keller说他当CTO的那个公司,tenstorrent下半年可能出产品了,原生支持pytorch,可能值得期待一下。AMD那头连新卡ROCm都没整明白,pytorch最近加了支持但只能用Radeon VII
  • wppkiller 1月前
    引用 4
    华为的那张卡,上次招投标的时候流标了,还是买了3090。。。
  • yiyiyao 1月前
    引用 5
    不知道现在买Titan Xp划算么?价格在6000元以上,比1080ti贵很多。
  • 楼主 tinybaby 1月前
    引用 6
    ultranick 发表于 2021-3-11 10:49
    3090 有钱一定买的到   你要几块?
    已经搞定了。
  • zhuifeng88 1月前
    引用 7
    一般用途的话3090是唯一选择了, 至于atlas...且不谈纯fp16训练到处都是坑, 光生态就谈不上能用了
  • 楼主 tinybaby 1月前
    引用 8
    yiyiyao 发表于 2021-3-11 11:41
    不知道现在买Titan Xp划算么?价格在6000元以上,比1080ti贵很多。
    https://lambdalabs.com/blog/nvidia-rtx-a6000-benchmarks/

    先是追求性能,然后才是性价比。(这句话有点矛盾)
    优先用最新一代架构的。20系的只要有就行(复现一些用老框架的模型用)
  • 楼主 tinybaby 1月前
    引用 9
    zhuifeng88 发表于 2021-3-11 15:37
    一般用途的话3090是唯一选择了, 至于atlas...且不谈纯fp16训练到处都是坑, 光生态就谈不上能用了 ...
    兄台用过atlas?可以多介绍一些信息吗?
    看纸面性能atlas一张能顶2张3090,价格约等于涨价前的3090
    正准备用torch.cuda.amp,利用混合精度加速,不知道有没有什么经验传授给我。
  • kqb981 1月前
    引用 10
    V100 SXM4 x4
    还有 PyTorch 对混合精度加速应该比较完善了,如果只是使用框架不需要关注混合精度的具体实现。
  • yiyiyao 1月前
    引用 11
    tinybaby 发表于 2021-3-11 15:39
    https://lambdalabs.com/blog/nvidia-rtx-a6000-benchmarks/
    谢谢。不知道为什么Titan Xp一手和二手还是那么贵,想买一块,却又没什么性价比。
  • zhuifeng88 1月前
    引用 12
    tinybaby 发表于 2021-3-11 15:43
    兄台用过atlas?可以多介绍一些信息吗?
    看纸面性能atlas一张能顶2张3090,价格约等于涨价前的3090
    用不了torch.cuda下的任何东西, 需要自己改成torch.npu下的对应实现
    loss scale很多地方得自己修才能用
    需要fp32计算的算子会引入贼大的开销, 但这部分显然无法避免(bn之类)
    实际res101训练还没双卡t4快
    能选择3090的情况下选这玩意是纯粹和自己过不去
  • 楼主 tinybaby 1月前
    引用 13
    zhuifeng88 发表于 2021-3-11 15:59
    用不了torch.cuda下的任何东西, 需要自己改成torch.npu下的对应实现
    loss scale很多地方得自己修才能用
    需 ...
    多谢!看来还是老老实实的用3090
  • zhuifeng88 1月前
    引用 14
    tinybaby 发表于 2021-3-11 16:07
    多谢!看来还是老老实实的用3090
    而且不知道你从哪看来的价钱和涨价前的3090差不多 用于训练的300T比A6000贵
  • 楼主 tinybaby 1月前
    引用 15
    zhuifeng88 发表于 2021-3-11 16:10
    而且不知道你从哪看来的价钱和涨价前的3090差不多 用于训练的300T比A6000贵
    我偶尔在一个页面上看到价格1.5w。如果300T比A6000还贵,谁还愿意花高价格买不太成熟的东西。
  • 我也是4张3090,跑seq2seq模型用fp16跑(没有做什么优化,只是把tensor转为fp16,然后开policy = mixed_precision.Policy('mixed_float16')),在tensorflow 2.5 nightly上性能还有点下降。
  • zhuifeng88 1月前
    引用 17
    1.5w你看到的十有八九是300I或者300C, 300T贵在有大规模互联能力, 比较接近老黄sxm卡的定位
  • 楼主 tinybaby 1月前
    引用 18
    kqb981 发表于 2021-3-11 15:45
    V100 SXM4 x4
    还有 PyTorch 对混合精度加速应该比较完善了,如果只是使用框架不需要关注混合精度的具体实 ...
    专业!
    四块间都有nvlink吗?一次可以用四块卡吗?
  • 楼主 tinybaby 1月前
    引用 19
    我輩樹である 发表于 2021-3-11 16:25
    我也是4张3090,跑seq2seq模型用fp16跑(没有做什么优化,只是把tensor转为fp16,然后开policy = mixed_pre ...
    tensorflow不太熟悉。输入不需要转为半精度吧?先前的时候框架自动帮你转吧。
  • tinybaby 发表于 2021-3-11 16:40
    tensorflow不太熟悉。输入不需要转为半精度吧?先前的时候框架自动帮你转吧。 ...
    要显式的转换,否则会报错
    TypeError: Input 'b' of 'MatMul' Op has type float16 that does not match type float32 of argument 'a'.
  • zhuifeng88 1月前
    引用 21
    我輩樹である 发表于 2021-3-11 16:45
    要显式的转换,否则会报错
    TypeError: Input 'b' of 'MatMul' Op has type float16 that does not match ...
    tf2用mixed_float16 policy的时候不需要显式转换
    比如
    ```
    import tensorflow as tf
    import numpy as np
    tf.keras.mixed_precision.experimental.set_policy('mixed_float16')
    i = tf.keras.layers.Input((32, 32, 4))
    o = tf.keras.layers.Conv2D(16, 3, padding='same')(i)
    o = tf.keras.layers.Conv2D(16, 3, padding='same')(o)
    o = tf.keras.layers.Conv2D(16, 3, padding='same')(o)
    m = tf.keras.Model(i, o)
    m.compile(loss='mse', optimizer='adam')
    m.fit(np.random.random((1, 32, 32, 4)), np.zeros((1, 32, 32, 16)))
    for layer in m.layers:
        print(layer.name, layer.input.dtype, layer.output.dtype)
    ```
    ```
    INFO:tensorflow:Mixed precision compatibility check (mixed_float16): OK
    1/1 [==============================] - 3s 3s/step - loss: 0.0878
    input_1 <dtype: 'float32'> <dtype: 'float32'>
    conv2d <dtype: 'float32'> <dtype: 'float16'>
    conv2d_1 <dtype: 'float16'> <dtype: 'float16'>
    conv2d_2 <dtype: 'float16'> <dtype: 'float16'>
    ```

  • deepfishing 1月前
    引用 22
    3090现在跑fp16没有加速好像,并且旧的混合精度加速的东西应该不能跑了,还有就是tf这边稳定版依旧不能很好的支持。
    其他家的训练加速器厂商的对标的应该是农企而不是老黄,R7在矿潮涨价之前只卖3千多。
    据传涡轮3090停产也不知道到底啥情况。某为在忽悠我们试试他们的部署卡,我们日常用的2060涨疯了
  • zhuifeng88 发表于 2021-3-11 16:55
    tf2用mixed_float16 policy的时候不需要显式转换
    比如
    这个函数不支持,tf.matmul,你可以试一下。 我的代码里面没用到这个函数,但是tf自身应该用到了。
  • zhuifeng88 1月前
    引用 24
    我輩樹である 发表于 2021-3-11 17:31
    这个函数不支持,tf.matmul,你可以试一下。 我的代码里面没用到这个函数,但是tf自身应该用到了。 ...
    这个早就支持了
    ```
    ...
    i = tf.keras.layers.Input((4, 4))
    o = tf.keras.layers.Lambda(lambda x: tf.matmul(x, x))(i)
    o = tf.keras.layers.Lambda(lambda x: tf.matmul(x, x))(o)
    m = tf.keras.Model(i, o)
    ...
    ```
    INFO:tensorflow:Mixed precision compatibility check (mixed_float16): OK
    1/1 [==============================] - 1s 707ms/step - loss: 60.6875
    input_1 <dtype: 'float32'> <dtype: 'float32'>
    lambda <dtype: 'float32'> <dtype: 'float16'>
    lambda_1 <dtype: 'float16'> <dtype: 'float16'>
  • zhuifeng88 发表于 2021-3-11 17:44
    这个早就支持了
    ```
    ...
    我这里就是报错。你的tf是什么版本的?
  • zhuifeng88 1月前
    引用 26
    我輩樹である 发表于 2021-3-11 17:47
    我这里就是报错。你的tf是什么版本的?
    手上最老的版本是2.1.0 是没问题的
  • kqb981 1月前
    引用 27
    tinybaby 发表于 2021-3-11 16:26
    专业!
    四块间都有nvlink吗?一次可以用四块卡吗?
    有,但是暂时用不上。
  • zhuifeng88 发表于 2021-3-11 17:52
    手上最老的版本是2.1.0 是没问题的
    最新的呢?这个版本不支持安培吧。好像2.4一下都不支持。我的版本是2.5 nightly,1月3号的。主要是cuda 11,你是自己编译的版本么?
  • zhuifeng88 1月前
    引用 29
    我輩樹である 发表于 2021-3-11 17:53
    最新的呢?这个版本不支持安培吧。好像2.4一下都不支持。我的版本是2.5 nightly,1月3号的。 ...
    2.4.1(自己编译的, cuda11.1)和ngc的20.10-tf2-py3(2.3.1+nv), 21.02-tf2-py3(2.4.0+nv)都是没问题的
  • 楼主 tinybaby 1月前
    引用 30
    deepfishing 发表于 2021-3-11 17:11
    3090现在跑fp16没有加速好像,并且旧的混合精度加速的东西应该不能跑了,还有就是tf这边稳定版依旧不能很好 ...

  • zhuifeng88 1月前
    引用 31
    tinybaby 发表于 2021-3-11 18:34
    30系大幅提升了fp32算力, fp16侧没有同步提升, 所以纸面上fp16峰值算力在30系上相比fp32没有加速, 不像20系那样通常加速明显, 但省显存以及降低显存带宽压力的提升还是在的
    不过话要说回来, 混合精度数据类型转换开销也是存在的, 所以取决于具体框架以及模型, 用混合精度反而更慢是挺常见的情况
  • 楼主 tinybaby 1月前
    引用 32
    deepfishing 发表于 2021-3-11 17:11
    3090现在跑fp16没有加速好像,并且旧的混合精度加速的东西应该不能跑了,还有就是tf这边稳定版依旧不能很好 ...
    他们家的推理加速卡据说某些算子的有性能问题,存在工具转好后还要微调的情况。我道听途说。
  • JUNYI 1月前
    引用 33
    纯粹科研的话没必要追求fp16吧,毕竟强调复现
  • nlnjnj 1月前
    引用 34
    amd的mi100 可以试试 tensorflow 和 pytorch能跑
  • 游客
    35
返回