wangbencun

wangbencun

0个粉丝

1

问答

0

专栏

0

资料

wangbencun  发布于  2025-03-10 20:27:55
采纳率 0%
1个问答
250

3403 nnn/svp npu相比一些2T算力的平台耗时为什么没有什么明显优势

     

3403默认配置下,实测nnn的fp16和int8推理耗时非常接近,为什么相比一些2T算力的平台耗时没有什么明显优势?nnn的fp16模型和svp nnn的int8模型耗时也差的很少,有什么办法可以提速么?

我来回答
回答2个
时间排序
认可量排序

温暖的抱抱MT

0个粉丝

0

问答

0

专栏

0

资料

温暖的抱抱MT 2025-03-17 17:02:58
认可0

3403 的 FP16 和 INT8 耗时相近,可能与 计算单元优化、内存带宽瓶颈、指令调度、INT8 量化策略 相关。要提升推理速度,可以:
确保完整 INT8 量化(避免 FP16 计算混入)。
调整 batch size 充分利用计算资源。
优化算子融合 降低内存访问。
启用高性能模式 提升计算能力。
你可以先用 NNN 提供的 profiling 工具查看算子执行时间,再针对慢速部分优化!

david

12个粉丝

43

问答

28

专栏

58

资料

david 2025-03-17 20:58:51
认可0

具体是多少? 有个地方要注意一下,内存copy. 默认内存拷贝函数是很耗时的。可以考虑用dma改写拷贝函数

或将文件直接拖到这里
悬赏:
E币
网盘
* 网盘链接:
* 提取码:
悬赏:
E币

Markdown 语法

  • 加粗**内容**
  • 斜体*内容*
  • 删除线~~内容~~
  • 引用> 引用内容
  • 代码`代码`
  • 代码块```编程语言↵代码```
  • 链接[链接标题](url)
  • 无序列表- 内容
  • 有序列表1. 内容
  • 缩进内容
  • 图片![alt](url)
+ 添加网盘链接/附件

Markdown 语法

  • 加粗**内容**
  • 斜体*内容*
  • 删除线~~内容~~
  • 引用> 引用内容
  • 代码`代码`
  • 代码块```编程语言↵代码```
  • 链接[链接标题](url)
  • 无序列表- 内容
  • 有序列表1. 内容
  • 缩进内容
  • 图片![alt](url)
相关问答
无更多相似问答 去提问
举报反馈

举报类型

  • 内容涉黄/赌/毒
  • 内容侵权/抄袭
  • 政治相关
  • 涉嫌广告
  • 侮辱谩骂
  • 其他

详细说明

易百纳技术社区