简单测试一下7840HS的NPU性能

ModerRAS

February 14, 2025

2405 views

No comments

1162 words

默认分类

写在开始

很就之前就一直想试试7840HS里面那个10T的NPU有啥水平了，最近有空折腾了一下，终于折腾成功了。

试验结果

过程懒得写了，直接列结果算了，过程之前被恶心过一次了，这次也不知道怎么的就能成功了，就这样吧。

首先试验模型是Llama-3-8b，试验机器是步睿尔N7P，功率测试使用小米智能插座，接下来是在各种环境下跑出来的性能

NPU跑w4abf16

命令是这一条：python run_awq.py --model_name meta-llama/Meta-Llama-3-8B-Instruct --task decode --target aie --algorithm pergrp
2025-02-14T03:21:36.png
结果如上，解析一下资源占用，这波吃掉9.1G的内存和7.5G的NPU共享内存，功耗在我这个TDP54W的步睿尔上是在57-60W左右，CPU也吃掉了60%多不知道干了什么

CPU跑w4abf16

命令是这一条：python run_awq.py --model_name meta-llama/Meta-Llama-3-8B-Instruct --task decode --target cpu --algorithm pergrp
2025-02-14T03:23:24.png
结果如上，解析一下资源占用，这波吃掉24G内存，不知道怎么吃的，功耗大概73W，很稳定

Ollama用CPU跑Q4

命令是这一条：ollama run llama3 --verbose
2025-02-14T03:25:17.png
随便测试了一下大概是这个速度，太快了没看功耗，应该和CPU的模式差不多。

写在最后

我一开始预期速度就是不高，实际上也确实不高，最开始我用NPU和Ollama对比了性能，我以为这个CPU确实是50T的算力，不过看了看这个优化，可能实际上CPU也没有这么高，但是不该像py这边CPU跑的速度这么慢，可能是这个Ryzen-AI自己的Demo优化并不好吧，这个NPU看起来也不适合跑LLM，等等新的50T再说了。

简单测试一下7840HS的NPU性能