写在开始

很就之前就一直想试试7840HS里面那个10T的NPU有啥水平了,最近有空折腾了一下,终于折腾成功了。

试验结果

过程懒得写了,直接列结果算了,过程之前被恶心过一次了,这次也不知道怎么的就能成功了,就这样吧。

首先试验模型是Llama-3-8b,试验机器是步睿尔N7P,功率测试使用小米智能插座,接下来是在各种环境下跑出来的性能

NPU跑w4abf16

命令是这一条:python run_awq.py --model_name meta-llama/Meta-Llama-3-8B-Instruct --task decode --target aie --algorithm pergrp
2025-02-14T03:21:36.png
结果如上,解析一下资源占用,这波吃掉9.1G的内存和7.5G的NPU共享内存,功耗在我这个TDP54W的步睿尔上是在57-60W左右,CPU也吃掉了60%多不知道干了什么

CPU跑w4abf16

命令是这一条:python run_awq.py --model_name meta-llama/Meta-Llama-3-8B-Instruct --task decode --target cpu --algorithm pergrp
2025-02-14T03:23:24.png
结果如上,解析一下资源占用,这波吃掉24G内存,不知道怎么吃的,功耗大概73W,很稳定

Ollama用CPU跑Q4

命令是这一条:ollama run llama3 --verbose
2025-02-14T03:25:17.png
随便测试了一下大概是这个速度,太快了没看功耗,应该和CPU的模式差不多。

写在最后

我一开始预期速度就是不高,实际上也确实不高,最开始我用NPU和Ollama对比了性能,我以为这个CPU确实是50T的算力,不过看了看这个优化,可能实际上CPU也没有这么高,但是不该像py这边CPU跑的速度这么慢,可能是这个Ryzen-AI自己的Demo优化并不好吧,这个NPU看起来也不适合跑LLM,等等新的50T再说了。

Last modification:February 14, 2025
如果觉得我的文章对你有用,请随意赞赏