現在のOllamaのDockerイメージではROCm 6系が使われておりEvo-X2に載っているRyzen AI Max+ 395 (Strix Halo)との組み合わせが性能面で最適とは言えないらしいことは薄々知っていたが、「まあそこそこ動くし」と手軽さ重視でうちのEVO‑X2ではこれまでollama:rocmで運用していた。
しかし、gpt‑oss:120bを運用していると、単なるチャットでの応答としては差し支えはないものの、Web検索やRAGを絡めたような複雑なことをしたりCLI ツールのcodexなんかを利用しようとするとタイムアウトやエラーが発生して上手く動かないことがしばしばあった。
一方でROCmではなくVulkanを用いたllama.cppのビルドでは結構良い速度で動いてくれるらしい情報を見かけ、llama.cpp公式のDockerイメージの存在に気づいたこともあり、これをOllamaの代替として導入することにしてみたら・・・体感で分かるぐらい速度が改善したし、諸々のエージェントからの利用も上手くいった!
というわけで、思いっきり手のひら返しになっちゃうけど、現状ではllama.cpp serverで運用するのをお勧めしたい。
続きを読む