less than 1 minute read

panic: failed to decode batch: could not find a kv cache slot (cache: 2560 batch: 512)

とりあえず、ollamaがこれを出している事があるので、調査する。なおWindows11.

$ ollama --version
ollama version is 0.9.0

panic: failed to decode batch: could not find a kv cache slot (length: 6656) · Issue #10127 · ollama/ollama - https://github.com/ollama/ollama/issues/10127

こんなissueは発見。

感覚的には https://github.com/ollama/ollama/issues/10127#issuecomment-2845358163 これが近いかなー。何らかのリクエストが重なっちゃっているときとかかも。

workaroundはとりま OLLAMA_NUM_PARALLEL=1 かー

failed to decode batch: could not find a kv cache slot · Issue #7930 · ollama/ollama - https://github.com/ollama/ollama/issues/7930

も同じような結末。

KV Cache関連では
How can I set the quantization type for the K/V cache? - https://github.com/ollama/ollama/blob/main/docs/faq.md#how-can-i-enable-flash-attention

これも役に立つかもしれない。
KEEP_ALILVEを戻して、ちょっとretry増やしたので、様子を見てエラーが出ているようなら、

  • OLLAMA_NUM_PARALLEL=1

  • OLLAMA_KV_CACHE_TYPE=q8_0

の順で試そうかな。と思ったら、早速エラー出てるなー

メモリはあるんでな(偉そう

VRAM拡張もやっとくか。

&少なくともOLLAMA_NUM_PARALLELでは私の場合は解決に至らず、というか、このエラーが原因ではなく、何故か5minでAPIが終わってそう。挙動を変える程度の影響はある、そもそも本当に足りてない。

けど、5minとは直接は関係ない、あたりかなあ。

Additional precautions against Gemma3 memory leaks on Windows 10 and Ollama 0.6.6? · Issue #10372 · ollama/ollama - https://github.com/ollama/ollama/issues/10372

も類似の話題。

ちなみに、もともとの調査理由は、n8nで組んでいる似非DeepResearchがどうしてもエラー(timeoutっぽい)ので失敗し続けるので、どこかなあ、というもの。

ollamaが上記エラーで失敗していることもあるけど、そこはretryのうちに通っていることもありそうで、それ以上に5mで生成が止まって失敗になるのが原因としては大きそう。

n8nからの呼び出しじゃなくて、生呼び出しで確認したほうがいいかなあ。。
packet dump とかも本当は正攻法(?)だけどめんどいし、手元で書いていったほうがいいかなあ。

というなう。

n8nの方では、そもそも以前からある問題っぽさはある

Updated: