ollama上にgpt-oss:20bをpullして、API経由でOpenCode CLI連携してつかっていたら、ちょうど8000トークンで返答してくれなくなりました。
で、次に質問したら新セッションになっていたことが何度かありました。
gpt-oss:20bのコンテキスト長を調べたら、131kとあり、実質128kはあるとおもうのに、実際使うと8kになる..
ということで、対応方法はパラメータnum_maxを128000に変更しなくてはなりません。
もうollamaでgpt-oss:20bをえらんだら常に128kにしたい場合は、以下のようにします。
自分はDocker Composeでollamaをあげているので、docker compose exec ollama bashを使ってollamaコマンドが使えるようにして以下の操作を行います:
root@399e6d9ea887:/# ollama run gpt-oss:20b
>>> /set parameter num_ctx 128000
Set parameter 'num_ctx' to '128000'
>>> /save gpt-oss:20b # 別の名前にしたい場合は、変えること
Created new model 'gpt-oss:20b'
>>> /show info
Model
architecture gptoss
parameters 20.9B
context length 131072
embedding length 2880
quantization MXFP4
Capabilities
completion
tools
thinking
Parameters
num_ctx 128000
temperature 1
License
Apache License
Version 2.0, January 2004
...
>>> /bye
ご参考まで。
0 件のコメント:
コメントを投稿