Translate

2025年9月10日水曜日

ollama 上で動作させているgpt-oss:20bのコンテキスト長を8kから128kにする方法

ollama上にgpt-oss:20bをpullして、API経由でOpenCode CLI連携してつかっていたら、ちょうど8000トークンで返答してくれなくなりました。

で、次に質問したら新セッションになっていたことが何度かありました。

gpt-oss:20bのコンテキスト長を調べたら、131kとあり、実質128kはあるとおもうのに、実際使うと8kになる..

ということで、対応方法はパラメータnum_max128000に変更しなくてはなりません。

もうollamaでgpt-oss:20bをえらんだら常に128kにしたい場合は、以下のようにします。

自分はDocker Composeでollamaをあげているので、docker compose exec ollama bashを使ってollamaコマンドが使えるようにして以下の操作を行います:

root@399e6d9ea887:/# ollama run gpt-oss:20b
>>> /set parameter num_ctx 128000
Set parameter 'num_ctx' to '128000'
>>> /save gpt-oss:20b # 別の名前にしたい場合は、変えること
Created new model 'gpt-oss:20b'
>>> /show info
  Model
    architecture        gptoss
    parameters          20.9B
    context length      131072
    embedding length    2880
    quantization        MXFP4

  Capabilities
    completion
    tools
    thinking

  Parameters
    num_ctx        128000
    temperature    1

  License
    Apache License
    Version 2.0, January 2004
    ...

>>> /bye


ご参考まで。

0 件のコメント:

ollama 上で動作させているgpt-oss:20bのコンテキスト長を8kから128kにする方法

ollama上にgpt-oss:20bをpullして、API経由でOpenCode CLI連携してつかっていたら、ちょうど8000トークンで返答してくれなくなりました。 で、次に質問したら新セッションになっていたことが何度かありました。 gpt-oss:20bのコンテキスト長を調...