作者:
pacino (carry me)
2026-03-07 10:12:44看了這兩串, 充滿了疑問..
想討論一下這個主題: token
(1) 每個LLM 都有自己的max. tokens
這是在training model時就要決定的
(2) max output tokens是讓agent在送給LLM 之前處理用的,避免超過LLM model的max. to
(3) rules 沒被執行,有可能是context可能超過LLM model的max. tokens, agent 主動壓?
這樣不就解釋了兩串原po的問題?
麻煩指正,若我的了解有誤。
作者:
DrTech (竹科管理處網軍研發人員)
2026-03-07 22:26:001. LLM什麼時後會停止回答,跟你設定多長的 max output token無關。2.max output token不是寫在prompt裡面。LLM要停止輸出,不看max output tokens,是看有沒有算出EOS token。與你怎麼設定OS環境變數,是否放在prompt無關。按錯,我不是要噓。完全錯誤。首先,LLM本身不會回傳error或output error。丟太長的文字序列或向量進去,向量長度不合,"應用層程式碼"(例如pytorch)就報error了。LLM根本沒處理,更不會回傳error,。另外,Max output token,不是給agent看的。在預設的情況,agent 做任何選擇,agent輸出什麼文字,根本不看Max output token設定多少。 max output tokens通常是設定在serving service層(例如vllm)跟agent根本無關。簡單話:控制LLM輸出的長度,永遠不是LLM在做。是應用層程式碼在做。agent或LLM不會把關長度的。