LLMのコスト管理｜トークン課金の考え方と削減の定石

LLMをAPIで業務に組み込むと、毎月の請求書に「トークン」という見慣れない単位が並びます。試験導入では気にならなかった金額が、本格運用で処理量が増えた途端に跳ね上がる、というのはよくある展開です。この記事では、トークン課金の構造を整理し、見積もり・削減・監視というコスト管理の実務をまとめます。特定の価格は各社で改定が続くため記載せず、価格が変わっても使える考え方に絞ります。

トークン課金の構造

トークンは、モデルがテキストを処理する際の単位で、単語や文字のかけらに相当します。日本語は英語よりも文字数あたりのトークン数が多くなる傾向があり、体感の文章量と請求されるトークン量がずれやすい点は最初に押さえておきましょう。

課金の基本構造はシンプルです。

1回の呼び出しコスト
  = 入力トークン数 x 入力単価 + 出力トークン数 x 出力単価

月額コスト
  = 1回あたりコスト x 呼び出し回数

注意すべき点が3つあります。第一に、入力と出力で単価が異なるのが一般的で、出力のほうが高い設定が多いこと。第二に、会話履歴を毎回送る対話型の実装では、やり取りが長くなるほど入力トークンが雪だるま式に増えること。第三に、モデルによって単価が大きく違うことです。

具体的な単価・課金条件・割引機能は各社が随時改定しています。見積もりの際は必ずOpenAI・Anthropic・Googleなど利用するサービスの公式料金ページで最新の条件を確認してください。

見積もりの立て方

導入前の見積もりは、精密である必要はありませんが、桁を外さないことが重要です。

1
代表的な1回分を実測する
想定するプロンプトと出力の実例を数十件作り、実際のトークン数をAPIのレスポンスやトークン計測ツールで測ります。文字数からの推定より確実です。
2
呼び出し回数を業務量から積算する
1日あたりの処理件数、1件あたりの呼び出し回数(リトライや多段処理も含む)を洗い出します。多段構成では呼び出しが想定の数倍になることが珍しくありません。
3
ピークと成長を織り込む
平均ではなく繁忙期の量で計算し、利用が定着した場合の伸びも見ておきます。従量課金は成功するほど請求が増える構造です。

削減の定石

定石1:タスクに見合ったモデルに落とす

最大の削減余地は、多くの場合モデル選定にあります。分類・抽出・定型の要約といった単純なタスクに最上位モデルを使っているなら、軽量モデルで品質が維持できないかを試します。実務では「まず軽いモデルで処理し、難しいケースだけ上位モデルに回す」段階構成が定番です。品質評価の方法は、モデル選びの記事で扱った盲検比較がそのまま使えます。

定石2:プロンプトと履歴を痩せさせる

毎回送っているシステムプロンプトに、使われていない指示や冗長な例が積もっていないかを点検します。対話型なら、古い履歴を全文ではなく要約で持ち回る設計に変えると、入力トークンの伸びを抑えられます。出力側も「箇条書き3点まで」のように長さを制御すれば、出力単価の高さを直接抑えられます。

定石3:サービスの割引機能を使う

多くの事業者が、繰り返し送る共通部分の処理を割り引くキャッシュ機能や、即時性が不要な処理をまとめて安く処理するバッチ機能を提供しています。共通の長い指示文を使い回す構成や、夜間の一括処理がある業務では、実装をほぼ変えずに効く削減策です。提供条件はサービスごとに異なるため、公式ドキュメントで確認してください。

ヒント

大量の文書を毎回プロンプトに詰め込んでいる場合は、必要な部分だけ検索して渡すRAG構成への変更が、品質とコストの両方に効くことがあります。

監視:削減より先に計測を仕込む

コスト管理で最初にやるべきは削減ではなく計測です。次の3点を導入初期に仕込んでおきます。

請求の上限・予算アラートの設定(事業者側のダッシュボードにある機能を使う)
呼び出しログに、用途・モデル・トークン数を記録する(どの機能がいくら使っているかを分解できるようにする)
週次でのコストレビュー(異常な伸びの早期発見。バグによる無限リトライは事故の定番)

「機能ごとのコストが分からず、削減の議論が精神論になっていた」という話はよくあります。用途タグをログに1つ足すだけで、どこを直せば効くかが一気に見えるようになります。

SaaS企業の開発者

よくある質問

日本語は英語よりコストが高いというのは本当ですか

同じ内容でも日本語のほうがトークン数が多くなる傾向はあります。ただしモデルやトークナイザーによって差は変わるため、実際のプロンプトで計測して確認するのが確実です。

定額のチャットプランとAPIのどちらが安いですか

利用形態によります。人が画面で使う分には定額プランが読みやすく、システム組み込みや大量処理はAPIの従量制が基本です。両者は用途が異なるため、置き換えではなく併用になることが多いです。

コスト削減で品質が下がるのが心配です

評価用のタスクセットを用意し、変更前後で品質を比較してから切り替えてください。計測なしの削減は品質事故のもとです。

想定外の高額請求を防ぐにはどうすればよいですか

予算アラートと利用上限の設定を最初に行ってください。あわせて、リトライ回数の上限や、異常に長い入力を弾くガードを実装側に入れておくと、バグ起因の暴走を防げます。

どれくらいのコストなら適正ですか

一律の基準はなく、その処理が生む価値との比較になります。処理1件あたりのコストを算出し、代替手段(人手・既存システム)の費用と比べるのが判断の出発点です。

まとめ

LLMコスト管理のチェックリスト

入力・出力トークンの実測から1回あたりコストを見積もった
予算アラートと利用上限を設定した
呼び出しログで用途別のコストを分解できるようにした
タスクに見合ったモデルへの使い分けを検討した
プロンプト・履歴のスリム化とキャッシュやバッチ機能の適用を確認した

トークン課金は複雑に見えますが、実体は「量を測って、単価と掛け算する」だけの世界です。計測の仕組みさえ入れてしまえば、コストは管理可能な変数になります。料金体系の変化に振り回されないためにも、数字を自分たちの手元に持つことから始めてください。

LLMのコスト管理｜トークン課金の考え方と削減の定石

トークン課金の構造

見積もりの立て方

削減の定石

定石1:タスクに見合ったモデルに落とす

定石2:プロンプトと履歴を痩せさせる

定石3:サービスの割引機能を使う

監視:削減より先に計測を仕込む

よくある質問

まとめ

出典・参考

関連する記事

主要LLMの選び方｜用途別の考え方と「使い分け」の基準

RAGとは何か｜仕組み・向き不向き・導入判断の考え方

コード生成AIとの付き合い方｜レビュー前提で品質を保つ使い方

トークン課金の構造#

見積もりの立て方#

削減の定石#

定石1:タスクに見合ったモデルに落とす#

定石2:プロンプトと履歴を痩せさせる#

定石3:サービスの割引機能を使う#

監視:削減より先に計測を仕込む#

よくある質問#

まとめ#

出典・参考

関連する記事

主要LLMの選び方｜用途別の考え方と「使い分け」の基準

RAGとは何か｜仕組み・向き不向き・導入判断の考え方

コード生成AIとの付き合い方｜レビュー前提で品質を保つ使い方

トークン課金の構造

見積もりの立て方

削減の定石

定石1:タスクに見合ったモデルに落とす

定石2:プロンプトと履歴を痩せさせる

定石3:サービスの割引機能を使う

監視:削減より先に計測を仕込む

よくある質問

まとめ