LLMのコスト管理|トークン課金の考え方と削減の定石

LLMをAPIで業務に組み込むと、毎月の請求書に「トークン」という見慣れない単位が並びます。試験導入では気にならなかった金額が、本格運用で処理量が増えた途端に跳ね上がる、というのはよくある展開です。この記事では、トークン課金の構造を整理し、見積もり・削減・監視というコスト管理の実務をまとめます。特定の価格は各社で改定が続くため記載せず、価格が変わっても使える考え方に絞ります。
トークン課金の構造
トークンは、モデルがテキストを処理する際の単位で、単語や文字のかけらに相当します。日本語は英語よりも文字数あたりのトークン数が多くなる傾向があり、体感の文章量と請求されるトークン量がずれやすい点は最初に押さえておきましょう。
課金の基本構造はシンプルです。
1回の呼び出しコスト
= 入力トークン数 x 入力単価 + 出力トークン数 x 出力単価
月額コスト
= 1回あたりコスト x 呼び出し回数
注意すべき点が3つあります。第一に、入力と出力で単価が異なるのが一般的で、出力のほうが高い設定が多いこと。第二に、会話履歴を毎回送る対話型の実装では、やり取りが長くなるほど入力トークンが雪だるま式に増えること。第三に、モデルによって単価が大きく違うことです。
具体的な単価・課金条件・割引機能は各社が随時改定しています。見積もりの際は必ずOpenAI・Anthropic・Googleなど利用するサービスの公式料金ページで最新の条件を確認してください。
見積もりの立て方
導入前の見積もりは、精密である必要はありませんが、桁を外さないことが重要です。
- 1
代表的な1回分を実測する
想定するプロンプトと出力の実例を数十件作り、実際のトークン数をAPIのレスポンスやトークン計測ツールで測ります。文字数からの推定より確実です。 - 2
呼び出し回数を業務量から積算する
1日あたりの処理件数、1件あたりの呼び出し回数(リトライや多段処理も含む)を洗い出します。多段構成では呼び出しが想定の数倍になることが珍しくありません。 - 3
ピークと成長を織り込む
平均ではなく繁忙期の量で計算し、利用が定着した場合の伸びも見ておきます。従量課金は成功するほど請求が増える構造です。
削減の定石
定石1:タスクに見合ったモデルに落とす
最大の削減余地は、多くの場合モデル選定にあります。分類・抽出・定型の要約といった単純なタスクに最上位モデルを使っているなら、軽量モデルで品質が維持できないかを試します。実務では「まず軽いモデルで処理し、難しいケースだけ上位モデルに回す」段階構成が定番です。品質評価の方法は、モデル選びの記事で扱った盲検比較がそのまま使えます。
あわせて読みたい
主要LLMの選び方|用途別の考え方と「使い分け」の基準
定石2:プロンプトと履歴を痩せさせる
毎回送っているシステムプロンプトに、使われていない指示や冗長な例が積もっていないかを点検します。対話型なら、古い履歴を全文ではなく要約で持ち回る設計に変えると、入力トークンの伸びを抑えられます。出力側も「箇条書き3点まで」のように長さを制御すれば、出力単価の高さを直接抑えられます。
定石3:サービスの割引機能を使う
多くの事業者が、繰り返し送る共通部分の処理を割り引くキャッシュ機能や、即時性が不要な処理をまとめて安く処理するバッチ機能を提供しています。共通の長い指示文を使い回す構成や、夜間の一括処理がある業務では、実装をほぼ変えずに効く削減策です。提供条件はサービスごとに異なるため、公式ドキュメントで確認してください。
ヒント
あわせて読みたい
RAGとは何か|仕組み・向き不向き・導入判断の考え方
監視:削減より先に計測を仕込む
コスト管理で最初にやるべきは削減ではなく計測です。次の3点を導入初期に仕込んでおきます。
- 請求の上限・予算アラートの設定(事業者側のダッシュボードにある機能を使う)
- 呼び出しログに、用途・モデル・トークン数を記録する(どの機能がいくら使っているかを分解できるようにする)
- 週次でのコストレビュー(異常な伸びの早期発見。バグによる無限リトライは事故の定番)
よくある質問
日本語は英語よりコストが高いというのは本当ですか
定額のチャットプランとAPIのどちらが安いですか
コスト削減で品質が下がるのが心配です
想定外の高額請求を防ぐにはどうすればよいですか
どれくらいのコストなら適正ですか
まとめ
LLMコスト管理のチェックリスト
- 入力・出力トークンの実測から1回あたりコストを見積もった
- 予算アラートと利用上限を設定した
- 呼び出しログで用途別のコストを分解できるようにした
- タスクに見合ったモデルへの使い分けを検討した
- プロンプト・履歴のスリム化とキャッシュやバッチ機能の適用を確認した
トークン課金は複雑に見えますが、実体は「量を測って、単価と掛け算する」だけの世界です。計測の仕組みさえ入れてしまえば、コストは管理可能な変数になります。料金体系の変化に振り回されないためにも、数字を自分たちの手元に持つことから始めてください。
出典・参考
関連する記事
主要LLMの選び方|用途別の考え方と「使い分け」の基準
ChatGPT・Claude・GeminiなどのLLMをどう選ぶかを、特定モデルの優劣ではなく用途と制約から考えます。評価軸の立て方、自社ユースケースでの試し方、乗り換え前提の運用設計をまとめます。
RAGとは何か|仕組み・向き不向き・導入判断の考え方
社内文書をAIに答えさせる代表的な手法であるRAG(検索拡張生成)を解説します。検索と生成を組み合わせる仕組み、向いている用途と向かない用途、導入前に確認したい判断ポイントをまとめます。
コード生成AIとの付き合い方|レビュー前提で品質を保つ使い方
コード生成AIを業務開発で使うための実務的な指針を解説します。生成コードをレビュー前提で扱う理由、任せてよいタスクの選び方、依頼の粒度とテストの組み合わせ、チームでの運用ルールをまとめます。


