Microsoft GraphRAG: Token使用量とコストの簡易分析
背景
Microsoft GraphRAGは、LLM(Large Language Model)を利用する際のToken消費量が重要であることはよく知られていますが、実際にどれくらいのTokenが使用されるのかは明確ではありません。
本記事では、サンプルテキストを基にMicrosoft GraphRAGの処理におけるToken使用量とコストを分析し、その結果を共有します。
前提条件
Microsoft GraphRAGでは、以下の要素がToken使用量に影響を与えます。
- テキストのChunk分割方法
- 抽出するエンティティ・タイプの定義
- Promptの設定
- Entity Extraction Prompt
- Summarize Descriptions Prompt
- Community Report Prompt
本記事の結果は、標準的な設定を反映したものではなく、一例としてご参照ください。
また、分析には Langfuse を利用し、Token使用量やコストを可視化しています。
サンプルテキスト
以下の文章を用いて分析を行いました。
元宇宙科学開発機構の研究員で、ロケットの打ち上げ失敗の責任をとって辞職し、現在は父親が遺した下町の工場「佃製作所」で経営者として第二の人生を送っている 佃航平(阿部寛)。一度はあきらめかけた佃の夢であったロケット製造を、自社が開発したバルブシステムを使用し、日本を代表する大企業・帝国重工の純国産ロケット開発計画「スターダスト計画」により実現するなど、順調な佃製作所だったが…。
ある日、帝国重工の社長交代により、スターダスト計画は次回で終わるかもしれない――と帝国重工宇宙航空開発部部長の 財前(吉川晃司) から告げられ、佃はショックを受ける。ロケット製造に関わることは佃の夢であるとともに、今や「ロケット品質」を掲げる佃製作所社員たちの精神的支柱にもなっていたのだ。
そこへ追いうちをかけるように、大口取引先の農機具メーカーから小型エンジンの取引削減を告げられる。性能よりもコスト重視という考えに、技術力が売りの佃製作所は存在意義が揺らぎ始め、佃は強い危機感を抱く。
そんな中、佃製作所の経理部長・殿村(立川談春)の父親が倒れる。殿村の実家は三百年続く農家。父親の看病と畑仕事の手伝いに、週末ごとに帰省する殿村を見舞う佃と 山崎(安田顕)。トラクターを運転する殿村をじっと見て、佃はあることに気づく。それは、佃の中に新たな夢が生まれた、瞬間だった──。
Chunk分割方法
chunks:
size: 384
overlap: 0
抽出するエンティティ・タイプ
- person
- technology
- mission
- organization
- location
使用するLLMとコスト設定
- OSS LLMを使用
- 単価は
gpt-4
およびtext-embedding-3-large
のPricingに基づいて算出
分析結果
1. Create Base Text Units
- 分割されたChunk数:2
- 合計Token数:577
2. Extract Graph
- 抽出されたEntity数:12
- 抽出されたRelationship数:16
- 使用したToken数: 16.43K
- コスト: $0.57987
3. Create Final Community Reports
- 作成されたReport数:2
- 使用したToken数: 7.83K
- コスト: $0.28281
4. Generate Text Embeddings
- 使用したToken数: 3K
- コスト: $0.00039
5. Global Search
- 使用したToken数: 3.74K
- コスト: $0.12837
6. Local Search
- 使用したToken数: 5.26K+12
- コスト: $(0.17133+0.000002)
まとめ
ステップ | 使用Token数 | コスト ($) | その他情報 |
---|---|---|---|
分割 (Base Text Units) | N/A | N/A | 分割されたChunk数:2, 合計Token数:577 |
抽出 (Extract Graph) | 16.43K | 0.57987 | 抽出されたEntity数: 12, Relationship数: 16 |
レポート生成 (Final Community Reports) | 7.83K | 0.28281 | 作成されたReport数: 2 |
テキスト埋め込み (Generate Text Embeddings) | 3K | 0.00039 | N/A |
グローバル検索 (Global Search) | 3.74K | 0.12837 | N/A |
ローカル検索 (Local Search) | 5.26K+12 | 0.17133+0.000002 | N/A |
合計 | 36.26K+12 | 1.16244 | N/A |
本記事では、Microsoft GraphRAGを用いたIndexおよびSearch処理におけるToken使用量とコストを可視化しました。結果はあくまで一例であり、設定やデータにより誤差が生じる可能性があります。
これからGraphRAGの導入を検討されている方の参考になれば幸いです。
标签:Search,GraphRAG,Text,簡易,Token,使用量,Microsoft From: https://blog.csdn.net/engchina/article/details/144743091