【脱・ベクトル検索】RAGの常識を覆す「PageIndex」登場！AIが”目次”を読んで答えを探す新時代へ

「AIにもっと賢く、文脈を理解してほしい…」

RAG（Retrieval-Augmented Generation）の開発に携わるあなたなら、一度はそう感じたことがあるのではないでしょうか。

特に、金融レポートや法律文書のような、専門的でページ数も多い資料を扱うとき。ベクトル検索はとても便利ですが、細切れになった文章（チャンク）のせいで、本当に重要な前後の文脈が失われてしまうことがありますよね。

「チャンクサイズ、どう調整すればいいんだ…」「なぜこの回答が出てきたのか、根拠が追いづらい…」

そんな開発者の深い悩みに、一つの答えが示されたかもしれません。

今回ご紹介するのは、VectifyAIが公開したReasoning-based RAGシステム「PageIndex」。

この技術は、私たちが慣れ親しんだベクトル検索を一切使わない、全く新しいアプローチです。一言でいうなら、「AIがまるで人間のように、目次をたどりながら文書を読み解き、答えの核心に迫っていく」というもの。

この記事を読めば、あなたのRAG開発における長年の悩みが解決し、「AIはここまで進化したのか！」と未来への期待に胸が膨らむはずです。

PageIndexとは？- ベクトルDBもチャンキングも”不要”な理由

従来のRAGが、大量の付箋（チャンク）の中から関連性の高そうなものを「感覚的に（類似度で）」見つけ出す方法だとすれば、PageIndexは全く違います。

PageIndexは、文書全体を一つの大きな木（ツリー構造）として捉えます。それはまるで、本の「目次」のようなものです。

文書をツリー構造に変換： まず、金融レポートやマニュアルなどの長大な文書を、章・節・項といった階層的な「目次」のような構造に変換します。
LLMが思考する： 質問が来ると、LLM（大規模言語モデル）は「この質問に答えるには、どの章のどの部分を見ればいいだろう？」と、目次に沿って推論し、探索を始めます。
ピンポイントで情報へ： LLMは自らの推論に基づき、ツリーをたどって、文書内の最も関連性の高い箇所へ直接たどり着きます。

この仕組みのすごいところは、あのチェスの世界チャンピオンを破った「AlphaGo」に着想を得ている点。ツリーサーチという探索方法で、膨大な情報の中から最適な経路を見つけ出すのです。

これにより、開発者を悩ませてきたベクトルデータベースの構築や、最適なチャンクサイズを探る試行錯誤が、そもそも必要なくなるのです。

まるで優秀なアシスタント。精度が出なかった分析botが生まれ変わった話

ここで少し、私の（架空の）体験談をお話しさせてください。

私は以前、ある金融機関向けのAIアシスタント開発プロジェクトに携わっていました。そのAIの役割は、数百ページにも及ぶ年次報告書から、特定の経営指標に関する記述を正確に抜き出すこと。

しかし、従来のベクトル検索RAGでは、壁にぶつかっていました。

「純利益」という言葉は同じでも、ある文脈では前年度比の話、別の文脈では事業別の話…。細切れになったチャンクでは、その微妙なニュアンスを汲み取れず、AIは的外れな回答を繰り返していました。正直、途方に暮れていました。

そんな時、出会ったのが「PageIndex」です。

藁にもすがる思いで、公開されていたColabのノートブックを試してみました。すると、驚きの結果が。

「”純利益の増減要因”に関する質問だから、まずは”第3章経営成績”を見て、次に”3.2 事業セグメント別の分析”を確認しよう」

まるで優秀なアシスタントのように、AIが思考の”経路”を示しながら、報告書を読み解いていくのです。そして、最終的にピンポイントで該当箇所を提示してくれました。

感動したのは、そのプロセスの透明性です。なぜその回答に至ったのかが手に取るようにわかるため、デバッグも非常に簡単でした。あの面倒だったチャンキング作業から解放された喜びも、言うまでもありません。

このPageIndexとの出会いは、「AIに仕事をさせる」という感覚から、「AIという賢いパートナーと共に問題解決にあたる」という新しい感覚を私に与えてくれました。

もし、あなたがAIの”ブラックボックス性”に少しでもやりにくさを感じているなら、この感動をぜひ味わってみてほしいです。

客観的な評価は？- 専門分野で驚異のスコアを記録

私の体験談だけでは、信じがたいかもしれませんね。

しかし、PageIndexはその実力を客観的な数値でも証明しています。金融文書の分析能力を測るベンチマークテスト「FinanceBench」において、なんと98.7%という驚異的なスコアを記録。

これは、専門家レベルの読解力が必要なタスクで、ほとんどミスなく回答できることを意味します。

まだ新しい技術のため、一般ユーザーの口コミは少ないですが、この実績だけでも、専門家の間で注目が集まっている理由がわかるはずです。

PageIndexのメリット・デメリット

どんな技術にも、良い面とそうでない面があります。ここでは、正直に両方をお伝えします。

デメリット（先に知っておくべきこと）

現状は「単一の文書」にしか対応していない 現在、PageIndexが一度に検索できるのは、一つのファイルのみです。複数の報告書を横断して検索する、といった使い方はまだできません。

【フォロー】 しかし、これは大きな問題ではないかもしれません。なぜなら、多くのシステムでは、まず対象となる文書を特定してから、その中身を検索するステップを踏むからです。前段の処理を挟めば、今のシステムにも十分に組み込めます。また、公式も「複数文書への対応は近日予定」とアナウンスしており、このデメリットが解消される日も近いでしょう。

メリット（デメリットを補って余りある魅力）

ベクトルDB・チャンキングが不要 インデックス作成の手間やコスト、チューニングの工数を大幅に削減できます。開発者は、より本質的なロジックの実装に集中できます。
文脈を失わない、圧倒的な検索精度 特に、構造化された長文（金融レポート、法律文書、技術マニュアル、学術教科書など）で、その真価を発揮します。
検索プロセスの透明性 AIが「なぜ」その答えを選んだのか、その思考の道筋を追跡できます。これは、システムの信頼性を担保する上で非常に重要です。