このリポジトリは、idis-rustのサブモジュールです。
Rustで実装されたtf-idfベクトライザーです。 tf-idf(Term Frequency-Inverse Document Frequency)は、情報検索やテキストマイニングで使用される重要な技術で、文書内の単語の重要度を評価します。
- Cargo.tomlに本クレートを追加
- DocumentAnalyzerを用いて文書追加・インデックス生成
- 検索メソッドでクエリ実行
以下に、tf-idf-vectorizer
クレートの基本的な使用方法の例を示します。
- 高速なTF-IDFベクトル化
- BM25などの多様な検索オプションを提供
- 複数の DocumentAnalyzer から生成した Index を synthesize_index で統合(検索計算量はO(log(n))に近似するのでコスト削減用)、一括検索が可能
- 同一のキーがある場合、後に渡した Index により上書きされる
- 検索時に BM25パラメータ(k1, b)を指定し、より高品質なランキングを実現(推奨は調整なし)