「情報検索」の記事一覧
-
PDFからのテキスト抽出はなぜ難しいのか
2025-05-13 15:01
IT・ネット検索エンジンでPDFをインデックスするための課題とその技術的対応について解説。PDFは実際にはグリフの座標配置に基づいたグラフィック形式で、テキスト構造が明示されていない。記事では、PDFBoxのPDFTextStripperを改良し、フォントサイズや間隔の統計分析による見出しや段落の特定方法を導入。また、見出しの複数行統合や段落区切りの判定といった難題にも対応しており、機械学習を用いない省リソース環境での現実的な手法を提示している。
-
SPLADEで実現する意味検索とキーワード検索の融合
2025-05-05 19:13
科学・技術SPLADEは、意味検索の柔軟性とキーワード検索の透明性を兼ね備えた次世代検索手法です。従来の意味検索は高精度ながら、インデックスサイズの肥大化やチューニングの難しさといった課題を抱えていました。SPLADEは、文脈に関連する単語を抽出・追加することで、検索精度を向上させつつデバッグも容易にします。実装例としてヒーロー情報を用いた検索比較では、リコール率が28%から52%に向上。今後は精度評価やElasticsearchとの統合による改善の余地もあり、情報検索の現場で実用化が期待されます。
Page 1 / 1