クラス TikaDocumentReader

java.lang.ObjectSE
org.springframework.ai.reader.tika.TikaDocumentReader
実装されているすべてのインターフェース:
SupplierSE<ListSE<Document>>DocumentReader

public class TikaDocumentReader extends ObjectSE implements DocumentReader
Apache Tika を利用して、PDF、DOC/DOCX、PPT/PPTX、HTML などのさまざまなドキュメント形式からテキストを抽出するドキュメントリーダーです。サポートされている形式の包括的なリストについては、https://tika.apache.org/3.1.0/formats.html を参照してください。このリーダーは、追加の書式設定なしで抽出されたテキストを直接提供します。抽出されたすべてのテキストは、Document インスタンス内にカプセル化されます。PDF に対してより特殊な処理が必要な場合は、PagePdfDocumentReader または ParagraphPdfDocumentReader の使用を検討してください。
作成者:
Christian Tzolov
  • フィールドのサマリー

    フィールド
    修飾子と型
    フィールド
    説明
    static final StringSE
    ドキュメントのソースを表すメタデータキー。
  • コンストラクターの概要

    コンストラクター
    コンストラクター
    説明
    指定されたリソース URL を使用してリーダーを初期化するコンストラクター。
    指定されたリソース URL とテキストフォーマッタを使用してリーダーを初期化するコンストラクター。
    TikaDocumentReader(org.springframework.core.io.Resource resource)
    リソースを使用してリーダーを初期化するコンストラクター。
    TikaDocumentReader(org.springframework.core.io.Resource resource, ExtractedTextFormatter textFormatter)
    リソースとテキストフォーマッタを使用してリーダーを初期化するコンストラクター。
    TikaDocumentReader(org.springframework.core.io.Resource resource, ContentHandlerSE contentHandler, ExtractedTextFormatter textFormatter)
    リソース、コンテンツハンドラー、およびテキストフォーマッタを使用してリーダーを初期化するコンストラクター。
  • メソッドのサマリー

    修飾子と型
    メソッド
    説明
    get()
    リソースからドキュメントのリストを抽出して返します。

    クラス java.lang.ObjectSE から継承されたメソッド

    clone, equalsSE, finalize, getClass, hashCode, notify, notifyAll, toString, wait, waitSE, waitSE

    インターフェース org.springframework.ai.document.DocumentReader から継承されたメソッド

    read
  • フィールドの詳細

  • コンストラクターの詳細

    • TikaDocumentReader

      public TikaDocumentReader(StringSE resourceUrl)
      指定されたリソース URL を使用してリーダーを初期化するコンストラクター。
      パラメーター:
      resourceUrl - リソースの URL
    • TikaDocumentReader

      public TikaDocumentReader(StringSE resourceUrl, ExtractedTextFormatter textFormatter)
      指定されたリソース URL とテキストフォーマッタを使用してリーダーを初期化するコンストラクター。
      パラメーター:
      resourceUrl - リソースの URL
      textFormatter - 抽出されたテキストのフォーマッタ
    • TikaDocumentReader

      public TikaDocumentReader(org.springframework.core.io.Resource resource)
      リソースを使用してリーダーを初期化するコンストラクター。
      パラメーター:
      resource - ドキュメントを指すリソース
    • TikaDocumentReader

      public TikaDocumentReader(org.springframework.core.io.Resource resource, ExtractedTextFormatter textFormatter)
      リソースとテキストフォーマッタを使用してリーダーを初期化するコンストラクター。このコンストラクターは、大きな PDF の読み取りを可能にする BodyContentHandler を作成します。(記憶のみに制約される)
      パラメーター:
      resource - ドキュメントを指すリソース
      textFormatter - 抽出されたテキストのフォーマッタ
    • TikaDocumentReader

      public TikaDocumentReader(org.springframework.core.io.Resource resource, ContentHandlerSE contentHandler, ExtractedTextFormatter textFormatter)
      リソース、コンテンツハンドラー、およびテキストフォーマッタを使用してリーダーを初期化するコンストラクター。
      パラメーター:
      resource - ドキュメントを指すリソース
      contentHandler - コンテンツ抽出を管理するハンドラー
      textFormatter - 抽出されたテキストのフォーマッタ
  • メソッドの詳細