クラス TikaDocumentReader
java.lang.ObjectSE
org.springframework.ai.reader.tika.TikaDocumentReader
- 実装されているすべてのインターフェース:
SupplierSE<ListSE<Document>>
,DocumentReader
Apache Tika を利用して、PDF、DOC/DOCX、PPT/PPTX、HTML などのさまざまなドキュメント形式からテキストを抽出するドキュメントリーダーです。サポートされている形式の包括的なリストについては、https://tika.apache.org/3.1.0/formats.html を参照してください。このリーダーは、追加の書式設定なしで抽出されたテキストを直接提供します。抽出されたすべてのテキストは、
Document
インスタンス内にカプセル化されます。PDF に対してより特殊な処理が必要な場合は、PagePdfDocumentReader または ParagraphPdfDocumentReader の使用を検討してください。- 作成者:
- Christian Tzolov
フィールドのサマリー
フィールドコンストラクターの概要
コンストラクターコンストラクター説明TikaDocumentReader
(StringSE resourceUrl) 指定されたリソース URL を使用してリーダーを初期化するコンストラクター。TikaDocumentReader
(StringSE resourceUrl, ExtractedTextFormatter textFormatter) 指定されたリソース URL とテキストフォーマッタを使用してリーダーを初期化するコンストラクター。TikaDocumentReader
(org.springframework.core.io.Resource resource) リソースを使用してリーダーを初期化するコンストラクター。TikaDocumentReader
(org.springframework.core.io.Resource resource, ExtractedTextFormatter textFormatter) リソースとテキストフォーマッタを使用してリーダーを初期化するコンストラクター。TikaDocumentReader
(org.springframework.core.io.Resource resource, ContentHandlerSE contentHandler, ExtractedTextFormatter textFormatter) リソース、コンテンツハンドラー、およびテキストフォーマッタを使用してリーダーを初期化するコンストラクター。メソッドのサマリー
クラス java.lang.ObjectSE から継承されたメソッド
clone, equalsSE, finalize, getClass, hashCode, notify, notifyAll, toString, wait, waitSE, waitSE
インターフェース org.springframework.ai.document.DocumentReader から継承されたメソッド
read
フィールドの詳細
METADATA_SOURCE
ドキュメントのソースを表すメタデータキー。- 関連事項:
コンストラクターの詳細
TikaDocumentReader
指定されたリソース URL を使用してリーダーを初期化するコンストラクター。- パラメーター:
resourceUrl
- リソースの URL
TikaDocumentReader
指定されたリソース URL とテキストフォーマッタを使用してリーダーを初期化するコンストラクター。- パラメーター:
resourceUrl
- リソースの URLtextFormatter
- 抽出されたテキストのフォーマッタ
TikaDocumentReader
public TikaDocumentReader(org.springframework.core.io.Resource resource) リソースを使用してリーダーを初期化するコンストラクター。- パラメーター:
resource
- ドキュメントを指すリソース
TikaDocumentReader
public TikaDocumentReader(org.springframework.core.io.Resource resource, ExtractedTextFormatter textFormatter) リソースとテキストフォーマッタを使用してリーダーを初期化するコンストラクター。このコンストラクターは、大きな PDF の読み取りを可能にする BodyContentHandler を作成します。(記憶のみに制約される)- パラメーター:
resource
- ドキュメントを指すリソースtextFormatter
- 抽出されたテキストのフォーマッタ
TikaDocumentReader
public TikaDocumentReader(org.springframework.core.io.Resource resource, ContentHandlerSE contentHandler, ExtractedTextFormatter textFormatter) リソース、コンテンツハンドラー、およびテキストフォーマッタを使用してリーダーを初期化するコンストラクター。- パラメーター:
resource
- ドキュメントを指すリソースcontentHandler
- コンテンツ抽出を管理するハンドラーtextFormatter
- 抽出されたテキストのフォーマッタ
メソッドの詳細
get
リソースからドキュメントのリストを抽出して返します。- 次で指定:
- インターフェース
SupplierSE<ListSE<Document>>
のget
- 戻り値:
- 抽出された
Document
のリスト