クラス ParagraphPdfDocumentReader

java.lang.ObjectSE
org.springframework.ai.reader.pdf.ParagraphPdfDocumentReader
実装されたすべてのインターフェース:
SupplierSE<ListSE<Document>>DocumentReader

public class ParagraphPdfDocumentReader extends ObjectSE implements DocumentReader
PDF カタログ (TOC など) 情報を使用して、入力 PDF をテキスト段落に分割し、段落ごとに 1 つの Document を出力します。このクラスは、PDF ドキュメントの読み取りと処理のためのメソッドを提供します。PDF コンテンツを解析し、テキスト段落に変換するために Apache PDFBox ライブラリを使用します。段落は Document オブジェクトにグループ化されます。
作成者:
Christian Tzolov
  • フィールドの詳細

    • document

      protected final org.apache.pdfbox.pdmodel.PDDocument document
    • resourceFileName

      protected StringSE resourceFileName
  • コンストラクターの詳細

    • ParagraphPdfDocumentReader

      public ParagraphPdfDocumentReader(StringSE resourceUrl)
      リソース URL を使用して ParagraphPdfDocumentReader を構築します。
      パラメーター:
      resourceUrl - PDF リソースの URL。
    • ParagraphPdfDocumentReader

      public ParagraphPdfDocumentReader(org.springframework.core.io.Resource pdfResource)
      リソースを使用して ParagraphPdfDocumentReader を構築します。
      パラメーター:
      pdfResource - PDF リソース。
    • ParagraphPdfDocumentReader

      public ParagraphPdfDocumentReader(StringSE resourceUrl, PdfDocumentReaderConfig config)
      リソース URL と構成を使用して ParagraphPdfDocumentReader を構築します。
      パラメーター:
      resourceUrl - PDF リソースの URL。
      config - PDF ドキュメント処理の構成。
    • ParagraphPdfDocumentReader

      public ParagraphPdfDocumentReader(org.springframework.core.io.Resource pdfResource, PdfDocumentReaderConfig config)
      リソースと構成を使用して ParagraphPdfDocumentReader を構築します。
      パラメーター:
      pdfResource - PDF リソース。
      config - PDF ドキュメント処理の構成。
  • メソッドの詳細