クラス ExtractedTextFormatter

java.lang.ObjectSE
org.springframework.ai.reader.ExtractedTextFormatter

public final class ExtractedTextFormatter extends ObjectSE
抽出されたテキストコンテンツを Document にカプセル化する前に再フォーマットするユーティリティ。このフォーマッタは次の機能を提供します。
  • テキストの左揃え
  • コンテンツの先頭と末尾から指定された行を削除する
  • 連続する空白行の統合
このフォーマッタのインスタンスは、ExtractedTextFormatter.Builder ネストクラスを使用してカスタマイズできます。
作成者:
Christian Tzolov
  • メソッドの詳細

    • builder

      public static ExtractedTextFormatter.Builder builder()
      このフォーマッタのビルダーのインスタンスを提供します。
      戻り値:
      ビルダーのインスタンス。
    • defaults

      public static ExtractedTextFormatter defaults()
      フォーマッタのデフォルトインスタンスを提供します。
      戻り値:
      フォーマッタのデフォルトインスタンス。
    • trimAdjacentBlankLines

      public static StringSE trimAdjacentBlankLines(StringSE pageText)
      複数の隣接する空白行を 1 つの空白行に置き換えます。
      パラメーター:
      pageText - 空白行を調整するテキスト。
      戻り値:
      空白行が削除された同じテキストを返します。
    • alignToLeft

      public static StringSE alignToLeft(StringSE pageText)
      パラメーター:
      pageText - 配置するテキスト。
      戻り値:
      同じテキストを左側に揃えて返します。
    • deleteBottomTextLines

      public static StringSE deleteBottomTextLines(StringSE pageText, int numberOfLines, StringSE lineSeparator)
      テキストの下部から指定された行数を削除します。
      パラメーター:
      pageText - 行を削除するテキスト。
      numberOfLines - 削除する行数。
      lineSeparator - テキスト内の行を識別するときに使用する行セパレーター。
      戻り値:
      最後の行から抽出されたテキストを返します。
    • deleteTopTextLines

      public static StringSE deleteTopTextLines(StringSE pageText, int numberOfLines, StringSE lineSeparator)
      指定されたテキストの上部から指定された行数を削除します。

      このメソッドはテキストを受け取り、先頭から指定行数を削除してトリミングします。指定されたテキストが null または空白のみの場合は、そのまま返されます。削除する行数がテキストの実際の行数を超える場合、結果は空文字列になります。

      この方法は、システムの行セパレーターに基づいて行を識別するため、さまざまなプラットフォームとの互換性が確保されます。

      パラメーター:
      pageText - 先頭行を削除するテキスト。この値が null、空、または空白のみで構成されている場合は、変更されずに返されます。
      numberOfLines - テキストの先頭から削除する行数。この値がテキストの実際の行数を超える場合は、空の文字列が返されます。
      lineSeparator - テキスト内の行を識別するときに使用する行セパレーター。
      戻り値:
      上から指定された行数を削除したテキスト。
    • format

      public StringSE format(StringSE pageText)
      フォーマッタの設定に従って、提供されたテキストをフォーマットします。
      パラメーター:
      pageText - フォーマットするテキスト。
      戻り値:
      フォーマットされたテキスト。
    • format

      public StringSE format(StringSE pageText, int pageNumber)
      ページ番号を考慮して、フォーマッタの設定に基づいて指定されたテキストをフォーマットします。
      パラメーター:
      pageText - フォーマットするテキスト。
      pageNumber - 提供されたテキストのページ番号。
      戻り値:
      フォーマットされたテキスト。