クラス ExtractedTextFormatter
java.lang.ObjectSE
org.springframework.ai.reader.ExtractedTextFormatter
抽出されたテキストコンテンツを
Document
にカプセル化する前に再フォーマットするユーティリティ。このフォーマッタは次の機能を提供します。- テキストの左揃え
- コンテンツの先頭と末尾から指定された行を削除する
- 連続する空白行の統合
ExtractedTextFormatter.Builder
ネストクラスを使用してカスタマイズできます。- 作成者:
- Christian Tzolov
ネストされたクラスのサマリー
ネストされたクラス修飾子と型クラス説明static class
Builder
クラスは、ExtractedTextFormatter
のインスタンスの作成とカスタマイズを容易にするために設計された、ExtractedTextFormatter
のネストされた静的クラスです。メソッドのサマリー
修飾子と型メソッド説明static StringSE
alignToLeft
(StringSE pageText) builder()
このフォーマッタのビルダーのインスタンスを提供します。static ExtractedTextFormatter
defaults()
フォーマッタのデフォルトインスタンスを提供します。static StringSE
deleteBottomTextLines
(StringSE pageText, int numberOfLines, StringSE lineSeparator) テキストの下部から指定された行数を削除します。static StringSE
deleteTopTextLines
(StringSE pageText, int numberOfLines, StringSE lineSeparator) 指定されたテキストの上部から指定された行数を削除します。フォーマッタの設定に従って、提供されたテキストをフォーマットします。ページ番号を考慮して、フォーマッタの設定に基づいて指定されたテキストをフォーマットします。static StringSE
trimAdjacentBlankLines
(StringSE pageText) 複数の隣接する空白行を 1 つの空白行に置き換えます。
メソッドの詳細
builder
このフォーマッタのビルダーのインスタンスを提供します。- 戻り値:
- ビルダーのインスタンス。
defaults
フォーマッタのデフォルトインスタンスを提供します。- 戻り値:
- フォーマッタのデフォルトインスタンス。
trimAdjacentBlankLines
複数の隣接する空白行を 1 つの空白行に置き換えます。- パラメーター:
pageText
- 空白行を調整するテキスト。- 戻り値:
- 空白行が削除された同じテキストを返します。
alignToLeft
- パラメーター:
pageText
- 配置するテキスト。- 戻り値:
- 同じテキストを左側に揃えて返します。
deleteBottomTextLines
public static StringSE deleteBottomTextLines(StringSE pageText, int numberOfLines, StringSE lineSeparator) テキストの下部から指定された行数を削除します。- パラメーター:
pageText
- 行を削除するテキスト。numberOfLines
- 削除する行数。lineSeparator
- テキスト内の行を識別するときに使用する行セパレーター。- 戻り値:
- 最後の行から抽出されたテキストを返します。
deleteTopTextLines
public static StringSE deleteTopTextLines(StringSE pageText, int numberOfLines, StringSE lineSeparator) 指定されたテキストの上部から指定された行数を削除します。このメソッドはテキストを受け取り、先頭から指定行数を削除してトリミングします。指定されたテキストが null または空白のみの場合は、そのまま返されます。削除する行数がテキストの実際の行数を超える場合、結果は空文字列になります。
この方法は、システムの行セパレーターに基づいて行を識別するため、さまざまなプラットフォームとの互換性が確保されます。
- パラメーター:
pageText
- 先頭行を削除するテキスト。この値が null、空、または空白のみで構成されている場合は、変更されずに返されます。numberOfLines
- テキストの先頭から削除する行数。この値がテキストの実際の行数を超える場合は、空の文字列が返されます。lineSeparator
- テキスト内の行を識別するときに使用する行セパレーター。- 戻り値:
- 上から指定された行数を削除したテキスト。
format
フォーマッタの設定に従って、提供されたテキストをフォーマットします。- パラメーター:
pageText
- フォーマットするテキスト。- 戻り値:
- フォーマットされたテキスト。
format
ページ番号を考慮して、フォーマッタの設定に基づいて指定されたテキストをフォーマットします。- パラメーター:
pageText
- フォーマットするテキスト。pageNumber
- 提供されたテキストのページ番号。- 戻り値:
- フォーマットされたテキスト。