Pythonのパーサーでドキュメント構造を抽出する方法
パーサーを使用したドキュメント構造の抽出方法
Aspose.Words FOSS for Python は、DOCX ドキュメントから構造化データを抽出するためのパーサークラスを提供します。このガイドでは、リスト番号付けのための NumberingParser とドキュメントスタイルのための StyleParser をカバーしています。
前提条件
ライブラリをインストールする:
pip install aspose-words-foss>=26.4.0Python 3.10 以降が必要です。
番号付けパーサー
NumberingParser は DOCX パッケージからリスト番号付け定義を読み取ります。parse_numbering_part() を呼び出した後、リスト プロパティを照会できます:
NumberingParser.get_list_info()— IDで特定のリストに関する情報を取得するNumberingParser.is_ordered_list()— リストレベルが順序付きか箇条書きかを確認するNumberingParser.get_start_value()— リストレベルの開始番号を取得するNumberingParser.get_delimiter()— リストレベルの区切り文字列を取得する
スタイル パーサー
StyleParser はスタイル名を構造化された ParsedStyle オブジェクトに解析し、見出し、ブロック引用、コードブロック、リスト段落を識別します:
StyleParser.parse()— スタイル名をParsedStyleオブジェクトに解析するStyleParser.get_style_chain()— 継承されたスタイルのためにスタイル名のチェーンを解析するStyleParser.is_setext_heading()— スタイルが Setext スタイルの見出しかどうかをチェックするStyleParser.extract_all_styles()— カンマ区切りのチェーンから個々のスタイル名を抽出する
番号付けデータモデル
解析された番号付けデータは構造化されたオブジェクトに格納されます:
| クラス | 主要プロパティ |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
概要
| パーサー | 目的 |
|---|---|
NumberingParser | リスト番号定義を抽出 |
StyleParser | スタイル名を構造化情報に解析 |