Pythonのパーサーでドキュメント構造を抽出する方法

パーサーを使用したドキュメント構造の抽出方法

Aspose.Words FOSS for Python は、DOCX ドキュメントから構造化データを抽出するためのパーサークラスを提供します。このガイドでは、リスト番号付けのための NumberingParser とドキュメントスタイルのための StyleParser をカバーしています。

前提条件

ライブラリをインストールする:

pip install aspose-words-foss>=26.4.0

Python 3.10 以降が必要です。

番号付けパーサー

NumberingParser は DOCX パッケージからリスト番号付け定義を読み取ります。parse_numbering_part() を呼び出した後、リストプロパティを照会できます：

NumberingParser.get_list_info() — IDで特定のリストに関する情報を取得する
NumberingParser.is_ordered_list() — リストレベルが順序付きか箇条書きかを確認する
NumberingParser.get_start_value() — リストレベルの開始番号を取得する
NumberingParser.get_delimiter() — リストレベルの区切り文字列を取得する

スタイルパーサー

StyleParser はスタイル名を構造化された ParsedStyle オブジェクトに解析し、見出し、ブロック引用、コードブロック、リスト段落を識別します:

StyleParser.parse() — スタイル名を ParsedStyle オブジェクトに解析する
StyleParser.get_style_chain() — 継承されたスタイルのためにスタイル名のチェーンを解析する
StyleParser.is_setext_heading() — スタイルが Setext スタイルの見出しかどうかをチェックする
StyleParser.extract_all_styles() — カンマ区切りのチェーンから個々のスタイル名を抽出する

番号付けデータモデル

解析された番号付けデータは構造化されたオブジェクトに格納されます：

クラス	主要プロパティ
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

概要

パーサー	目的
`NumberingParser`	リスト番号定義を抽出
`StyleParser`	スタイル名を構造化情報に解析