Pythonのパーサーでドキュメント構造を抽出する方法

Pythonのパーサーでドキュメント構造を抽出する方法

パーサーを使用したドキュメント構造の抽出方法

Aspose.Words FOSS for Python は、DOCX ドキュメントから構造化データを抽出するためのパーサークラスを提供します。このガイドでは、リスト番号付けのための NumberingParser とドキュメントスタイルのための StyleParser をカバーしています。

前提条件

ライブラリをインストールする:

pip install aspose-words-foss>=26.4.0

Python 3.10 以降が必要です。

番号付けパーサー

NumberingParser は DOCX パッケージからリスト番号付け定義を読み取ります。parse_numbering_part() を呼び出した後、リスト プロパティを照会できます:

  • NumberingParser.get_list_info() — IDで特定のリストに関する情報を取得する
  • NumberingParser.is_ordered_list() — リストレベルが順序付きか箇条書きかを確認する
  • NumberingParser.get_start_value() — リストレベルの開始番号を取得する
  • NumberingParser.get_delimiter() — リストレベルの区切り文字列を取得する

スタイル パーサー

StyleParser はスタイル名を構造化された ParsedStyle オブジェクトに解析し、見出し、ブロック引用、コードブロック、リスト段落を識別します:

  • StyleParser.parse() — スタイル名を ParsedStyle オブジェクトに解析する
  • StyleParser.get_style_chain() — 継承されたスタイルのためにスタイル名のチェーンを解析する
  • StyleParser.is_setext_heading() — スタイルが Setext スタイルの見出しかどうかをチェックする
  • StyleParser.extract_all_styles() — カンマ区切りのチェーンから個々のスタイル名を抽出する

番号付けデータモデル

解析された番号付けデータは構造化されたオブジェクトに格納されます:

クラス主要プロパティ
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

概要

パーサー目的
NumberingParserリスト番号定義を抽出
StyleParserスタイル名を構造化情報に解析
 日本語