Hogyan vonjunk ki dokumentumstruktúrát a Python parserekkel

Hogyan lehet kinyerni a dokumentum struktúráját a parserekkel

Aspose.Words FOSS for Python parser osztályokat biztosít a DOCX dokumentumokból származó strukturált adatok kinyeréséhez. Ez az útmutató a NumberingParser listaszámozásra és a StyleParser dokumentumstílusokra vonatkozik.

Előfeltételek

Telepítse a könyvtárat:

pip install aspose-words-foss>=26.4.0

Python 3.10 vagy újabb szükséges.

Számozás elemző

NumberingParser beolvassa a listaszámozási definíciókat egy DOCX csomagból. A parse_numbering_part() meghívása után lekérdezheted a lista tulajdonságait:

NumberingParser.get_list_info() — lekérdezni egy adott lista információit azonosítója alapján
NumberingParser.is_ordered_list() — ellenőrizni, hogy egy lista szint rendezett vagy felsorolásos-e
NumberingParser.get_start_value() — lekérni a lista szint kezdő számát
NumberingParser.get_delimiter() — lekérni a lista szint elválasztó karakterláncát

Stílus elemző

StyleParser a stílusneveket strukturált ParsedStyle objektumokká alakítja, azonosítva a címsorokat, idézetblokkokat, kódrészeket és listabekezdéseket:

StyleParser.parse() — egy stílusnevet egy ParsedStyle objektummá elemez
StyleParser.get_style_chain() — egy stílusnevek láncát elemzi az örökölt stílusokhoz
StyleParser.is_setext_heading() — ellenőrzi, hogy a stílus Setext‑stílusú címsor‑e
StyleParser.extract_all_styles() — egy vesszővel elválasztott láncból egyedi stílusneveket nyer ki

Számozási adatmodell

A feldolgozott számozási adatok strukturált objektumokban tárolódnak:

Osztály	Kulcsfontosságú tulajdonságok
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Összefoglaló

Elemző	Cél
`NumberingParser`	Lista számozási definíciók kinyerése
`StyleParser`	Stílusnevek elemzése strukturált információként