Jak extrahovat strukturu dokumentu pomocí parserů v Pythonu

Jak extrahovat strukturu dokumentu pomocí parserů

Aspose.Words FOSS for Python poskytuje třídy parseru pro extrakci strukturovaných dat z dokumentů DOCX. Tento průvodce pokrývá NumberingParser pro číslování seznamů a StyleParser pro styly dokumentu.

Požadavky

Nainstalujte knihovnu:

pip install aspose-words-foss>=26.4.0

Vyžaduje Python 3.10 nebo novější.

Parser číslování

NumberingParser čte definice číslování seznamů z balíčku DOCX. Po zavolání parse_numbering_part() můžete dotazovat vlastnosti seznamu:

NumberingParser.get_list_info() — získat informace o konkrétním seznamu podle jeho ID
NumberingParser.is_ordered_list() — zjistit, zda je úroveň seznamu číslovaná nebo odrážková
NumberingParser.get_start_value() — získat počáteční číslo pro úroveň seznamu
NumberingParser.get_delimiter() — získat řetězec oddělovače pro úroveň seznamu

Analyzátor stylů

StyleParser parsuje názvy stylů do strukturovaných objektů ParsedStyle, identifikuje nadpisy, blokové citace, bloky kódu a odstavce seznamu:

StyleParser.parse() — analyzovat název stylu do objektu ParsedStyle
StyleParser.get_style_chain() — analyzovat řetězec názvů stylů pro zděděné styly
StyleParser.is_setext_heading() — zkontrolovat, zda je styl nadpisem ve stylu Setext
StyleParser.extract_all_styles() — extrahovat jednotlivé názvy stylů z řetězce odděleného čárkami

Datový model číslování

Analyzovaná data číslování jsou uložena ve strukturovaných objektech:

Třída	Klíčové vlastnosti
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Shrnutí

Parser	Účel
`NumberingParser`	Extrahovat definice číslování seznamu
`StyleParser`	Analyzovat názvy stylů do strukturovaných informací