Jak extrahovat strukturu dokumentu pomocí parserů v Pythonu
Jak extrahovat strukturu dokumentu pomocí parserů
Aspose.Words FOSS for Python poskytuje třídy parseru pro extrakci strukturovaných dat z dokumentů DOCX. Tento průvodce pokrývá NumberingParser pro číslování seznamů a StyleParser pro styly dokumentu.
Požadavky
Nainstalujte knihovnu:
pip install aspose-words-foss>=26.4.0Vyžaduje Python 3.10 nebo novější.
Parser číslování
NumberingParser čte definice číslování seznamů z balíčku DOCX. Po zavolání parse_numbering_part() můžete dotazovat vlastnosti seznamu:
NumberingParser.get_list_info()— získat informace o konkrétním seznamu podle jeho IDNumberingParser.is_ordered_list()— zjistit, zda je úroveň seznamu číslovaná nebo odrážkováNumberingParser.get_start_value()— získat počáteční číslo pro úroveň seznamuNumberingParser.get_delimiter()— získat řetězec oddělovače pro úroveň seznamu
Analyzátor stylů
StyleParser parsuje názvy stylů do strukturovaných objektů ParsedStyle, identifikuje nadpisy, blokové citace, bloky kódu a odstavce seznamu:
StyleParser.parse()— analyzovat název stylu do objektuParsedStyleStyleParser.get_style_chain()— analyzovat řetězec názvů stylů pro zděděné stylyStyleParser.is_setext_heading()— zkontrolovat, zda je styl nadpisem ve stylu SetextStyleParser.extract_all_styles()— extrahovat jednotlivé názvy stylů z řetězce odděleného čárkami
Datový model číslování
Analyzovaná data číslování jsou uložena ve strukturovaných objektech:
| Třída | Klíčové vlastnosti |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Shrnutí
| Parser | Účel |
|---|---|
NumberingParser | Extrahovat definice číslování seznamu |
StyleParser | Analyzovat názvy stylů do strukturovaných informací |