Jak extrahovat strukturu dokumentu pomocí parserů v Pythonu

Jak extrahovat strukturu dokumentu pomocí parserů v Pythonu

Jak extrahovat strukturu dokumentu pomocí parserů

Aspose.Words FOSS for Python poskytuje třídy parseru pro extrakci strukturovaných dat z dokumentů DOCX. Tento průvodce pokrývá NumberingParser pro číslování seznamů a StyleParser pro styly dokumentu.

Požadavky

Nainstalujte knihovnu:

pip install aspose-words-foss>=26.4.0

Vyžaduje Python 3.10 nebo novější.

Parser číslování

NumberingParser čte definice číslování seznamů z balíčku DOCX. Po zavolání parse_numbering_part() můžete dotazovat vlastnosti seznamu:

  • NumberingParser.get_list_info() — získat informace o konkrétním seznamu podle jeho ID
  • NumberingParser.is_ordered_list() — zjistit, zda je úroveň seznamu číslovaná nebo odrážková
  • NumberingParser.get_start_value() — získat počáteční číslo pro úroveň seznamu
  • NumberingParser.get_delimiter() — získat řetězec oddělovače pro úroveň seznamu

Analyzátor stylů

StyleParser parsuje názvy stylů do strukturovaných objektů ParsedStyle, identifikuje nadpisy, blokové citace, bloky kódu a odstavce seznamu:

  • StyleParser.parse() — analyzovat název stylu do objektu ParsedStyle
  • StyleParser.get_style_chain() — analyzovat řetězec názvů stylů pro zděděné styly
  • StyleParser.is_setext_heading() — zkontrolovat, zda je styl nadpisem ve stylu Setext
  • StyleParser.extract_all_styles() — extrahovat jednotlivé názvy stylů z řetězce odděleného čárkami

Datový model číslování

Analyzovaná data číslování jsou uložena ve strukturovaných objektech:

TřídaKlíčové vlastnosti
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Shrnutí

ParserÚčel
NumberingParserExtrahovat definice číslování seznamu
StyleParserAnalyzovat názvy stylů do strukturovaných informací
 Čeština