Sådan udtrækker du dokumentstruktur med parsere i Python
Sådan udtrækkes dokumentstruktur med parsere
Aspose.Words FOSS for Python leverer parserklasser til at udtrække strukturerede data fra DOCX-dokumenter. Denne vejledning dækker NumberingParser for listenummerering og StyleParser for dokumentstilarter.
Forudsætninger
Installer biblioteket:
pip install aspose-words-foss>=26.4.0Kræver Python 3.10 eller senere.
Nummereringsparser
NumberingParser læser liste‑nummereringsdefinitioner fra en DOCX‑pakke. Efter at have kaldt parse_numbering_part(), kan du forespørge listeegenskaber:
NumberingParser.get_list_info()— hent information om en specifik liste efter dens IDNumberingParser.is_ordered_list()— kontroller om et liste‑niveau er nummereret eller punktformetNumberingParser.get_start_value()— hent startnummeret for et liste‑niveauNumberingParser.get_delimiter()— hent afgrænsningsstrengen for et liste‑niveau
Stilparser
StyleParser parser stilnavne til strukturerede ParsedStyle-objekter, identificerer overskrifter, blokcitater, kodeblokke og listeafsnit:
StyleParser.parse()— parse et stilnavn til enParsedStyle‑objektStyleParser.get_style_chain()— parse en kæde af stilnavne for arvede stilarterStyleParser.is_setext_heading()— tjek om en stil er en Setext‑stil‑overskriftStyleParser.extract_all_styles()— udtræk individuelle stilnavne fra en kommasepareret kæde
Nummereringsdatamodel
Den analyserede nummereringsdata gemmes i strukturerede objekter:
| Klasse | Nøgleegenskaber |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Resumé
| Parser | Formål |
|---|---|
NumberingParser | Udtræk liste nummereringsdefinitioner |
StyleParser | Analyser stilnavne til struktureret information |