Sådan udtrækker du dokumentstruktur med parsere i Python

Sådan udtrækkes dokumentstruktur med parsere

Aspose.Words FOSS for Python leverer parserklasser til at udtrække strukturerede data fra DOCX-dokumenter. Denne vejledning dækker NumberingParser for listenummerering og StyleParser for dokumentstilarter.

Forudsætninger

Installer biblioteket:

pip install aspose-words-foss>=26.4.0

Kræver Python 3.10 eller senere.

Nummereringsparser

NumberingParser læser liste‑nummereringsdefinitioner fra en DOCX‑pakke. Efter at have kaldt parse_numbering_part(), kan du forespørge listeegenskaber:

NumberingParser.get_list_info() — hent information om en specifik liste efter dens ID
NumberingParser.is_ordered_list() — kontroller om et liste‑niveau er nummereret eller punktformet
NumberingParser.get_start_value() — hent startnummeret for et liste‑niveau
NumberingParser.get_delimiter() — hent afgrænsningsstrengen for et liste‑niveau

Stilparser

StyleParser parser stilnavne til strukturerede ParsedStyle-objekter, identificerer overskrifter, blokcitater, kodeblokke og listeafsnit:

StyleParser.parse() — parse et stilnavn til en ParsedStyle‑objekt
StyleParser.get_style_chain() — parse en kæde af stilnavne for arvede stilarter
StyleParser.is_setext_heading() — tjek om en stil er en Setext‑stil‑overskrift
StyleParser.extract_all_styles() — udtræk individuelle stilnavne fra en kommasepareret kæde

Nummereringsdatamodel

Den analyserede nummereringsdata gemmes i strukturerede objekter:

Klasse	Nøgleegenskaber
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Resumé

Parser	Formål
`NumberingParser`	Udtræk liste nummereringsdefinitioner
`StyleParser`	Analyser stilnavne til struktureret information