Come estrarre la struttura del documento con i parser in Python

Come estrarre la struttura del documento con i parser

Aspose.Words FOSS for Python fornisce classi parser per estrarre dati strutturati da documenti DOCX. Questa guida copre NumberingParser per la numerazione delle liste e StyleParser per gli stili del documento.

Prerequisiti

Installa la libreria:

pip install aspose-words-foss>=26.4.0

Richiede Python 3.10 o versioni successive.

Parser di numerazione

NumberingParser legge le definizioni di numerazione delle liste da un pacchetto DOCX. Dopo aver chiamato parse_numbering_part(), è possibile interrogare le proprietà della lista:

NumberingParser.get_list_info() — recuperare informazioni su una lista specifica tramite il suo ID
NumberingParser.is_ordered_list() — verificare se un livello di elenco è ordinato o puntato
NumberingParser.get_start_value() — ottenere il numero iniziale per un livello di elenco
NumberingParser.get_delimiter() — ottenere la stringa delimitatore per un livello di elenco

Parser di stile

StyleParser analizza i nomi degli stili in oggetti strutturati ParsedStyle, identificando intestazioni, citazioni, blocchi di codice e paragrafi di elenco:

StyleParser.parse() — analizza un nome di stile in un oggetto ParsedStyle
StyleParser.get_style_chain() — analizza una catena di nomi di stile per stili ereditati
StyleParser.is_setext_heading() — verifica se uno stile è un’intestazione in stile Setext
StyleParser.extract_all_styles() — estrae i singoli nomi di stile da una catena separata da virgole

Modello di dati di numerazione

I dati di numerazione analizzati sono memorizzati in oggetti strutturati:

Classe	Proprietà chiave
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Riepilogo

Parser	Scopo
`NumberingParser`	Estrai le definizioni di numerazione delle liste
`StyleParser`	Analizza i nomi degli stili in informazioni strutturate