Come estrarre la struttura del documento con i parser in Python
Come estrarre la struttura del documento con i parser
Aspose.Words FOSS for Python fornisce classi parser per estrarre dati strutturati da documenti DOCX. Questa guida copre NumberingParser per la numerazione delle liste e StyleParser per gli stili del documento.
Prerequisiti
Installa la libreria:
pip install aspose-words-foss>=26.4.0Richiede Python 3.10 o versioni successive.
Parser di numerazione
NumberingParser legge le definizioni di numerazione delle liste da un pacchetto DOCX. Dopo aver chiamato parse_numbering_part(), è possibile interrogare le proprietà della lista:
NumberingParser.get_list_info()— recuperare informazioni su una lista specifica tramite il suo IDNumberingParser.is_ordered_list()— verificare se un livello di elenco è ordinato o puntatoNumberingParser.get_start_value()— ottenere il numero iniziale per un livello di elencoNumberingParser.get_delimiter()— ottenere la stringa delimitatore per un livello di elenco
Parser di stile
StyleParser analizza i nomi degli stili in oggetti strutturati ParsedStyle, identificando intestazioni, citazioni, blocchi di codice e paragrafi di elenco:
StyleParser.parse()— analizza un nome di stile in un oggettoParsedStyleStyleParser.get_style_chain()— analizza una catena di nomi di stile per stili ereditatiStyleParser.is_setext_heading()— verifica se uno stile è un’intestazione in stile SetextStyleParser.extract_all_styles()— estrae i singoli nomi di stile da una catena separata da virgole
Modello di dati di numerazione
I dati di numerazione analizzati sono memorizzati in oggetti strutturati:
| Classe | Proprietà chiave |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Riepilogo
| Parser | Scopo |
|---|---|
NumberingParser | Estrai le definizioni di numerazione delle liste |
StyleParser | Analizza i nomi degli stili in informazioni strutturate |