Come estrarre la struttura del documento con i parser in Python

Come estrarre la struttura del documento con i parser in Python

Come estrarre la struttura del documento con i parser

Aspose.Words FOSS for Python fornisce classi parser per estrarre dati strutturati da documenti DOCX. Questa guida copre NumberingParser per la numerazione delle liste e StyleParser per gli stili del documento.

Prerequisiti

Installa la libreria:

pip install aspose-words-foss>=26.4.0

Richiede Python 3.10 o versioni successive.

Parser di numerazione

NumberingParser legge le definizioni di numerazione delle liste da un pacchetto DOCX. Dopo aver chiamato parse_numbering_part(), è possibile interrogare le proprietà della lista:

  • NumberingParser.get_list_info() — recuperare informazioni su una lista specifica tramite il suo ID
  • NumberingParser.is_ordered_list() — verificare se un livello di elenco è ordinato o puntato
  • NumberingParser.get_start_value() — ottenere il numero iniziale per un livello di elenco
  • NumberingParser.get_delimiter() — ottenere la stringa delimitatore per un livello di elenco

Parser di stile

StyleParser analizza i nomi degli stili in oggetti strutturati ParsedStyle, identificando intestazioni, citazioni, blocchi di codice e paragrafi di elenco:

  • StyleParser.parse() — analizza un nome di stile in un oggetto ParsedStyle
  • StyleParser.get_style_chain() — analizza una catena di nomi di stile per stili ereditati
  • StyleParser.is_setext_heading() — verifica se uno stile è un’intestazione in stile Setext
  • StyleParser.extract_all_styles() — estrae i singoli nomi di stile da una catena separata da virgole

Modello di dati di numerazione

I dati di numerazione analizzati sono memorizzati in oggetti strutturati:

ClasseProprietà chiave
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Riepilogo

ParserScopo
NumberingParserEstrai le definizioni di numerazione delle liste
StyleParserAnalizza i nomi degli stili in informazioni strutturate
 Italiano