Comment extraire la structure du document avec les analyseurs en Python

Comment extraire la structure du document avec des analyseurs

Aspose.Words FOSS for Python fournit des classes d’analyse pour extraire des données structurées à partir de documents DOCX. Ce guide couvre NumberingParser pour la numérotation des listes et StyleParser pour les styles de document.

Prérequis

Installez la bibliothèque :

pip install aspose-words-foss>=26.4.0

Nécessite Python 3.10 ou version ultérieure.

Analyseur de numérotation

NumberingParser lit les définitions de numérotation de listes à partir d’un package DOCX. Après avoir appelé parse_numbering_part(), vous pouvez interroger les propriétés de la liste :

NumberingParser.get_list_info() — récupérer les informations sur une liste spécifique par son ID
NumberingParser.is_ordered_list() — vérifier si un niveau de liste est ordonné ou à puces
NumberingParser.get_start_value() — obtenir le numéro de départ pour un niveau de liste
NumberingParser.get_delimiter() — obtenir la chaîne délimiteur pour un niveau de liste

Analyseur de style

StyleParser analyse les noms de style en objets structurés ParsedStyle, identifiant les titres, les citations, les blocs de code et les paragraphes de listes :

StyleParser.parse() — analyser un nom de style en un objet ParsedStyle
StyleParser.get_style_chain() — analyser une chaîne de noms de style pour les styles hérités
StyleParser.is_setext_heading() — vérifier si un style est un titre de type Setext
StyleParser.extract_all_styles() — extraire les noms de style individuels d’une chaîne séparée par des virgules

Modèle de données de numérotation

Les données de numérotation analysées sont stockées dans des objets structurés :

Classe	Propriétés clés
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Résumé

Analyseur	Objectif
`NumberingParser`	Extraire les définitions de numérotation de listes
`StyleParser`	Analyser les noms de style en informations structurées