Comment extraire la structure du document avec les analyseurs en Python
Comment extraire la structure du document avec des analyseurs
Aspose.Words FOSS for Python fournit des classes d’analyse pour extraire des données structurées à partir de documents DOCX. Ce guide couvre NumberingParser pour la numérotation des listes et StyleParser pour les styles de document.
Prérequis
Installez la bibliothèque :
pip install aspose-words-foss>=26.4.0Nécessite Python 3.10 ou version ultérieure.
Analyseur de numérotation
NumberingParser lit les définitions de numérotation de listes à partir d’un package DOCX. Après avoir appelé parse_numbering_part(), vous pouvez interroger les propriétés de la liste :
NumberingParser.get_list_info()— récupérer les informations sur une liste spécifique par son IDNumberingParser.is_ordered_list()— vérifier si un niveau de liste est ordonné ou à pucesNumberingParser.get_start_value()— obtenir le numéro de départ pour un niveau de listeNumberingParser.get_delimiter()— obtenir la chaîne délimiteur pour un niveau de liste
Analyseur de style
StyleParser analyse les noms de style en objets structurés ParsedStyle, identifiant les titres, les citations, les blocs de code et les paragraphes de listes :
StyleParser.parse()— analyser un nom de style en un objetParsedStyleStyleParser.get_style_chain()— analyser une chaîne de noms de style pour les styles héritésStyleParser.is_setext_heading()— vérifier si un style est un titre de type SetextStyleParser.extract_all_styles()— extraire les noms de style individuels d’une chaîne séparée par des virgules
Modèle de données de numérotation
Les données de numérotation analysées sont stockées dans des objets structurés :
| Classe | Propriétés clés |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Résumé
| Analyseur | Objectif |
|---|---|
NumberingParser | Extraire les définitions de numérotation de listes |
StyleParser | Analyser les noms de style en informations structurées |