Comment extraire la structure du document avec les analyseurs en Python

Comment extraire la structure du document avec les analyseurs en Python

Comment extraire la structure du document avec des analyseurs

Aspose.Words FOSS for Python fournit des classes d’analyse pour extraire des données structurées à partir de documents DOCX. Ce guide couvre NumberingParser pour la numérotation des listes et StyleParser pour les styles de document.

Prérequis

Installez la bibliothèque :

pip install aspose-words-foss>=26.4.0

Nécessite Python 3.10 ou version ultérieure.

Analyseur de numérotation

NumberingParser lit les définitions de numérotation de listes à partir d’un package DOCX. Après avoir appelé parse_numbering_part(), vous pouvez interroger les propriétés de la liste :

  • NumberingParser.get_list_info() — récupérer les informations sur une liste spécifique par son ID
  • NumberingParser.is_ordered_list() — vérifier si un niveau de liste est ordonné ou à puces
  • NumberingParser.get_start_value() — obtenir le numéro de départ pour un niveau de liste
  • NumberingParser.get_delimiter() — obtenir la chaîne délimiteur pour un niveau de liste

Analyseur de style

StyleParser analyse les noms de style en objets structurés ParsedStyle, identifiant les titres, les citations, les blocs de code et les paragraphes de listes :

  • StyleParser.parse() — analyser un nom de style en un objet ParsedStyle
  • StyleParser.get_style_chain() — analyser une chaîne de noms de style pour les styles hérités
  • StyleParser.is_setext_heading() — vérifier si un style est un titre de type Setext
  • StyleParser.extract_all_styles() — extraire les noms de style individuels d’une chaîne séparée par des virgules

Modèle de données de numérotation

Les données de numérotation analysées sont stockées dans des objets structurés :

ClassePropriétés clés
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Résumé

AnalyseurObjectif
NumberingParserExtraire les définitions de numérotation de listes
StyleParserAnalyser les noms de style en informations structurées
 Français