Cómo extraer la estructura del documento con analizadores en Python

Cómo extraer la estructura del documento con analizadores en Python

Cómo extraer la estructura del documento con analizadores

Aspose.Words FOSS for Python proporciona clases de analizador para extraer datos estructurados de documentos DOCX. Esta guía cubre NumberingParser para la numeración de listas y StyleParser para los estilos de documento.

Requisitos

Instale la biblioteca:

pip install aspose-words-foss>=26.4.0

Requiere Python 3.10 o posterior.

Analizador de numeración

NumberingParser lee las definiciones de numeración de listas de un paquete DOCX. Después de llamar a parse_numbering_part(), puedes consultar las propiedades de la lista:

  • NumberingParser.get_list_info() — recuperar información sobre una lista específica por su ID
  • NumberingParser.is_ordered_list() — verificar si un nivel de lista es ordenado o con viñetas
  • NumberingParser.get_start_value() — obtener el número inicial para un nivel de lista
  • NumberingParser.get_delimiter() — obtener la cadena delimitadora para un nivel de lista

Analizador de estilo

StyleParser analiza los nombres de estilo en objetos estructurados ParsedStyle, identificando encabezados, citas en bloque, bloques de código y párrafos de lista:

  • StyleParser.parse() — analizar un nombre de estilo en un objeto ParsedStyle
  • StyleParser.get_style_chain() — analizar una cadena de nombres de estilo para estilos heredados
  • StyleParser.is_setext_heading() — comprobar si un estilo es un encabezado de estilo Setext
  • StyleParser.extract_all_styles() — extraer nombres de estilo individuales de una cadena separada por comas

Modelo de datos de numeración

Los datos de numeración analizados se almacenan en objetos estructurados:

ClasePropiedades clave
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Resumen

AnalizadorPropósito
NumberingParserExtraer definiciones de numeración de listas
StyleParserAnalizar nombres de estilo en información estructurada
 Español