Cómo extraer la estructura del documento con analizadores en Python

Cómo extraer la estructura del documento con analizadores

Aspose.Words FOSS for Python proporciona clases de analizador para extraer datos estructurados de documentos DOCX. Esta guía cubre NumberingParser para la numeración de listas y StyleParser para los estilos de documento.

Requisitos

Instale la biblioteca:

pip install aspose-words-foss>=26.4.0

Requiere Python 3.10 o posterior.

Analizador de numeración

NumberingParser lee las definiciones de numeración de listas de un paquete DOCX. Después de llamar a parse_numbering_part(), puedes consultar las propiedades de la lista:

NumberingParser.get_list_info() — recuperar información sobre una lista específica por su ID
NumberingParser.is_ordered_list() — verificar si un nivel de lista es ordenado o con viñetas
NumberingParser.get_start_value() — obtener el número inicial para un nivel de lista
NumberingParser.get_delimiter() — obtener la cadena delimitadora para un nivel de lista

Analizador de estilo

StyleParser analiza los nombres de estilo en objetos estructurados ParsedStyle, identificando encabezados, citas en bloque, bloques de código y párrafos de lista:

StyleParser.parse() — analizar un nombre de estilo en un objeto ParsedStyle
StyleParser.get_style_chain() — analizar una cadena de nombres de estilo para estilos heredados
StyleParser.is_setext_heading() — comprobar si un estilo es un encabezado de estilo Setext
StyleParser.extract_all_styles() — extraer nombres de estilo individuales de una cadena separada por comas

Modelo de datos de numeración

Los datos de numeración analizados se almacenan en objetos estructurados:

Clase	Propiedades clave
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Resumen

Analizador	Propósito
`NumberingParser`	Extraer definiciones de numeración de listas
`StyleParser`	Analizar nombres de estilo en información estructurada