Cómo extraer la estructura del documento con analizadores en Python
Cómo extraer la estructura del documento con analizadores
Aspose.Words FOSS for Python proporciona clases de analizador para extraer datos estructurados de documentos DOCX. Esta guía cubre NumberingParser para la numeración de listas y StyleParser para los estilos de documento.
Requisitos
Instale la biblioteca:
pip install aspose-words-foss>=26.4.0Requiere Python 3.10 o posterior.
Analizador de numeración
NumberingParser lee las definiciones de numeración de listas de un paquete DOCX. Después de llamar a parse_numbering_part(), puedes consultar las propiedades de la lista:
NumberingParser.get_list_info()— recuperar información sobre una lista específica por su IDNumberingParser.is_ordered_list()— verificar si un nivel de lista es ordenado o con viñetasNumberingParser.get_start_value()— obtener el número inicial para un nivel de listaNumberingParser.get_delimiter()— obtener la cadena delimitadora para un nivel de lista
Analizador de estilo
StyleParser analiza los nombres de estilo en objetos estructurados ParsedStyle, identificando encabezados, citas en bloque, bloques de código y párrafos de lista:
StyleParser.parse()— analizar un nombre de estilo en un objetoParsedStyleStyleParser.get_style_chain()— analizar una cadena de nombres de estilo para estilos heredadosStyleParser.is_setext_heading()— comprobar si un estilo es un encabezado de estilo SetextStyleParser.extract_all_styles()— extraer nombres de estilo individuales de una cadena separada por comas
Modelo de datos de numeración
Los datos de numeración analizados se almacenan en objetos estructurados:
| Clase | Propiedades clave |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Resumen
| Analizador | Propósito |
|---|---|
NumberingParser | Extraer definiciones de numeración de listas |
StyleParser | Analizar nombres de estilo en información estructurada |