Hogyan vonjunk ki dokumentumstruktúrát a Python parserekkel

Hogyan vonjunk ki dokumentumstruktúrát a Python parserekkel

Hogyan lehet kinyerni a dokumentum struktúráját a parserekkel

Aspose.Words FOSS for Python parser osztályokat biztosít a DOCX dokumentumokból származó strukturált adatok kinyeréséhez. Ez az útmutató a NumberingParser listaszámozásra és a StyleParser dokumentumstílusokra vonatkozik.

Előfeltételek

Telepítse a könyvtárat:

pip install aspose-words-foss>=26.4.0

Python 3.10 vagy újabb szükséges.

Számozás elemző

NumberingParser beolvassa a listaszámozási definíciókat egy DOCX csomagból. A parse_numbering_part() meghívása után lekérdezheted a lista tulajdonságait:

  • NumberingParser.get_list_info() — lekérdezni egy adott lista információit azonosítója alapján
  • NumberingParser.is_ordered_list() — ellenőrizni, hogy egy lista szint rendezett vagy felsorolásos-e
  • NumberingParser.get_start_value() — lekérni a lista szint kezdő számát
  • NumberingParser.get_delimiter() — lekérni a lista szint elválasztó karakterláncát

Stílus elemző

StyleParser a stílusneveket strukturált ParsedStyle objektumokká alakítja, azonosítva a címsorokat, idézetblokkokat, kódrészeket és listabekezdéseket:

  • StyleParser.parse() — egy stílusnevet egy ParsedStyle objektummá elemez
  • StyleParser.get_style_chain() — egy stílusnevek láncát elemzi az örökölt stílusokhoz
  • StyleParser.is_setext_heading() — ellenőrzi, hogy a stílus Setext‑stílusú címsor‑e
  • StyleParser.extract_all_styles() — egy vesszővel elválasztott láncból egyedi stílusneveket nyer ki

Számozási adatmodell

A feldolgozott számozási adatok strukturált objektumokban tárolódnak:

OsztályKulcsfontosságú tulajdonságok
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Összefoglaló

ElemzőCél
NumberingParserLista számozási definíciók kinyerése
StyleParserStílusnevek elemzése strukturált információként
 Magyar