Hogyan vonjunk ki dokumentumstruktúrát a Python parserekkel
Hogyan lehet kinyerni a dokumentum struktúráját a parserekkel
Aspose.Words FOSS for Python parser osztályokat biztosít a DOCX dokumentumokból származó strukturált adatok kinyeréséhez. Ez az útmutató a NumberingParser listaszámozásra és a StyleParser dokumentumstílusokra vonatkozik.
Előfeltételek
Telepítse a könyvtárat:
pip install aspose-words-foss>=26.4.0Python 3.10 vagy újabb szükséges.
Számozás elemző
NumberingParser beolvassa a listaszámozási definíciókat egy DOCX csomagból. A parse_numbering_part() meghívása után lekérdezheted a lista tulajdonságait:
NumberingParser.get_list_info()— lekérdezni egy adott lista információit azonosítója alapjánNumberingParser.is_ordered_list()— ellenőrizni, hogy egy lista szint rendezett vagy felsorolásos-eNumberingParser.get_start_value()— lekérni a lista szint kezdő számátNumberingParser.get_delimiter()— lekérni a lista szint elválasztó karakterláncát
Stílus elemző
StyleParser a stílusneveket strukturált ParsedStyle objektumokká alakítja, azonosítva a címsorokat, idézetblokkokat, kódrészeket és listabekezdéseket:
StyleParser.parse()— egy stílusnevet egyParsedStyleobjektummá elemezStyleParser.get_style_chain()— egy stílusnevek láncát elemzi az örökölt stílusokhozStyleParser.is_setext_heading()— ellenőrzi, hogy a stílus Setext‑stílusú címsor‑eStyleParser.extract_all_styles()— egy vesszővel elválasztott láncból egyedi stílusneveket nyer ki
Számozási adatmodell
A feldolgozott számozási adatok strukturált objektumokban tárolódnak:
| Osztály | Kulcsfontosságú tulajdonságok |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Összefoglaló
| Elemző | Cél |
|---|---|
NumberingParser | Lista számozási definíciók kinyerése |
StyleParser | Stílusnevek elemzése strukturált információként |