Kuinka poimia asiakirjan rakenne parsereilla Pythonissa

Kuinka poimia asiakirjan rakenne jäsentimillä

Aspose.Words FOSS for Python tarjoaa parser‑luokkia rakenteellisen datan poimimiseen DOCX-dokumenteista. Tämä opas kattaa NumberingParser luettelon numeroinnin ja StyleParser asiakirjan tyylit.

Edellytykset

Asenna kirjasto:

pip install aspose-words-foss>=26.4.0

Vaatii Python 3.10 tai uudemman.

Numerointi Parser

NumberingParser lukee luettelon numerointimäärittelyt DOCX-paketista. Kun kutsut parse_numbering_part(), voit kysyä luettelon ominaisuuksia:

NumberingParser.get_list_info() — hae tietoja tietystä listasta sen ID:n perusteella
NumberingParser.is_ordered_list() — tarkista, onko listataso järjestetty vai luettelomerkitty
NumberingParser.get_start_value() — hae listatason aloitusnumero
NumberingParser.get_delimiter() — hae listatason erotinmerkkijono

Tyylijäsennin

StyleParser jäsentää tyylinimet rakenteellisiin ParsedStyle-objekteihin, tunnistaen otsikot, lohkokitaukset, koodilohkot ja luettelokappaleet:

StyleParser.parse() — jäsentää tyylin nimen ParsedStyle-objektiin
StyleParser.get_style_chain() — jäsentää ketjun tyylinimiä perittyjen tyylien hakemiseksi
StyleParser.is_setext_heading() — tarkistaa, onko tyyli Setext‑tyylinen otsikko
StyleParser.extract_all_styles() — poimia yksittäiset tyylinimet pilkulla erotetusta ketjusta

Numerointidatan malli

Jäsennetyt numerointitiedot tallennetaan rakenteellisiin objekteihin:

Luokka	Keskeiset ominaisuudet
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Yhteenveto

Jäsentäjä	Tarkoitus
`NumberingParser`	Poimia luettelon numerointimääritelmät
`StyleParser`	Jäsentää tyylinimet rakenteelliseen tietoon