Kuinka poimia asiakirjan rakenne parsereilla Pythonissa

Kuinka poimia asiakirjan rakenne parsereilla Pythonissa

Kuinka poimia asiakirjan rakenne jäsentimillä

Aspose.Words FOSS for Python tarjoaa parser‑luokkia rakenteellisen datan poimimiseen DOCX-dokumenteista. Tämä opas kattaa NumberingParser luettelon numeroinnin ja StyleParser asiakirjan tyylit.

Edellytykset

Asenna kirjasto:

pip install aspose-words-foss>=26.4.0

Vaatii Python 3.10 tai uudemman.

Numerointi Parser

NumberingParser lukee luettelon numerointimäärittelyt DOCX-paketista. Kun kutsut parse_numbering_part(), voit kysyä luettelon ominaisuuksia:

  • NumberingParser.get_list_info() — hae tietoja tietystä listasta sen ID:n perusteella
  • NumberingParser.is_ordered_list() — tarkista, onko listataso järjestetty vai luettelomerkitty
  • NumberingParser.get_start_value() — hae listatason aloitusnumero
  • NumberingParser.get_delimiter() — hae listatason erotinmerkkijono

Tyylijäsennin

StyleParser jäsentää tyylinimet rakenteellisiin ParsedStyle-objekteihin, tunnistaen otsikot, lohkokitaukset, koodilohkot ja luettelokappaleet:

  • StyleParser.parse() — jäsentää tyylin nimen ParsedStyle-objektiin
  • StyleParser.get_style_chain() — jäsentää ketjun tyylinimiä perittyjen tyylien hakemiseksi
  • StyleParser.is_setext_heading() — tarkistaa, onko tyyli Setext‑tyylinen otsikko
  • StyleParser.extract_all_styles() — poimia yksittäiset tyylinimet pilkulla erotetusta ketjusta

Numerointidatan malli

Jäsennetyt numerointitiedot tallennetaan rakenteellisiin objekteihin:

LuokkaKeskeiset ominaisuudet
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Yhteenveto

JäsentäjäTarkoitus
NumberingParserPoimia luettelon numerointimääritelmät
StyleParserJäsentää tyylinimet rakenteelliseen tietoon
 Suomi