Kuinka poimia asiakirjan rakenne parsereilla Pythonissa
Kuinka poimia asiakirjan rakenne jäsentimillä
Aspose.Words FOSS for Python tarjoaa parser‑luokkia rakenteellisen datan poimimiseen DOCX-dokumenteista. Tämä opas kattaa NumberingParser luettelon numeroinnin ja StyleParser asiakirjan tyylit.
Edellytykset
Asenna kirjasto:
pip install aspose-words-foss>=26.4.0Vaatii Python 3.10 tai uudemman.
Numerointi Parser
NumberingParser lukee luettelon numerointimäärittelyt DOCX-paketista. Kun kutsut parse_numbering_part(), voit kysyä luettelon ominaisuuksia:
NumberingParser.get_list_info()— hae tietoja tietystä listasta sen ID:n perusteellaNumberingParser.is_ordered_list()— tarkista, onko listataso järjestetty vai luettelomerkittyNumberingParser.get_start_value()— hae listatason aloitusnumeroNumberingParser.get_delimiter()— hae listatason erotinmerkkijono
Tyylijäsennin
StyleParser jäsentää tyylinimet rakenteellisiin ParsedStyle-objekteihin, tunnistaen otsikot, lohkokitaukset, koodilohkot ja luettelokappaleet:
StyleParser.parse()— jäsentää tyylin nimenParsedStyle-objektiinStyleParser.get_style_chain()— jäsentää ketjun tyylinimiä perittyjen tyylien hakemiseksiStyleParser.is_setext_heading()— tarkistaa, onko tyyli Setext‑tyylinen otsikkoStyleParser.extract_all_styles()— poimia yksittäiset tyylinimet pilkulla erotetusta ketjusta
Numerointidatan malli
Jäsennetyt numerointitiedot tallennetaan rakenteellisiin objekteihin:
| Luokka | Keskeiset ominaisuudet |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Yhteenveto
| Jäsentäjä | Tarkoitus |
|---|---|
NumberingParser | Poimia luettelon numerointimääritelmät |
StyleParser | Jäsentää tyylinimet rakenteelliseen tietoon |