Kaip išgauti dokumento struktūrą naudojant parserius Python kalboje

Kaip išgauti dokumento struktūrą naudojant analizatorius

Aspose.Words FOSS for Python suteikia analizatorių klases, skirtas struktūrizuotų duomenų išgavimui iš DOCX dokumentų. Šiame vadove aptariama NumberingParser, susijusi su sąrašo numeravimu, ir StyleParser, susijusi su dokumento stiliais.

Būtinosios sąlygos

Įdiekite biblioteką:

pip install aspose-words-foss>=26.4.0

Reikalauja Python 3.10 arba naujesnės.

Numeravimo analizatorius

NumberingParser nuskaito sąrašo numeravimo apibrėžimus iš DOCX paketo. Iškvietus parse_numbering_part(), galite užklausti sąrašo savybių:

NumberingParser.get_list_info() — gauti informaciją apie konkretų sąrašą pagal jo ID
NumberingParser.is_ordered_list() — patikrinti, ar sąrašo lygis yra numeruotas ar su ženkleliais
NumberingParser.get_start_value() — gauti pradžios numerį sąrašo lygiui
NumberingParser.get_delimiter() — gauti skyriklio eilutę sąrašo lygiui

Stiliaus analizatorius

StyleParser analizuoja stiliaus pavadinimus į struktūrizuotus ParsedStyle objektus, nustatydama antraštes, citatas, kodo blokus ir sąrašo pastraipas:

StyleParser.parse() — išanalizuoti stiliaus pavadinimą į ParsedStyle objektą
StyleParser.get_style_chain() — išanalizuoti stilių pavadinimų seką paveldimiems stiliams
StyleParser.is_setext_heading() — patikrinti, ar stilius yra Setext tipo antraštė
StyleParser.extract_all_styles() — išgauti atskirus stilių pavadinimus iš kableliais atskirtos sekos

Numeravimo duomenų modelis

Išanalizuoti numeravimo duomenys saugomi struktūruotuose objektuose:

Klasė	Pagrindinės savybės
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Santrauka

Analizatorius	Tikslas
`NumberingParser`	Išgauti sąrašo numeravimo apibrėžimus
`StyleParser`	Išanalizuoti stilių pavadinimus į struktūruotą informaciją