Kaip išgauti dokumento struktūrą naudojant parserius Python kalboje
Kaip išgauti dokumento struktūrą naudojant analizatorius
Aspose.Words FOSS for Python suteikia analizatorių klases, skirtas struktūrizuotų duomenų išgavimui iš DOCX dokumentų. Šiame vadove aptariama NumberingParser, susijusi su sąrašo numeravimu, ir StyleParser, susijusi su dokumento stiliais.
Būtinosios sąlygos
Įdiekite biblioteką:
pip install aspose-words-foss>=26.4.0Reikalauja Python 3.10 arba naujesnės.
Numeravimo analizatorius
NumberingParser nuskaito sąrašo numeravimo apibrėžimus iš DOCX paketo. Iškvietus parse_numbering_part(), galite užklausti sąrašo savybių:
NumberingParser.get_list_info()— gauti informaciją apie konkretų sąrašą pagal jo IDNumberingParser.is_ordered_list()— patikrinti, ar sąrašo lygis yra numeruotas ar su ženkleliaisNumberingParser.get_start_value()— gauti pradžios numerį sąrašo lygiuiNumberingParser.get_delimiter()— gauti skyriklio eilutę sąrašo lygiui
Stiliaus analizatorius
StyleParser analizuoja stiliaus pavadinimus į struktūrizuotus ParsedStyle objektus, nustatydama antraštes, citatas, kodo blokus ir sąrašo pastraipas:
StyleParser.parse()— išanalizuoti stiliaus pavadinimą įParsedStyleobjektąStyleParser.get_style_chain()— išanalizuoti stilių pavadinimų seką paveldimiems stiliamsStyleParser.is_setext_heading()— patikrinti, ar stilius yra Setext tipo antraštėStyleParser.extract_all_styles()— išgauti atskirus stilių pavadinimus iš kableliais atskirtos sekos
Numeravimo duomenų modelis
Išanalizuoti numeravimo duomenys saugomi struktūruotuose objektuose:
| Klasė | Pagrindinės savybės |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Santrauka
| Analizatorius | Tikslas |
|---|---|
NumberingParser | Išgauti sąrašo numeravimo apibrėžimus |
StyleParser | Išanalizuoti stilių pavadinimus į struktūruotą informaciją |