Kaip išgauti dokumento struktūrą naudojant parserius Python kalboje

Kaip išgauti dokumento struktūrą naudojant parserius Python kalboje

Kaip išgauti dokumento struktūrą naudojant analizatorius

Aspose.Words FOSS for Python suteikia analizatorių klases, skirtas struktūrizuotų duomenų išgavimui iš DOCX dokumentų. Šiame vadove aptariama NumberingParser, susijusi su sąrašo numeravimu, ir StyleParser, susijusi su dokumento stiliais.

Būtinosios sąlygos

Įdiekite biblioteką:

pip install aspose-words-foss>=26.4.0

Reikalauja Python 3.10 arba naujesnės.

Numeravimo analizatorius

NumberingParser nuskaito sąrašo numeravimo apibrėžimus iš DOCX paketo. Iškvietus parse_numbering_part(), galite užklausti sąrašo savybių:

  • NumberingParser.get_list_info() — gauti informaciją apie konkretų sąrašą pagal jo ID
  • NumberingParser.is_ordered_list() — patikrinti, ar sąrašo lygis yra numeruotas ar su ženkleliais
  • NumberingParser.get_start_value() — gauti pradžios numerį sąrašo lygiui
  • NumberingParser.get_delimiter() — gauti skyriklio eilutę sąrašo lygiui

Stiliaus analizatorius

StyleParser analizuoja stiliaus pavadinimus į struktūrizuotus ParsedStyle objektus, nustatydama antraštes, citatas, kodo blokus ir sąrašo pastraipas:

  • StyleParser.parse() — išanalizuoti stiliaus pavadinimą į ParsedStyle objektą
  • StyleParser.get_style_chain() — išanalizuoti stilių pavadinimų seką paveldimiems stiliams
  • StyleParser.is_setext_heading() — patikrinti, ar stilius yra Setext tipo antraštė
  • StyleParser.extract_all_styles() — išgauti atskirus stilių pavadinimus iš kableliais atskirtos sekos

Numeravimo duomenų modelis

Išanalizuoti numeravimo duomenys saugomi struktūruotuose objektuose:

KlasėPagrindinės savybės
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Santrauka

AnalizatoriusTikslas
NumberingParserIšgauti sąrašo numeravimo apibrėžimus
StyleParserIšanalizuoti stilių pavadinimus į struktūruotą informaciją
 Lietuvių