Как да извлечете структурата на документа с парсъри в Python

Как да извлечете структурата на документа с парсъри в Python

Как да извлечете структурата на документа с парсъри

Aspose.Words FOSS for Python предоставя класове за парсване за извличане на структурирани данни от DOCX документи. Това ръководство обхваща NumberingParser за номериране на списъци и StyleParser за стилове на документа.

Предварителни условия

Инсталирайте библиотеката:

pip install aspose-words-foss>=26.4.0

Изисква Python 3.10 или по-нова.

Парсер за номериране

NumberingParser чете дефинициите за номериране на списъци от DOCX пакет. След извикване на parse_numbering_part() можете да заявите свойства на списъка:

  • NumberingParser.get_list_info() — извлича информация за конкретен списък по неговото ID
  • NumberingParser.is_ordered_list() — проверява дали ниво на списъка е подредено или с булети
  • NumberingParser.get_start_value() — получава началния номер за ниво на списъка
  • NumberingParser.get_delimiter() — получава низ‑делител за ниво на списъка

Парсер за стилове

StyleParser анализира имената на стиловете в структурирани ParsedStyle обекти, като идентифицира заглавия, блокови цитати, блокове с код и абзаци от списъци:

  • StyleParser.parse() — разбор на име на стил в обект ParsedStyle
  • StyleParser.get_style_chain() — разбор на верига от имена на стилове за наследени стилове
  • StyleParser.is_setext_heading() — проверка дали стилът е заглавие в Setext‑стил
  • StyleParser.extract_all_styles() — извличане на отделни имена на стилове от верига, разделена със запетая

Модел на данните за номериране

Разбраните данни за номериране се съхраняват в структурирани обекти:

КласКлючови свойства
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

Обобщение

ParserPurpose
NumberingParserИзвличане на дефиниции за номериране на списъци
StyleParserАнализиране на имената на стиловете в структурирана информация
 Български