Как да извлечете структурата на документа с парсъри в Python

Как да извлечете структурата на документа с парсъри

Aspose.Words FOSS for Python предоставя класове за парсване за извличане на структурирани данни от DOCX документи. Това ръководство обхваща NumberingParser за номериране на списъци и StyleParser за стилове на документа.

Предварителни условия

Инсталирайте библиотеката:

pip install aspose-words-foss>=26.4.0

Изисква Python 3.10 или по-нова.

Парсер за номериране

NumberingParser чете дефинициите за номериране на списъци от DOCX пакет. След извикване на parse_numbering_part() можете да заявите свойства на списъка:

NumberingParser.get_list_info() — извлича информация за конкретен списък по неговото ID
NumberingParser.is_ordered_list() — проверява дали ниво на списъка е подредено или с булети
NumberingParser.get_start_value() — получава началния номер за ниво на списъка
NumberingParser.get_delimiter() — получава низ‑делител за ниво на списъка

Парсер за стилове

StyleParser анализира имената на стиловете в структурирани ParsedStyle обекти, като идентифицира заглавия, блокови цитати, блокове с код и абзаци от списъци:

StyleParser.parse() — разбор на име на стил в обект ParsedStyle
StyleParser.get_style_chain() — разбор на верига от имена на стилове за наследени стилове
StyleParser.is_setext_heading() — проверка дали стилът е заглавие в Setext‑стил
StyleParser.extract_all_styles() — извличане на отделни имена на стилове от верига, разделена със запетая

Модел на данните за номериране

Разбраните данни за номериране се съхраняват в структурирани обекти:

Клас	Ключови свойства
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

Обобщение

Parser	Purpose
`NumberingParser`	Извличане на дефиниции за номериране на списъци
`StyleParser`	Анализиране на имената на стиловете в структурирана информация