Как да извлечете структурата на документа с парсъри в Python
Как да извлечете структурата на документа с парсъри
Aspose.Words FOSS for Python предоставя класове за парсване за извличане на структурирани данни от DOCX документи. Това ръководство обхваща NumberingParser за номериране на списъци и StyleParser за стилове на документа.
Предварителни условия
Инсталирайте библиотеката:
pip install aspose-words-foss>=26.4.0Изисква Python 3.10 или по-нова.
Парсер за номериране
NumberingParser чете дефинициите за номериране на списъци от DOCX пакет. След извикване на parse_numbering_part() можете да заявите свойства на списъка:
NumberingParser.get_list_info()— извлича информация за конкретен списък по неговото IDNumberingParser.is_ordered_list()— проверява дали ниво на списъка е подредено или с булетиNumberingParser.get_start_value()— получава началния номер за ниво на списъкаNumberingParser.get_delimiter()— получава низ‑делител за ниво на списъка
Парсер за стилове
StyleParser анализира имената на стиловете в структурирани ParsedStyle обекти, като идентифицира заглавия, блокови цитати, блокове с код и абзаци от списъци:
StyleParser.parse()— разбор на име на стил в обектParsedStyleStyleParser.get_style_chain()— разбор на верига от имена на стилове за наследени стиловеStyleParser.is_setext_heading()— проверка дали стилът е заглавие в Setext‑стилStyleParser.extract_all_styles()— извличане на отделни имена на стилове от верига, разделена със запетая
Модел на данните за номериране
Разбраните данни за номериране се съхраняват в структурирани обекти:
| Клас | Ключови свойства |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
Обобщение
| Parser | Purpose |
|---|---|
NumberingParser | Извличане на дефиниции за номериране на списъци |
StyleParser | Анализиране на имената на стиловете в структурирана информация |