איך לחלץ מבנה מסמך עם מפענחים בפייתון

כיצד לחלץ מבנה מסמך עם מפענחים

Aspose.Words FOSS for Python מספק מחלקות parser לחילוץ נתונים מובנים ממסמכי DOCX. מדריך זה מכסה NumberingParser למספרי רשימות ו‑StyleParser לסגנונות המסמך.

דרישות מקדימות

התקן את הספרייה:

pip install aspose-words-foss>=26.4.0

דורש Python 3.10 או גרסה מאוחרת יותר.

מפרש מספור

NumberingParser קורא הגדרות מספור רשימות מחבילת DOCX. לאחר קריאה ל-parse_numbering_part(), ניתן לשאול על מאפייני הרשימה:

NumberingParser.get_list_info() — לאחזר מידע על רשימה ספציפית לפי המזהה שלה
NumberingParser.is_ordered_list() — לבדוק האם רמת רשימה היא מסודרת או עם תבליטים
NumberingParser.get_start_value() — לקבל את המספר ההתחלתי עבור רמת רשימה
NumberingParser.get_delimiter() — לקבל את מחרוזת המפריד עבור רמת רשימה

מפרש סגנון

StyleParser מפענח שמות סגנון לאובייקטים מובנים של ParsedStyle, מזהה כותרות, ציטוטים, קטעי קוד ופסקאות ברשימות:

StyleParser.parse() — ניתוח שם סגנון לאובייקט ParsedStyle
StyleParser.get_style_chain() — ניתוח שרשרת של שמות סגנון עבור סגנונות יורשים
StyleParser.is_setext_heading() — לבדוק אם סגנון הוא כותרת בסגנון Setext
StyleParser.extract_all_styles() — לחלץ שמות סגנון בודדים משרשרת מופרדת בפסיקים

מודל נתוני מספור

נתוני המספור המפוענחים מאוחסנים באובייקטים מובנים:

מחלקה	מאפיינים מרכזיים
`NumberingInfo`	`num_id`, `abstract_num_id`, `levels`
`NumberingLevel`	`format`, `start`, `text`

סיכום

מפענח	מטרה
`NumberingParser`	חילוץ הגדרות מספור רשימות
`StyleParser`	פענוח שמות סגנונות למידע מובנה