איך לחלץ מבנה מסמך עם מפענחים בפייתון
כיצד לחלץ מבנה מסמך עם מפענחים
Aspose.Words FOSS for Python מספק מחלקות parser לחילוץ נתונים מובנים ממסמכי DOCX. מדריך זה מכסה NumberingParser למספרי רשימות ו‑StyleParser לסגנונות המסמך.
דרישות מקדימות
התקן את הספרייה:
pip install aspose-words-foss>=26.4.0דורש Python 3.10 או גרסה מאוחרת יותר.
מפרש מספור
NumberingParser קורא הגדרות מספור רשימות מחבילת DOCX. לאחר קריאה ל-parse_numbering_part(), ניתן לשאול על מאפייני הרשימה:
NumberingParser.get_list_info()— לאחזר מידע על רשימה ספציפית לפי המזהה שלהNumberingParser.is_ordered_list()— לבדוק האם רמת רשימה היא מסודרת או עם תבליטיםNumberingParser.get_start_value()— לקבל את המספר ההתחלתי עבור רמת רשימהNumberingParser.get_delimiter()— לקבל את מחרוזת המפריד עבור רמת רשימה
מפרש סגנון
StyleParser מפענח שמות סגנון לאובייקטים מובנים של ParsedStyle, מזהה כותרות, ציטוטים, קטעי קוד ופסקאות ברשימות:
StyleParser.parse()— ניתוח שם סגנון לאובייקטParsedStyleStyleParser.get_style_chain()— ניתוח שרשרת של שמות סגנון עבור סגנונות יורשיםStyleParser.is_setext_heading()— לבדוק אם סגנון הוא כותרת בסגנון SetextStyleParser.extract_all_styles()— לחלץ שמות סגנון בודדים משרשרת מופרדת בפסיקים
מודל נתוני מספור
נתוני המספור המפוענחים מאוחסנים באובייקטים מובנים:
| מחלקה | מאפיינים מרכזיים |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
סיכום
| מפענח | מטרה |
|---|---|
NumberingParser | חילוץ הגדרות מספור רשימות |
StyleParser | פענוח שמות סגנונות למידע מובנה |