איך לחלץ מבנה מסמך עם מפענחים בפייתון

איך לחלץ מבנה מסמך עם מפענחים בפייתון

כיצד לחלץ מבנה מסמך עם מפענחים

Aspose.Words FOSS for Python מספק מחלקות parser לחילוץ נתונים מובנים ממסמכי DOCX. מדריך זה מכסה NumberingParser למספרי רשימות ו‑StyleParser לסגנונות המסמך.

דרישות מקדימות

התקן את הספרייה:

pip install aspose-words-foss>=26.4.0

דורש Python 3.10 או גרסה מאוחרת יותר.

מפרש מספור

NumberingParser קורא הגדרות מספור רשימות מחבילת DOCX. לאחר קריאה ל-parse_numbering_part(), ניתן לשאול על מאפייני הרשימה:

  • NumberingParser.get_list_info() — לאחזר מידע על רשימה ספציפית לפי המזהה שלה
  • NumberingParser.is_ordered_list() — לבדוק האם רמת רשימה היא מסודרת או עם תבליטים
  • NumberingParser.get_start_value() — לקבל את המספר ההתחלתי עבור רמת רשימה
  • NumberingParser.get_delimiter() — לקבל את מחרוזת המפריד עבור רמת רשימה

מפרש סגנון

StyleParser מפענח שמות סגנון לאובייקטים מובנים של ParsedStyle, מזהה כותרות, ציטוטים, קטעי קוד ופסקאות ברשימות:

  • StyleParser.parse() — ניתוח שם סגנון לאובייקט ParsedStyle
  • StyleParser.get_style_chain() — ניתוח שרשרת של שמות סגנון עבור סגנונות יורשים
  • StyleParser.is_setext_heading() — לבדוק אם סגנון הוא כותרת בסגנון Setext
  • StyleParser.extract_all_styles() — לחלץ שמות סגנון בודדים משרשרת מופרדת בפסיקים

מודל נתוני מספור

נתוני המספור המפוענחים מאוחסנים באובייקטים מובנים:

מחלקהמאפיינים מרכזיים
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

סיכום

מפענחמטרה
NumberingParserחילוץ הגדרות מספור רשימות
StyleParserפענוח שמות סגנונות למידע מובנה
 עברית