چگونه ساختار سند را با پارسرها در پایتون استخراج کنیم

چگونه ساختار سند را با پارسرها در پایتون استخراج کنیم

چگونه ساختار سند را با پارسرها استخراج کنیم

Aspose.Words FOSS for Python کلاس‌های تجزیه‌کننده‌ای را برای استخراج داده‌های ساختاریافته از اسناد DOCX فراهم می‌کند. این راهنما NumberingParser برای شماره‌گذاری فهرست و StyleParser برای سبک‌های سند را پوشش می‌دهد.

پیش‌نیازها

نصب کتابخانه:

pip install aspose-words-foss>=26.4.0

نیاز به Python 3.10 یا بالاتر دارد.

تجزیه‌گر شماره‌گذاری

NumberingParser تعاریف شماره‌گذاری فهرست را از یک بسته DOCX می‌خواند. پس از فراخوانی parse_numbering_part()، می‌توانید ویژگی‌های فهرست را پرس‌وجو کنید:

  • NumberingParser.get_list_info() — دریافت اطلاعات درباره یک فهرست خاص بر اساس شناسهٔ آن
  • NumberingParser.is_ordered_list() — بررسی اینکه آیا سطح فهرست به صورت شماره‌دار است یا با نقطه
  • NumberingParser.get_start_value() — دریافت شمارهٔ شروع برای یک سطح فهرست
  • NumberingParser.get_delimiter() — دریافت رشتهٔ جداکننده برای یک سطح فهرست

تحلیلگر سبک

StyleParser نام‌های سبک را به اشیای ساختاری ParsedStyle تجزیه می‌کند و عناوین، نقل‌قول‌ها، بلوک‌های کد و پاراگراف‌های فهرست را شناسایی می‌نماید:

  • StyleParser.parse() — یک نام سبک را به شیء ParsedStyle تجزیه می‌کند
  • StyleParser.get_style_chain() — یک زنجیره از نام‌های سبک را برای سبک‌های ارث‌برده تجزیه می‌کند
  • StyleParser.is_setext_heading() — بررسی می‌کند که آیا یک سبک، عنوانی به سبک Setext است یا خیر
  • StyleParser.extract_all_styles() — نام‌های سبک جداگانه را از یک زنجیرهٔ جداشده با کاما استخراج می‌کند

مدل داده شماره‌گذاری

داده‌های شماره‌گذاری تجزیه‌شده در اشیای ساختاری ذخیره می‌شوند:

کلاسویژگی‌های کلیدی
NumberingInfonum_id, abstract_num_id, levels
NumberingLevelformat, start, text

خلاصه

پارس‌کنندههدف
NumberingParserاستخراج تعاریف شماره‌گذاری فهرست
StyleParserتجزیه نام‌های سبک به اطلاعات ساختاری
 فارسی