چگونه ساختار سند را با پارسرها در پایتون استخراج کنیم
چگونه ساختار سند را با پارسرها استخراج کنیم
Aspose.Words FOSS for Python کلاسهای تجزیهکنندهای را برای استخراج دادههای ساختاریافته از اسناد DOCX فراهم میکند. این راهنما NumberingParser برای شمارهگذاری فهرست و StyleParser برای سبکهای سند را پوشش میدهد.
پیشنیازها
نصب کتابخانه:
pip install aspose-words-foss>=26.4.0نیاز به Python 3.10 یا بالاتر دارد.
تجزیهگر شمارهگذاری
NumberingParser تعاریف شمارهگذاری فهرست را از یک بسته DOCX میخواند. پس از فراخوانی parse_numbering_part()، میتوانید ویژگیهای فهرست را پرسوجو کنید:
NumberingParser.get_list_info()— دریافت اطلاعات درباره یک فهرست خاص بر اساس شناسهٔ آنNumberingParser.is_ordered_list()— بررسی اینکه آیا سطح فهرست به صورت شمارهدار است یا با نقطهNumberingParser.get_start_value()— دریافت شمارهٔ شروع برای یک سطح فهرستNumberingParser.get_delimiter()— دریافت رشتهٔ جداکننده برای یک سطح فهرست
تحلیلگر سبک
StyleParser نامهای سبک را به اشیای ساختاری ParsedStyle تجزیه میکند و عناوین، نقلقولها، بلوکهای کد و پاراگرافهای فهرست را شناسایی مینماید:
StyleParser.parse()— یک نام سبک را به شیءParsedStyleتجزیه میکندStyleParser.get_style_chain()— یک زنجیره از نامهای سبک را برای سبکهای ارثبرده تجزیه میکندStyleParser.is_setext_heading()— بررسی میکند که آیا یک سبک، عنوانی به سبک Setext است یا خیرStyleParser.extract_all_styles()— نامهای سبک جداگانه را از یک زنجیرهٔ جداشده با کاما استخراج میکند
مدل داده شمارهگذاری
دادههای شمارهگذاری تجزیهشده در اشیای ساختاری ذخیره میشوند:
| کلاس | ویژگیهای کلیدی |
|---|---|
NumberingInfo | num_id, abstract_num_id, levels |
NumberingLevel | format, start, text |
خلاصه
| پارسکننده | هدف |
|---|---|
NumberingParser | استخراج تعاریف شمارهگذاری فهرست |
StyleParser | تجزیه نامهای سبک به اطلاعات ساختاری |