پپروژه استخراج کلیدواژه از اسناد فارسی با رعایت تمامی متدهای NLP و پردازش متن

امکانات پروژه:
۱٫ امکان بارگزاری اسنادی فارسی به تعداد نامحدود در کرپس پروژه (پوشه Corpora)
۲٫ انجام عملیات پیش پردازش متن، مانند حذف Stop Words، ریشه یابی (Stemming and Lemmatization)، نرمال سازی متون (Normalization)، تجمیع اسناد متنی (Integration) و Tokenization Word and Sent
۳٫ استفاد از دو روش ( کتابخانه هضم و rake-nltk ) برای استخراج کلیدواژه ها
۳٫ استفاد از کتابخانه های spaCy (معروفترین کتابخانه پردازش زبان طبیعی)، googletrans (کتابخانه ترجمه به منظور استفاده از متدهای انگلیسی در زبان فارسی)

پیش نیازها برای اجرای پروژه:
گام ۱: نصب پایتون ۳٫۷ یا نسخه بالاتر در مسیر درایو C

گام ۲: مقدار دهی متغیر path سیستم با مسیر نصب پایتون

گام ۳: restart کردن سیستم
گام ۴: نصب کتابخانه های ذیل به کمک CMD:
– کتابخانه rake-nltk با دستور ذیل
pip install rake-nltk

– کتابخانه googletranse با دستور ذیل
pip install googletrans

– کتابخانه spaCy با دستور ذیل
pip install -U spacy

– کتابخانه مدل زبان با دستور ذیل
python -m spacy download en_core_web_sm

نحوه اجرا:
پوشه پروژه را به پوشه پایتون ۳٫۷ موجود در درایو C انتقال داده، سپس cmd را باز کرده و با استفاده از آن به پوشه پروژه رفته سپس با دستور ذیل پروژه را اجرا نمایید:
python Keyword_Extraction.py

پیروز و موفق باشید
در صورت هر گونه سوال با شماره ۰۹۱۵۷۲۰۲۶۵۳ تماس حاصل نمایید




نظرات کاربران


نظرات برای | بدون نظر »

کاربر عزیز، لطفاً دیدگاه ارزشمند خود را از طریق فرم زیر برای ما ارسال کنید: