کدنویسان | دوره تخصصی آموزش متن کاوی با ابزار NLTK در پایتون

دوره تخصصی آموزش متن کاوی با ابزار NLTK در پایتون


یک ابزار حرفه ای به منظور انجام عملیات متن کاوی است که به طور گسترده در زمینه پردازش زبان طبیعی (NLP) استفاده می گردد. این ابزار توسط دانشگاه پنسیلوانیا امریکا در سال 2001 ارائه گردیده است و حدود 17 سال است که در زمینه آموزش و پژوهش دانشگاه ها استفاده می شود. NLTK امروزه به طور گسترده در بیش از 30 دانشگاه معتبر امریکا درس داده می شود.
متن کاوی با ابزار nltk در پایتون
جلسات مجموعه آموزشی

"دوره تخصصی آموزش متن کاوی با ابزار NLTK در پایتون" دارای جلسات زیر است، برای آشنایی با نحوه تدریس و کیفیت آموزش ها می توانید بعضی از آنها را پخش کنید.

۱
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت اول: مقدمه و مروری بر دوره (Introduction)
۷ دقیقه
نمایش
سلام عزیزان: یکی از چالش های اساسی که امروزه حوزه ای تی و بخصوص شرکت های بزرگی مانند گوگل با آن روبه رو هستند، چالش نحوه آنالیز مجموعه بزرگی از متون موجود در وب می باشد. یکی از روش هایی که با استفاده از آن می توان داده های متنی را مورد کاووش و آنالیز قرار داد، متن کاوی (text mining) می باشد.متن کاوی (پردازش متن) به دنبال استخراج دانش نهفته شده در دل مجموعه داده های متنی نیز می باشد. ابزارهای زیادی برای انجام عملیات متن کاوی وجود دارد مانند RapidMiner، Python Text mining، Voyant و ... در این دوره ما شما را با نحوه انجام انواع عملیات متن کاوی با استفاده از ابزار NLTK آشنا خواهیم کرد. NLTK یک ابزار حرفه ای به منظور انجام عملیات متن کاوی است که به طور گسترده در زمینه پردازش زبان طبیعی (NLP) استفاده می گردد. این ابزار توسط دانشگاه پنسیلوانیا امریکا در سال 2001 ارائه گردیده است و حدود 17 سال است که در زمینه آموزش و پژوهش دانشگاه ها استفاده می شود. NLTK امروزه به طور گسترده در بیش از 30 دانشگاه معتبر امریکا درس داده می شود. یکی از مهمترین مزایای ابزار NLTK داشتن مجموعه داده های متنی بسیار گسترده و کاربردی می باشد که در انواع عملیات متن کاوی می توان از آن ها استفاده کرد. از مهمترین مباحث آموزشی در این دوره: 1. نصب ابزار و داده های آن 2. Tokenization 3. StopWords 4. Stemming 5. POS Tagging 6. Wordnet 7. Synonyms and Antonyms 8. Sentiment Analysis 9. Frequency Distribution 10. Bigrams 11. ...
۲
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت دوم: پیش نیازهای لازم برای شروع دوره (Prerequrement)
۱۵ دقیقه
در این قسمت به بیان پیش نیازهای لازم نرم افزاری می پردازیم که حتماً شما دوست عزیز برای اینکه بتوانید فرایند متن کاوی رو در این دوره انجام دهید باید به این پیش نیازهای توجه نمایید. دقیقاً مثل خیاطی، به این شکل که تا شما چرخ، قیچی و سوزون و ... نداشته باشید نمیتونید خیاطی کنید. اینجاهم نیاز به یک همچنین مواردی دارید تا بتونید متن کاوی کنید. عجب مثالی زدما خودم حال کردم :) از جمله این پیش نیازها: 1. داشتن دانش برنامه نویسی (حداقل آیتم مورد نیاز برای شروع دوره) 2. کار با زبان برنامه نویسی پایتون (اصلا نگران نباشید) 3. نصب مفسر 2.7 (این هم ضروریه) 4. نصب IDE (اختیاری ولی نصب بشه خیلی بهتره)
۳
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت سوم: نصب ابزار NLTK و داده های مربوط به آن (NLTK and Data Install )
۲۱ دقیقه
از آنجا که در ویدیوهای پیش رو این دوره از توابع و پارامترهای قدرتمند کتابخانه NLTK برای پردازش متن (متن کاوی) استفاده خواهد شد. لذا در این قسمت به صورت تئوری و عملی ابزار NLTK و داده های مربوط به آن را (nltk_data) نصب می کنیم. مباحث آموزشی در این ویدیو: 1. چگونه ابزار NLTK را نصب کنیم 2. چکونه داده های NLTK را با روش CMD دانلود کنیم 3. چگونه داده های NLTK را به صورت دستی دانلود کنیم 4. داده های NLTK را چگونه به ابزار NLTK معرفی کنیم
۴
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت چهارم: نحوه دسترسی به مجموعه اسناد کتابخانه NLTK یا (Corpora Access)
۱۵ دقیقه
قبل از انجام هر گونه عملیات متن کاوی، نیاز به یک مجموعه اسناد متنی استاندارد داریم. خوشبختانه کتابخانه NLTK همراه خودش مجموعه ای از اسناد متنی رو داره که می تونیم از آونها برای انجام فرایندهای متن کاوی بهره ببریم. در این ویدیو آموزشی نحوه دسترسی به مجموعه اسناد متنی موجود در کتابخانه NLTK رو خدمت شما به شکل تئوری و عملی ارائه خواهیم کرد. مباحث آموزشی در این ویدیو: 1. کرپس (پیکره متنی) چیست 2. محل کرپس ها در NLTK کجاست 3. نحوه دسترسی به محتویات داخل کرپس 4. اجرای برنامه بدون داشتن IDE پای چرم توجه: فایل پاورپوینت و برنامه به عنوان ضمائم در کنار ویدیو قرار داده شده است.
۵
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت پنجم: شمارش واژه های اسناد متنی (word_tokenize)
۱۴ دقیقه
با پنجمین قسمت از دوره تخصصی آموزش متن کاوی با ابزار NLTK در خدمت شما هستیم. یکی از ساده ترین فرآیندهای متن کاوی، شمارش واژه های یک سند متنی به کمک فرایند Tokenization هستش. در این ویدیو به شما آموزش خواهیم داد که به چه شکل به کمک تابع word_tokenize موجود در ابزار nltk و تابع set موجود در زبان برنامه نویسی پایتون می توانید تعداد واژه های سند متنی خود را بشمارید و این حالت شمارش چه تفاوتی با تابع split در زبان برنامه نویسی پایتون دارد. توجه: فایل پاورپوینت و برنامه به عنوان ضمائم در کنار ویدیو قرار داده شده است.
۶
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت ششم: انواع عملیات Tokenization بر روی اسناد متنی
۱۳ دقیقه
با ششمین قسمت از دوره تخصصی آموزش متن کاوی با ابزار NLTK در خدمت شما هستیم. یکی دیگر از فرآیندهای متن کاوی، عملیات Tokenization کردن یک سند انگلیسی (تیکه تیکه کردن) برحسب واژه ها و خط ها می باشد. که البته می توان روی اسناد غیر انگلیسی هم با کتبخانه nltk این فرآیند را انجام داد. در این ویدیو انواع عملیات Tokenization خدمت شما ارائه می گردد. توجه: فایل پاورپوینت و برنامه به عنوان ضمائم در کنار ویدیو قرار داده شده است.
۷
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت هفتم: حذف کلمات زائد از اسناد متنی (Remove Stopwords)
۱۵ دقیقه
با هفتمین قسمت از دوره تخصصی آموزش متن کاوی با ابزار NLTK در خدمت شما هستیم. در این قسمت به تعریف، شناسایی و حذف Stopwords از اسناد متنی با کمک کتابخانه NLTK به شکل تئوری و عملی می پردازیم. حذف Stopwords یکی از مهمترین عملیات پیش پردازش در فرآیندهای متن کاوی می باشد. لازم به ذکر است که در تمامی ویدیوها نمونه کد پایتون و فایل پاورپوینت مربوط به آن به همراه فیلم قابل دانلود می باشد.
۸
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت هشتم: شناسایی و استخراج Bigrams از یک سند متنی (Bigrams)
۱۴ دقیقه
با هشتمین قسمت از دوره تخصصی آموزش متن کاوی با ابزار NLTK در خدمت شما هستیم. در این قسمت به تعریف، شناسایی و استخراج Bigrams به کمک کتابخانه NLTK از یک سند متنی می پردازیم و نشان خواهیم داد که چگونه با استفاده از Bigrams می توان موضوع یک سند متنی رو تشخیص داد. همچنین نشان خواهیم داد که چگونه عمل پیش پردازش می تواند نتیجه مطلوبی در استخراج Bigrams و تشخیص موضوع داشته باشد. جالبه که بدونید موتورهای جست و جو برای Index و رتبه دهی کردن اسناد وب در توابع و معیارهای اندازه گیری خود از تکنولوژی Bigrams استفاده می کنند. لازم به ذکر است که در تمامی ویدیوها نمونه کد کامل پایتون و فایل پاورپوینت مربوط به آن به همراه فیلم قابل دانلود می باشد.
۹
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت نهم: برچسب گذاری اجزای کلام یک سند متنی (Part-of-speech tagging)
۱۰ دقیقه
با نهمین قسمت از دوره تخصصی آموزش متن کاوی با ابزار NLTK در خدمت شما هستیم. در این قسمت به تعریف و مشخص کردن اجزای کلامی یک سند متنی (Tagging Words) به کمک کتابخانه NLTK می پردازیم. در زبان‌شناسی پیکره‌ای، برچسب‌گذاری اجزای کلام، در واقع عمل انتساب برچسب به کلمات تشکیل‌دهندهٔ یک متن یا یک پیکره است. این برچسب‌گذاری براساس نقش آن کلمه در متن، مانند اسم، فعل، قید، صفت، و غیره صورت می‌گیرد. بعضی کلمات ممکن است یک یا چند برچسب داشته‌باشند. اگر یک کلمه بیش از یک برچسب داشته‌باشد، نیاز به ابهام‌زدایی دارد.
۱۰
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت دهم: ریشه یابی کلمات به کمک الگوریتم های ریشه یابی (Stemming Algorithms)
۱۲ دقیقه
با دهمین قسمت از دوره تخصصی آموزش متن کاوی با ابزار NLTK در خدمت شما هستیم. یکی از مباحث مهم در بازیابی اطلاعات و متن کاوی فرایند تبدیل کلمات به کلمه ریشه اشان می باشد. به این فرایند Stemming نیز می گویند و به توابعی که این کار را انجام می دهند نیز Stemming Algorithm می گویند. خوشبختانه کتابخانه NLTK دارای 3 تابع برای انجام این فرایند می باشد که به ترتیب در زیر ذکر شده اند.* 1. الگوریتم PorterStemmer 2. الگوریتم LancasterStemmer 3. الگوریتم SnowballStemmer* در این ویدیو نحوه استفاده از هر کدام این الگوریتم ها نیز ارائه گردیده است. لازم به ذکر است که در تمامی ویدیوها نمونه کد کامل پایتون و فایل پاورپوینت مربوط به آن به همراه فیلم قابل دانلود می باشد.
۱۱
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت یازدهم: فراوانی واژه ای اسناد متنی (Term Frequency)
۹ دقیقه
با یازدهمین قسمت از دوره تخصصی آموزش متن کاوی با ابزار NLTK در خدمت شما هستیم. در این قسمت به شمارش واژه ها در یک سند متنی یا به تعریف مفهوم Term Frequency می پردازیم. لازم به ذکر است که در تمامی ویدیوها نمونه کد کامل پایتون و فایل پاورپوینت مربوط به آن به همراه فیلم قابل دانلود می باشد.
۱۲
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت دوازدهم: آنالیز احساسات اسناد متنی (Sentiment Analysis)
۱۶ دقیقه
با دوازدهمین قسمت از دوره تخصصی آموزش متن کاوی با ابزار NLTK در خدمت شما هستیم. یکی دیگر از مباحث جذاب و پرکاربرد در حوزه NLP مبحث نظرکاوی (تجزیه و تحلیل احساسات) می باشد. خوشبختانه کتابخانه NLTK دارای ماژولی با نام Sentiment Analysis است که امکان استخراج احساسات را از دل داده های متنی فراهم می آورد. در این ویدیو به شکل عملی و تئوری با این مبحث آشنا خواهیم شد. لازم به ذکر است که در تمامی ویدیوها نمونه کد پایتون و فایل پاورپوینت مربوط به آن به همراه فیلم قابل دانلود می باشد. تجزیه و تحلیل احساسات (گاهی اوقات به عنوان نظرکاوی یا عقیده کاوی یا هوش مصنوعی احساسات شناخته می‌شود) به استفاده از پردازش زبان طبیعی، تجزیه و تحلیل متن، زبان‌شناسی محاسباتی، و بیومتریک به شناسایی سیستماتیک، استخراج، سنجش کمیت، و مطالعه حالات مؤثر و اطلاعات ذهنی اشاره دارد. تجزیه و تحلیل احساسات به طور گسترده‌ای در موارد صدای مشتری مانند بررسی و پاسخ نظر سنجی، آنلاین و رسانه‌های اجتماعی و در موارد مراقبت بهداشت برای کاربردهایی از بازاریابی تا خدمات به مشتریان برای پزشکی اعمال می‌شود. به طور کلی، تجزیه و تحلیل احساسات به تعیین نگرش یک سخنران، نویسنده، یا موضوع دیگر با توجه به برخی از موضوع یا قطبیت متن کلی یا واکنش احساسی به یک سند، تعامل، یا رویداد کمک می‌کند. نگرش ممکن است یک قضاوت یا ارزیابی (نظریه ارزیابی را ببینید)، حالت مؤثر (احساس نویسنده یا سخنران)، یا ارتباط عاطفی باشد. (اثر عاطفی در نظر گرفته شده توسط نویسنده یا مخاطب). مباحث آموزشی در این ویدیو: 1. بررسی حس مثبت 2. شناسایی حس منفی
۱۳
دوره تخصصی آموزش متن کاوی با ابزار NLTK، قسمت سیزدهم (آخرین قسمت): کار با پایگاه داده لغوی WordNet یا (A Lexical Database for English)
۲۳ دقیقه
با سیزدهمین یا به عبارتی آخرین قسمت از دوره تخصصی آموزش متن کاوی با ابزار NLTK در خدمت شما هستیم. در این قسمت به تعریف، معرفی و استفاده از قابلیت های پایگاه داده واژه ای WordNet به شکل تئوری و عملی می پردازیم. مهمترین مباحث آموزشی در این ویدیو: 1. آموزش تئوری WordNet و ویژگی های آن 2. بدست اوردن معنی و تعریف یک کلمه در WordNet به شکل عملی 3. بدست آوردن مثال های یک کلمه در WordNet به شکل عملی 4. بدست آوردن لیست کلمه های مترادف یک کلمه به شکل عملی 5. بدست اوردن لیست کلمات متضاد یک کلمه به شکل عملی 6. و ... لازم به ذکر است که در تمامی ویدیوها نمونه کد پایتون و فایل پاورپوینت مربوط به آن به همراه فیلم قابل دانلود می باشد.
خـــرید و دانلود کل مجموعه
جزئیات محصول
سلام عزیزان:
یکی از چالش های اساسی که امروزه حوزه ای تی و بخصوص شرکت های بزرگی مانند گوگل با آن روبه رو هستند، چالش نحوه آنالیز مجموعه بزرگی از متون موجود در وب می باشد. یکی از روش هایی که با استفاده از آن می توان داده های متنی را مورد کاووش و آنالیز قرار داد، متن کاوی (text mining) می باشد.متن کاوی (پردازش متن) به دنبال استخراج دانش نهفته شده در دل مجموعه داده های متنی نیز می باشد. ابزارهای زیادی برای انجام عملیات متن کاوی وجود دارد مانند RapidMiner، Python Text mining، Voyant و …
در این دوره ما شما را با نحوه انجام انواع عملیات متن کاوی با استفاده از ابزار NLTK آشنا خواهیم کرد. NLTK یک ابزار حرفه ای به منظور انجام عملیات متن کاوی است که به طور گسترده در زمینه پردازش زبان طبیعی (NLP) استفاده می گردد. این ابزار توسط دانشگاه پنسیلوانیا امریکا در سال ۲۰۰۱ ارائه گردیده است و حدود ۱۷ سال است که در زمینه آموزش و پژوهش دانشگاه ها استفاده می شود. NLTK امروزه به طور گسترده در بیش از ۳۰ دانشگاه معتبر امریکا درس داده می شود.
یکی از مهمترین مزایای ابزار NLTK داشتن مجموعه داده های متنی بسیار گسترده و کاربردی می باشد که در انواع عملیات متن کاوی می توان از آن ها استفاده کرد.


از مهمترین مباحث آموزشی در این دوره:
۱٫ نصب ابزار و داده های آن
۲٫ Tokenization
۳٫ StopWords
۴٫ Stemming
۵٫ POS Tagging
۶٫ Wordnet
۷٫ Synonyms and Antonyms
۸٫ Sentiment Analysis
۹٫ Frequency Distribution
۱۰٫ Bigrams
۱۱٫ …

با ما همراه باشید

ارادتمند شما: کاظم تقندیکی
موفق باشید

نظرات کاربران

نظرات برای | بدون نظر »

دیدگاه شما

نماد های اعتماد ما

این سایت دارای مجوز رسمی از جمهوری اسلامی ایران بوده و به استناد نماد های زیر، خرید از این وب سایت کاملاً ایمن و تایید شده می باشد !

logo-samandehi