kaggle چیست
در این پست میخواهیم در مورد وبسایت kaggle صحبت کنیم. kaggle چیست ؟ kaggle یک پلتفرم آنلاین مخصوص عاشقان دیتاساینس و یادگیری ماشین است. این وبسایت ویژگیهای مثبت بسیار بسیار زیادی مثل برگزاری مسابقات، دیتاستهای فراوان و … دارد که در این پست تعدادی از این ویژگیها را معرفی خواهیم کرد. با ما همراه باشید.
آشنایی با kaggle
وبسایت kaggle در سال 2010 توسط Anthony Goldbloom و Ben Hamner راهاندازی شد و به سرعت توانست در سراسر دنیا مطرح شود. محبوبیت این پلتفرم به حدی رسید که در سال 2017 گوگل اعلام کرد که kaggle را خریده است. همین امر باعث دوچندان شدن محبوبیت و پیشرفت بیشتر آن شد.
امروزه kaggle یکی از بزرگترین کامیونیتیها برای هوشمصنوعی و یادگیری ماشین است. همانطور که در تصویر بالا هم گفته شده، امروزه kaggle بیش از 15 میلیون عضو دارد! 🤯 این اعضا شامل افراد تازهکار و علاقمند به یادگیری ماشین و هوش مصنوعی، توسعهدهندهها و محققان هستند.
این پلتفرم ویژگیهای متنوعی دارد که تعدادی از آنها عبارتند از:
- برگزاری مسابقات
- داشتن بانکی از دیتاستهای متنوع
- ارائه سرویس مبتنی بر GPU
- پرسش و پاسخ
- و …
بخشهای مختلف سایت kaggle
اگر نگاهی به منوی سایت kaggle بندازید، میبینید که دستهبندی خوبی از امکانات و ویژگیهای این پلتفرم ارائه کرده است. در این بخش میخواهیم یکی یکی این ویژگیها را بررسی کنیم.
بخش اول: competitions
یکی از مهمترین ویژگیها که خیلیها با آن kaggle را میشناسند، بخش مسابقات یا competitions است. kaggle میزبان مسابقات بسیار زیادی بوده و هست. معمولا برای این مسابقات جوایز خوبی هم در نظر گرفته میشود. مثلا جایزه مسابقه American Sign Language Fingerspelling Recognition، حدود 200 هزار دلار است! همچنین شرکتهای بزرگی هستند که در kaggle مسابقه برگزار میکنند و از نفرات برتر مسابقات دعوت میکنند که در شرکت آنها مشغول به کار شوند. اما متاسفانه شرکتکنندگان ایرانی به خاطر تحریم امکان شرکت در مسابقات kaggle را ندارند. 🤒
علاوه بر مسابقات جاری که در حال برگزاری هستند، شما میتوانید در سایت kaggle به مسابقات خاتمه یافته هم دسترسی داشته باشید، از دیتاست آنها و نوتبوکهای موجود استفاده کنید و حتی نتایج خود را هم ثبت کنید.
بخش دوم: Datasets
یکی از جذابترین بخشها در سایت kaggle، همین بخش دیتاستهاست. انواع و اقسام دادهها در اینجا وجود دارند. برای پیدا کردن دیتاست مطلوب خودتان کافی است نام یا موضوع آن را در نوار جستجو بنویسید.
همانطور که در تصویر بالا هم مشاهده میکنید، من عبارت medical image segmentaion را سرچ کردم و 96 دیتاست برای این موضوع در kaggle وجود دارد. اولین نتیجه را باز میکنم تا با هم ببینیم که صفحه دیتاست چه اطلاعاتی دارد.
در تصویر بالا صفحه دیتاست را مشاهده میکنید. از بالا شروع کنیم ببینیم که چه بخشهایی دارد. بالا و در سمت راست تصویر یک دکمه مشکی رنگ به چشم میخورد که روی آن نوشته شده Download. یک عدد هم جلوی آن نوشته شده که حجم دیتاست را نشان میدهد. حجم این دیتاست 28 گیگ است! با کلیک بر روی این گزینه، میتوانید دیتاست را دانلود کنید.
زیر عنوان مسابقه، سه tab با عناوین Data Card، Code و Discussion وجود دارد. تب Data Card بخش توضیحات دیتاست هست. در این بخش یکسری توضیحات در مورد دیتاست ارائه شده است. اینکه دیتاست چه هست و با چه هدفی جمعآوری شده است.
تب دوم Code است. با کلیک روی این بخش شما لیستی از کدها را مشاهده خواهید کرد. همه کدهای این لیست از این دیتاست استفاده کردهاند و شما در صورت نیاز میتوانید برای شروع کار با دیتاست از این کدها استفاده کنید.
تب سوم هم Discussion است. در این بخش تمامی پرسش و پاسخها در مورد این دیتاست نمایش داده میشود. شما هم اگر سوالی در مورد دیتاست دارید میتوانید آن را در این بخش مطرح کنید. برای این کار کافی است روی گزینه New Topic کلیک کنید، عنوان و متن پرسش خود را وارد کرده و ارسال کنید.
بخش سوم: Models
این بخش از جدیدترین بخشهای kaggle بوده و مخصوص مدلهای آموزش دیده و آماده است. شما میتوانید نام مدل خود را در این صفحه سرچ کنید و از کدهای آن (در صورت وجود) استفاده نمایید. اما در این بخش فیلترهای جالبی گذاشته شده تا شما بتوانید بر اساس تسکی که در حال انجام آن هستید، مدل را انتخاب کنید.
مثلا شما میتوانید مدلها را بر اساس تسک، نوع داده، فریموک و … فیلتر کنید تا فقط همان نتایج نشان داده شوند. روی هرکدام از این کلیدها که کلیک کنید، یک پنجره پاپ آپ باز میشود. مثلا با کلیک بر روی Task، پنجره زیر باز خواهد شد:
در این پنجره تسک مورد نظر خودتان را بنویسید و سرچ کنید. چند تسک معروف هم به صورت آماده گذاشته شده و فقط با کلیک روی آنها میتوانید انتخابشان کنید. بعد گزینه Apply را بزنید. به این صورت تنها مدلهای مربوط به تسکی که شما انتخاب کردید نمایش داده خواهد شد.
کارت هر مدل به شکل زیر است:
در این کارت ابتدا عنوان مدل ذکر شده است (CodeLlama). در خط بعدی نام شرکت یا نام فردی که این مدل را منتشر کرده نمایش داده شده است (Meta). خط بعدی هم تعداد نوتبوکها (3) و تعداد نسخههای مختلف مدل (18) نمایش داده شده است. خط بعدی یک توضیح نصفه و نیمه از مدل ارائه شده و در نهایت هم تعداد امتیازهای مدل (76) و لوگوی شرکت یا تصویر پروفایل فرد ارائه کننده آورده شده است (اینجا لوگوی شرکت متا).
بخش چهارم: Code
یکی از ویژگیهای مهم Kaggle این است که مثل Google Colab میتوانید از آن برای کدنویسی و آموزش مدلهای خودتان استفاده کنید. مدل GPU-هایی که در اختیار شما خواهد گذاشت اینها هستند: T4، P100 و TPU VM v3-8 که P100 و TPU محدودیت زمانی دارند و تنها 30 ساعت در هفته در اختیار شما است. کدنویسی هم در فضای jupyter notebook انجام میشود، درست شبیه کولب.
بعد از کدنویسی در این محیط، این امکان وجود دارد که کد خود را به اشتراک بگذارید. کدهایی که Public میشوند در بخش Code قابل مشاهده هستند. همه میتوانند این کدها را ببینند و به آن امتیاز بدهند.
بخش پنجم: Discussions
بخش Discussions همانطور که از اسمش پیداست مربوط به پرسش و پاسخ است. بخش discussions چند زیر بخش وجود دارد:
General: این بخش مربوط به اطلاعیهها و بحثهای جالب است.
Getting Started: این بخش مخصوص افراد تازهوارد است. در این بخش افراد تازهکار میتوانند در مورد مسیر یادگیری یک مبحث، مثلا دیتاساینس سوال بپرسند. همچنین افراد با تجربه میتوانند یک تاپیک آماده کنند و تجربیات خودشان را برای تازهواردها شرح دهند.
Product Feedback: در این بخش میتوانید بخشهایی را که دوست دارید یا دوست ندارید مطرح کنید. حتی اگر دوست دارید بخشی به kaggle اضافه شود، اینجا میتوانید مطرح کنید.
Questions & Answers: در این بخش میتوانید در مورد مسائل فنی سوال بپرسید و نظر افراد خبره را جویا شوید.
Competition Hosting: اگر در مورد برگزاری مسابقه در kaggle سوال دارید، در این قسمت میتوانید مطرح کنید.
Accomplishments: در این بخش میتوانید دستاوردهای خودتان را با دیگران در میان بگذارید و جشن بگیرید!
ادامه دارد…
دیدگاهتان را بنویسید