7 وبسایت عالی برای پیدا کردن دیتاست 📚
دیتاست، نقش اساسی و تعیینکنندهای در پروژههای یادگیری ماشین دارد. مدلهای یادگیری ماشین بر اساس دادههای ورودی آموزش میبینند و کیفیت این دادهها مستقیما بر دقت و تعمیمپذیری مدل تاثیرگذار است. در این پست 7 وبسایت عالی برای پیدا کردن دیتاست معرفی کردیم تا بتوانید در پروژههای خودتان از این دیتاستها استفاده نمایید. با من همراه باشید…
وبسایت Kaggle
وبسایت کگل یک پلتفرم عالی برای پیدا کردن دادههای متنوع است. این وبسایت علاوه بر دیتاست، ویژگیهای منحصر به فرد زیادی دارد که آنها را در پست “kaggle چیست” کامل مورد بررسی قرار دادهایم.
در این وبسایت مسابقات بسیاری برگزار میشود که اکثر آنها دیتاستهایی دارند که در دسترس عموم قرار دارد و شما میتوانید از آنها در پروژههای خودتان استفاده کنید. این دادهها به حوزه خاصی منحصر نمیشوند و از تنوع بسیار خوبی برخوردارند.
علاوه بر دیتاستهایی که توسط کگل یا موسسات معتبر منتشر شده است، کگل این امکان را برای کاربران نیز فراهم کرده که دیتاستهایی که جمعآوری کردهاند را منتشر کنند.
وبسایت UCI
یکی از قدیمیترین وبسایتها که دهههاست میزبان دادههای یادگیری ماشین بوده، وبسایت UCI است. این آرشیو در سال ۱۹۸۷ توسط دانشجوی دکترای دانشگاه UCI، دیوید آها ایجاد شد و از آن زمان، به صورت گسترده توسط دانشجویان و محققان در سراسر جهان به عنوان یک مرجع اصلی برای دیتاستهای یادگیری ماشین مورد استفاده قرار گرفته است. دادههایی که در این آرشیو وجود دارند بسیار متنوع و در حوزههای متنوعی مانند زیستشناسی، پزشکی و مهندسی هستند.
وبسایت PapersWithCode
وبسایت PWC یک منبع خارق العاده برای به روز ماندن در یادگیری ماشین است. در این وبسایت علاوه بر مقالات و کدهایشان، یک بخش با عنوان Datasets هم وجود دارد.
در بخش Datasets، دادههای بسیاری لیست شدهاند. همچنین دادهها به خوبی دستهبندی شدهاند تا شما بتوانید دیتاست موردنظرتان را به راحتی پیدا کنید. البته دقت داشته باشید که PWC میزبان این دیتاستها نیست بلکه شما را به صفحه اصلی این دیتاستها ارجاع میدهد.
یک ویژگی بسیار جالب PWC این است که با کلیک بر روی یک دیتاست، یک صفحه باز میشود که مختصری در مورد آن دیتاست توضیح داده و به صفحه اصلی دیتاست، لینک داده است. در این صفحه همچنین تمامی مقالاتی که از این دیتاست استفاده کردهاند نیز لیست شدهاند که بسیار جالب و کاربردی است.
موتور جستجوی Google DatasetSearch
گوگل یک موتور جستجوی تخصصی برای دیتاستها نیز دارد! شما با مراجعه به این وبسایت و جستجوی نام دیتاست یا حوزه دلخواه، میتوانید تمامی دیتاستهای مرتبط با کلیدواژهای که سرچ کردید را ببینید و بررسی کنید.
وبسایت Data.gov
Data.gov یک پلتفرم برای ارائه دادههای دولت آمریکا به صورت عمومی است. این دادهها توسط سازمانهای مختلف تولید شدهاند. این وبسایت مجموعه وسیعی از دادهها را در حوزههای متنوعی مانند کشاورزی، آبوهوا، آموزش، حمل و نقل و … ارائه میدهد. Data.gov یک منبع عالی برای پیدا کردن دادههای با کیفیت و معتبر برای پروژههای ماشین لرنینگ است.
وبسایت OpenML
OpenML یک آزمایشگاه یادگیری ماشین است. این وبسایت پلتفرمی است که امکان به اشتراکگذاری دادهها، الگوریتمها و آزمایشها را فراهم کرده است. شما در بخش Datasets میتوانید دادههای متنوعی پیدا کنید. همچنین در OpenML این امکان برای کاربران فراهم است که دیتاستهایی که خودشان تهیه کردهاند را به اشتراک بگذارند. برخی از این دیتاستها که از منابع معتبر هستند، لیبل Verified دارند.
وبسایت RoboFlow
Roboflow یک پلتفرم کامل برای پروژههای بینایی کامپیوتر است که فرآیند مدیریت، آمادهسازی و استفاده از دیتاستهای تصویری را ساده میکند. این پلتفرم به توسعهدهندگان، پژوهشگران و کسب و کارها کمک میکند که از یادگیری ماشین برای تحلیل تصاویر و ویدئوها استفاده کنند.
سایت RoboFlow بسیار سایت جالبی است و حتما پیشنهاد میکنم به این وبسایت سر بزنید و از قابلیتهای متنوعش استفاده کنید. علاوه بر دیتاست، ابزارهایی برای لیبل زدن تصاویر (به صورت دستی یا اتوماتیک)، مدلهای از پیش آموزش دیده و … دارد که بسیار جالب هستند.
جمعبندی
در این پست، 7 وبسایتی را معرفی کردیم که دیتاستهای یادگیری ماشین ارائه میکنند و شما میتوانید از این دیتاستها در پروژههای خود استفاده نمایید. علاوه بر مواردی که در این وبسایت ذکر شد، وبسایتهای دیگری نیز وجود دارند. ما سعی کردیم شناختهشدهترینها را در این پست معرفی کنیم. اگر شما وبسایت دیگری میشناسید، بسیار خوشحال میشویم که با ما به اشتراک بگذارید. تا پستهای دیگر، خدانگهدار.
دیدگاهتان را بنویسید