جستجو برای:
  • فروشگاه
  • وبلاگ
  • آموزش‌های رایگان
    • آموزش پایتون رایگان
    • آموزش یادگیری ماشین رایگان
    • آموزش یادگیری عمیق رایگان
    • آموزش pytorch رایگان
    • آموزش گوگل کولب
    • آموزش رایگان matplotlib
    • آموزش متلب رایگان
    • دوره‌های خارجی
  • نقشه راه AI
  • کلاس خصوصی
  • همکاری با ما💚
  • حساب کاربری
  • اساتید
  • درباره ما
     
    • 0902-546-9248
    • howsam.mail@gmail.com
    آکادمی هوش مصنوعی هوسم
    • فروشگاه
    • وبلاگ
    • آموزش‌های رایگان
      • آموزش پایتون
      • آموزش یادگیری ماشین رایگان
      • آموزش یادگیری عمیق
      • آموزش pytorch
      • آموزش گوگل کولب
      • آموزش رایگان matplotlib
      • آموزش متلب
      • دوره‌های خارجی
    • نقشه راه AI
    • کلاس خصوصی
    • درباره ما
      • اساتید
      • پشتیبانی
      • هوسم در اینستا و تلگرام
        • اینستاگرام هوسم (howsam_org@)
        • تلگرام هوسم (howsam_org@)
        • تلگرام پایتورچ (pytorch_howsam@)
    • همکاری با ما💚
    0

    ورود و ثبت نام

    بلاگ

    آکادمی هوش مصنوعی هوسم وبلاگ عمومی مدل nanoGPT

    مدل nanoGPT

    2024/11/24
    ارسال شده توسط سید سجاد اشرفی
    عمومی ، یادگیری عمیق
    405 بازدید

    در سال ۲۰۱۹، OpenAI مدل GPT-2 را معرفی کرد. OpenAI، برخلاف مدل‌های بعدی (GPT-3 و GPT-4)، سورس کد و وزن‌های نسخه‌های مختلف مدل GPT-2 را منتشر کرد. با رشد LLM در سال‌های بعد، این علاقه برای بسیاری از افراد شکل گرفت که با اهداف آموزشی، خودشان مدل GPT-2 را از ابتدا بسازند و آموزش دهند. یکی از این افراد، آقای Andrej Karpathy بود. حتی ویدئوی آموزشی آن را هم ساخت که بسیار آموزنده بود. یکی دیگر از کارهایی که ایشان انجام داد، ساخت llm.c بود. ساخت مدل GPT-2 بر پایه C و CUDA که بازهم کار اثرگذاری بود. در این پست می‌خواهم یکی از آثار جالب کارهای آقای Karpathy در راستای ساخت مدل GPT-2 برای شما بگویم. با من همراه باشید…

    مدل nanoGPT

    حدود چهار ماه پیش، آقای Karpathy پستی در X منتشر کرد که ترجمه خلاصه آن را به کمک ChatGPT در زیر آوردم:

    در سال ۲۰۱۹، OpenAI مدل GPT-2 رو معرفی کرد. امروز، بعد حدودا ۵ سال، می‌تونید مدل مشابهی رو تنها با حدود ۶۷۲ دلار و یک نود 8XH100 GPU طی ۲۴ ساعت آموزش بدید. پروژه llm.c که روی اون کار کردم، راهنمای کاملی برای این فرآیند ارائه میده. پیشرفت‌های سخت‌افزاری (مثل، GPUهای H100)، نرم‌افزاری (CUDA، cuBLAS، FlashAttention) و داده‌های باکیفیت (مثل FineWeb-Edu) هزینه‌ها رو چشم‌گیر کاهش دادن. llm.c مستقیماً با C/CUDA نوشته شده و نیازی به محیط‌های پیچیده Python یا ابزارهایی مانند pip نداره. فقط یک نود GPU ابری رو راه‌اندازی می‌کنید، ملزومات رو نصب می‌کنید و در چند دقیقه آماده اجرا میشه. این پروژه از علاقه‌ام به بازتولید GPT-2 برای یک ویدیوی آموزشی شروع شد. اما در ادامه مسیر، یادگیری بیشتر CUDA، بازنویسی همه‌چیز از صفر (حدود ۵,۰۰۰ خط کد) و ساخت سیستمی سریع، کوچک و پایدار رو در پی داشت. هنوز کارهای زیادی باقی مونده، از جمله بهبود پایداری آموزش برای مدل‌های بزرگ‌تر، تست fp8 و اضافه کردن معماری‌های مدرن‌تر.

    خب، مثل خیلی از کارهای Karpathy، این کار هم با استقبال قابل توجهی مواجه شد. مثلا، یک پویشی راه افتاد که هزینه آموزش مدل GPT-2 124M رو روی دیتاست FineWeb برای رسیدن به لاس 3.28 کاهش بدن. در واقع، هدف این بود که بیایید یک کاری کنیم، هرچه سریع‌تر به لاس 3.28 روی ولیدیشن دیتاست FineWeb برسیم.

    این مدت، من می‌دیدم که افرادی از کاهش زمان آموزش مدل می‌گفتند و مدام پیگیری می‌کردم. مثلا، Keller Jordan خیلی روی این پروژه کار می‌کرد و خیلی پست می‌گذاشت. حالا بعد از چهار ماه، Karpathy یک پستی درباره این ماجرا منتشر کرده:

    یادتون میاد با llm.c بازتولید آموزش مدل GPT-2 124M حدود ۴۵ دقیقه روی 8XH100 زمان می‌برد؟ از اون موقع، Keller Jordan (و حالا خیلی‌های دیگه) روی نسخه جدید و اصلاح‌شده NanoGPT کار کردن و این زمان رو به فقط ۵ دقیقه کاهش دادن! عاشق این ریپو هستم؛ 👏 ۶۰۰ خط کد!

    لیست کارهای Keller Jordan برای رسیدن به 5 دقیقه را می‌توانید در تصویر زیر ببینید. این مسیر جذاب از 45 دقیقه شروع شد و رفته رفته با ایده‌های مختلف به 5 دقیقه رسید! کنار هر ایده (آیتم) نوشته شده که میزان زمان اجرا به چه عددی رسیده است. یکی از موارد جالب، آیتم شماره 7 (آپگرید پایتورچ از 2.4 به 2.5) هست. بنابراین، اگر پروژه مهمی داریم، بهتر هست که از آخرین نسخه پایتورچ استفاده کنیم.

    برای من این ساختن مدل‌ها و روش‌های با هزینه کم و قابل اجرا برای همه بسیار ارزشمند و جذاب هست. همواره این نوع کارها را پیگیری می‌کنم. برای من بسیار آموزنده و الهام‌بخش هستند.

    آب دریا را اگر نتوان کشید، هم به قدر تشنگی باید چشید!

    اشتراک گذاری:

    مطالب زیر را حتما مطالعه کنید

    یادگیری انتقالی
    یادگیری انتقالی یا Transfer Learning به معنای استفاده از یک مدل از پیش آموزش‌دیده در...
    Ollama چیست؟
    ابزار Ollama به شما امکان می‌دهد که به راحتی از مدل‌های زبانی بزرگ مانند Llama...
    شبکه VGG
    شبکه VGG یکی از معماری‌های موفق و معروف در حوزه یادگیری عمیق است که در...
    مهندسی پرامپت
    امروزه، با ظهور ChatGPT و سایر ابزارهای هوش مصنوعی، طیف گسترده‌ای از افراد، از کاربران...
    چرا مدل زبانی کوچک (SLM) مهم است؟
    در سال‌های اخیر، هوش مصنوعی تحولات بسیاری را تجربه کرده است. از سرمایه‌گذاری ۵ میلیارد...
    شگفت‌انگیزترین ایده هوش مصنوعی از نظر Andrej Karpathy
    هوش مصنوعی به سرعت در حال پیشرفت هست. به‌گونه‌ای که باید زمان و انرژی زیادی...

    دیدگاهتان را بنویسید لغو پاسخ

    جستجو برای:
    دوره‌های جامع هوسم
    • پیاده‌سازی ChatGPT از صفر با پایتورچ
    • آموزش OpenCV: از پردازش تا بینایی
    • دیپ کاتالیست: دوره افزایش مهارت
    • پایتون برای هوش مصنوعی 🤖
    • یادگیری ماشین جامع: از مفاهیم تا پیاده‌سازی🔥
    • یادگیری عمیق جامع: از مفاهیم تا پیاده‌سازی
    • دوره متلب سوپراستارتر
    درباره هوسم

    آکادمی هوش مصنوعی هوسم با آموزش‌های تخصصی در حوزه هوش مصنوعی در خدمت شماست. روی کمک هوسم حساب کنید…

    • گیلان- شهرستان رودسر- شهرک انصاری- کوچه لاله 9
    • 09025469248
    • howsam.mail@gmail.com
    دسترسی سریع
    • صفحه اصلی
    • وبلاگ
    • حساب کاربری
    • سبد خرید
    شبکه‌های اجتماعی

     

    logo-samandehi
    تمامی حقوق برای آکادمی هوسم محفوظ است.
      کد تخفیف شما هست و فقط
      فرصت داری ازش استفاده کنی!
      کد تخفیف شما هست و فقط
      فرصت داری ازش استفاده کنی!
      کد تخفیف شما هست و فقط
      فرصت داری ازش استفاده کنی!
      کد تخفیف شما هست و فقط
      فرصت داری ازش استفاده کنی!
      کد تخفیف شما هست و فقط
      فرصت داری ازش استفاده کنی!

      ورود

      رمز عبور را فراموش کرده اید؟

      هنوز عضو نشده اید؟ عضویت در سایت