ترندهای مهم هوش مصنوعی در سال 2024
در این پست ۹ ترندی که انتظار داریم در طول سال پدیدار شوند، گردآوری شدهاند. برخی از آنها کلی و سطح بالا و برخی دیگر کمی فنیتر هستند.
ترند شماره ۱: سال واقعبینی (Reality Check)
سال 2024، سال انتظارات واقعبینانه است. زمانی که هوش مصنوعی مولد (generative) برای اولین بار به صورت عمومی معرفی شد، به صورت گسترده در رسانههای مختلف بازتاب داده شد. همه در حال ساختن اکانت و کار با ChatGPT، Dall-E و امثال آن بودند. اما اکنون که آن تب و تاب کمی فروکش کرده، ما میتوانیم کمکم درک دقیقتری از آنچه هوش مصنوعی واقعا میتواند انجام دهد، بهدست آوریم.
امروزه، هوش مصنوعی، به جای استفاده به صورت چتباتهای مستقل و …، با ابزارهای دیگر ادغام میشود. این کار باعث تقویت و تکمیل ابزارهای موجود میشود، مانند Copilot در Microsoft Office یا Generative Fill در Adobe Photoshop. اضافه شدن هوش مصنوعی به کارهای روزانه ما، مانند دو نمونهای که ذکر شد، به ما کمک میکند تا بهتر بفهمیم که هوش مصنوعی در شکل فعلی خود، چه کارهایی را میتواند انجام دهد و چه کارهایی را نمیتواند انجام دهد.
ترند شماره ۲: هوش مصنوعی Multimodal
هوش مصنوعی Multimodal میتواند چندین لایه داده را بهعنوان ورودی دریافت کند و ما امروزه مدلهایی مانند GPT-4v شرکت OpenAI و Google Gemini را داریم که میتوانند آزادانه بین پردازش زبان طبیعی و بینایی کامپیوتر حرکت کنند. در این مدلها، کاربران میتوانند مثلا در مورد یک تصویر سوال کنند و پاسخ دریافت کنند. یا میتوانند دستورالعمل تعمیر یک دستگاه را درخواست کنند و در کنار دستورالعملهای متنی، راهنمای تصویری نیز دریافت کنند. در مدلهای جدید حتی ویدیو هم وارد شده است.
ترند شماره ۳: مدلهای کوچکتر
این مدلهای بسیار بزرگ بودند که عصر هوش مصنوعی را شروع کردند، اما این مدلها بینقص نیستند. طبق یک تخمین از دانشگاه واشنگتن، آموزش یک مدل به بزرگی GPT-3 به مصرف برق سالانه بیش از 1000 خانوار نیاز دارد. شاید فکر کنید خب، آموزش پرهزینه است، اما در حالت Inference چطور؟ یک روز استاندارد از Chat GPT با مصرف روزانه چیزی حدود ۳۳۰۰۰ خانوار رقابت میکند! این در حالی است که طبیعتا مدلهای کوچکتر از نظر منابع بسیار کممصرفتر هستند.
بخش زیادی از نوآوریهای در حال انجام در مدلهای زبانی بزرگ، بر دستیابی به خروجی بهتر با پارامترهای کمتر متمرکز است. گفته میشود GPT-4 حدود ۱.۷۶ تریلیون پارامتر دارد، اما بسیاری از مدلهای متنباز که تعداد پارامترهای ۳ تا ۱۷ میلیارد داشتهاند نیز موفق بودهاند.
در دسامبر سال گذشته، Mistral مدل Mixtral را منتشر کرد. Mixtral یک مدل MoE (Mixture of Experts) است که هشت شبکه عصبی که هرکدام ۷ میلیارد پارامتر دارند را ادغام میکند. Mistral ادعا میکند که Mixtral نه تنها در اکثر بنچمارکها از نسخه ۷۰ میلیارد پارامتری Llama 2 عملکرد بهتری دارد، بلکه حتی در اکثر بنچمارکهای استاندارد با مدلهای بسیار بزرگترِ OpenAI مثل GPT-3.5 رقابت کرده و حتی بهتر عمل میکند.
مدلهای کوچکتر را میتوان با هزینه کمتری اجرا کرد و به صورت محلی روی بسیاری از دستگاهها مانند لپتاپهای شخصی اجرا کرد.
ترند شماره ۴: هزینههای GPU و فضای ابری
گرایش به سمت مدلهای کوچکتر یک ضرورت است. هر چه مدل بزرگتر باشد، نیاز به GPU برای آموزش و ارزیابی بیشتر است. تعداد کمی از پلتفرمهایی که هوشمصنوعی را وارد سیستم خود میکنند، میتوانند زیرساخت خود را حفظ کنند. آنها ناچارند برای تامین نیازهای هوشمصنوعی، زیرساختهای خود را ارتقا دهند. همین امر باعث افزایش هزینههای فضای ابری و تامین GPU میشود. اگر این مدلها کمی بهینهتر بودند، به محاسبات کمتری نیاز داشتند.
ترند شماره ۵: بهینهسازی مدل
در سال گذشته، ما شاهد استفاده از تکنیکهایی برای آموزش، اصلاح و تنظیم دقیق مدلهای از پیش آموزشدیده مانند کوانتیزاسیون بودهایم. آیا می دانید چگونه میتوانید حجم یک فایل صوتی یا یک فایل ویدیویی را فقط با کاهش میزان بیت آن کاهش دهید؟ به عنوان مثال، با تغییر از float 16 به float 8، مصرف حافظه کاهش یافته و سرعت افزایش مییابد.
همچنین، به جای تنظیم دقیق میلیاردها پارامتر میتوان از روشی به نام LoRA یا تطبیق با رتبه پایین (Low-Rank Adaptation) استفاده کرد که شامل فریز کردن وزنهای مدل پیشآموزششده و تزریق لایههای قابل آموزش در هر بلوک ترنسفورمر است. LoRA تعداد پارامترهایی که نیاز به آپدیت دارند را کاهش میدهد که این امر fine-tuning را به طور چشمگیری سرعت میبخشد و حافظه مورد نیاز برای ذخیره آپدیتهای مدل را کاهش میدهد. بنابراین، انتظار داشته باشید که امسال تکنیکهای بیشتری برای بهینهسازی مدل پدیدار شوند.
ترند شماره ۶: مدلهای محلی سفارشی (custom local models)
مدلهای متنباز فرصتی را برای توسعه مدلهای هوش مصنوعی سفارشی قدرتمند فراهم میکنند. این به معنای آموزش مدلها بر روی دادههای اختصاصی یک سازمان و fine-tune آن برای نیازهای خاص آنها است. محلی (local) بودن آموزش و ارزیابیهای مدل باعث میشود که اطلاعات شخصی و حساس، امنیت بیشتری داشته باشند. همچنین استفاده از Retrieval Augmented Generation (RAG) برای دسترسی به اطلاعات مرتبط، به جای ذخیره مستقیم اطلاعات در خود مدل LLM، به کاهش اندازه مدل کمک میکند.
ترند شماره ۷: عاملهای مجازی (Virtual Agents)
شما میتوانید تجربه کاربری متفاوتی را با عاملهای مجازی تجربه کنید، فراتر از چتباتهای ساده. این بدان معناست که آنها با خودکارسازی وظایف به شما کمک میکنند و میتوانند کارهایی مانند رزرو کردن، تکمیل چک لیستها یا اتصال به خدمات دیگر را انجام دهند. در این زمینه پیشرفتهای بسیاری در راه است.
ترند شماره ۸: قوانین و مقررات (Regulation)
در دسامبر سال گذشته، اتحادیه اروپا به توافق موقت در مورد قانون هوش مصنوعی رسید. همچنین، copyright در آموزش مدلهای هوش مصنوعی که برای تولید محتوا استفاده میشوند، همچنان یک موضوع داغ و مورد بحث است. بنابراین، انتظار میرود که در حوزه مقررات، پیشرفتهای بیشتری را شاهد باشیم.
ترند شماره ۹: هوش مصنوعی سایه (Shadow AI)
به استفاده غیررسمی و شخصی از هوش مصنوعی در محل کار توسط کارمندان، هوش مصنوعی سایه گفته میشود. یعنی از هوش مصنوعی مولد، بدون تایید یا نظارت بخش IT استفاده شود.
بر اساس مطالعهای از Ernst and Young، حدود ۹۰ درصد از شرکتکنندهگان در این مطالعه اظهار کردند که از هوش مصنوعی در محل کار خود استفاده میکنند. اما بدون وجود سیاستهای هوش مصنوعی شرکتی، این امر میتواند منجر به مشکلاتی در زمینه امنیت، حریم خصوصی و امثال آن شود.
برای مثال، یک کارمند ممکن است ناخواسته اسرار تجاری را به یک مدل هوش مصنوعی (با دسترسی عمومی) وارد کند. در حالی که این مدلها دائما با دادههایی که دریافت میکنند در حال آموزش هستند.
یا ممکن است از مطالبی که دارای حق copyright است برای آموزش یک مدل اختصاصی استفاده کنند که در نهایت میتواند شرکت را در معرض اقدامات قانونی قرار دهد. خطرات هوش مصنوعی مولد تقریبا به موازات قابلیتهای آن افزایش مییابد.
خب، تمام شد. 9 ترند مهم هوش مصنوعی در سال جاری معرفی شدند. اما حالا چرا 9 ترند؟ چرا 10 تا نباشد؟ خب این دهمی دیگر کار شماست. در کامنتها برایمان بنویس که به نظر شما دهمین ترند چه میتواند باشد؟
منبع
این پست یک ترجمه با کیفیت از یک ویدئو یوتیوب از شرکت IBM است. برای مشاهده این ویدئو روی لینک زیر کلیک کنید:
دیدگاهتان را بنویسید