مدل های بنیادی به زبان ساده؛ از گذشته تا آینده
مثل فونداسیون ساختمان یا پایههای یک صندلی، در حال حاضر مدل های بنیادی نقش اصلی را در ایجاد تواناییهای تازۀ هوش مصنوعی ایفا میکنند. این مدلها، شبکههای عصبی یادگیری تازهای هستند که مسیر پیشرفت جدیدی به روی هوش مصنوعی گشودهاند و به همین دلیل میتوانیم ظهور آنها را به عنوان یک نقطۀ عطف برای دنیای هوش مصنوعی در نظر بگیریم. این مدلها به زبان ساده اساس توسعۀ چتباتهای امروزی هوش مصنوعی بهحساب میآیند. در نوشتۀ فعلی، مدل های بنیادی را به زبان ساده معرفی خواهیم کرد و اجزا، عملکرد و منابع یادگیری عمیقتر آن را شرح خواهیم داد.
اهمیت مدل های بنیادی؛ این ستونهای نامرئی!
در حال حاضر، مدل های بنیادی هوش مصنوعی، به عنوان سنگ بنای نوآوریهای تازۀ هوش مصنوعی شناخته میشوند. اهمیت مدل های بنیادی، در ظرفیت بالایی که در درک زبان طبیعی دارند، خلاصه نمیشود؛ بلکه این مدلها در بهبود مهارت حل مسئله، اتوماسیونسازی فرایندها، پیشرفت در تحقیقات علمی و شخصیسازی خدمات، نقش ایفا میکنند. اهمیت دیگری که وجود دارد، کاهش زمان و هزینه است؛ هرچند آموزش و توسعۀ مدل های بنیادی فرایندی بسیار پرهزینه محسوب میشود اما در درازمدت، مراحل تحقیق و بررسیهای مختلف را بهشکل محسوسی بهینه میکند.
یک مدل بنیادی هوش مصنوعی، به کمک عناصر مختلفی شکل میگیرد؛ هر کدام از این اجزا انگشتی در مشت مدل بنیادی هستند و آن را قدرتمندتر میکنند. عناصر تشکیلدهندۀ مدل بنیادی عبارتاند از:
- مدلهای زبانی بزرگ (LLM): این مدلها بهطور خاص، برای درک و تولید زبان طبیعی توسعه داده شدهاند. یک مدل زبانی بزرگ یا LLM، بهشکلی آموزش میبیند که بتواند دنبالۀ جملۀ واردشده را تولید کند.
- معماری ترانسفورماتور: این معماری نوعی معماری شبکۀ عصبی است که با استفاده از دو جزء اصلی یعنی رمزگذاری-رمزگشایی، پردازش زبان طبیعی (NLP) را دگرگون کرده است.
- مکانیزم توجه: این مکانیزم به ماشین کمک میکند تا در طول پردازش، به قسمتهای مختلف اهمیت و ارزش مختلفی بدهد و به این ترتیب، اطلاعات مهم را اولویتبندی کند.
- مکانیزم پیشآموزش: پیشآموزش یا pre-training، روشی است که طی آن یک مدل با پارامترهای متعدد و مجموعۀ بزرگی از دادهها آموزش داده میشود تا زبان را درک کرده و قابلیتهای عمومی تولید آن را کسب کند.
مراحل توسعه مدل های بنیادی؛ پله پله تا آفرینش معجزه
در حال حاضر فرایند ساخت یک مدل بنیادی، مراحل مشخصی دارد و هر سازندهای میتواند با پیروی از آن به مدل بنیادی تازهای دست یابد؛ البته اگر به زیرساختهای سختافزاری قدرتمند و پیچیدۀ آن دسترسی داشته باشد! در ادامه با مراحلی که معمولا برای توسعۀ این مدلها طی میشود آشنا خواهید شد:
- پردازش اولیۀ داده: دادههایی که برای آموزش مدل، جمعآوری شده است را باید طی مراحلی پالایش کرد تا نویز آنها حذف شده و استانداردسازی شوند.
- توکنسازی: در این فرایند، جملات به واحدهای کوچکتر زبانی مثل کلمه یا زیرکلمه تقسیم میشوند تا مدل بتواند اطلاعات را بهتر، مؤثرتر و دقیقتر پردازش کند.
- معماری مدل: معماری مدل یکی از قسمتهای اساسی و مهم توسعۀ مدل است؛ در این مرحله با توجه به الزاماتی که برای مدل مورد نظر وجود دارد، معماری خاصی برگزیده و طراحی میگردد. مدلهای ترنسفورمر در بین سایرین، محبوبیت بیشتری دارند.
در سالهایی که از ظهور اولین مدل بنیادی گذشته است؛ مدلهایی توسعه یافتهاند که ظرفیت و قدرت بالایی داشته و معروفتر از سایرین شدهاند. در ادامه به معرفی مشهورترین مدل های بنیادی میپردازیم.
- مدل بنیادی Bert: این مدل یکی از اولین مدلهای بنیادی و اولین مدل بنیادی بر پایۀ معماری ترنسفورمرها به حساب میآید. مدل Bert در سال ۲۰۱۸ توسط گوگل معرفی شد و راهی را آغاز کرد که امروز به پیشرفتهترین چتباتهای هوش مصنوعی رسیده است.
- مدل بنیادی GPT-2: این مدل بنیادی یک سال پس از Bert مدل بنیادی GPT-2 توسط شرکت Openai بهشکل رایگان عرضه شد.
- مدل بنیادی Llama: شرکت متا برای نخستین بار در سال ۲۰۲۳ این مدل را منتشر کرد؛ مدل بنیادی Llama در سه ظرفیت و تا ۷۰ میلیارد پارامتر، به شکل رایگان در دسترس توسعهدهندگان و علاقهمندان قرار گرفته است.
توانایی مدل های بنیادی در انجام فرایندها
مدلهای بنیادی تواناییهای مختلفی را به تکنولوژی هوش مصنوعی اضافه میکنند؛ در واقع بسیاری از تواناییهای پیشرفتۀ چتباتهای هوش مصنوعی به دلیل توسعۀ مدل های بنیادی است. برخی از این قابلیتها عبارتاند از:
- درک و تولید زبان طبیعی و زبان برنامهنویسی: مدل های بنیادی آموزش دیدهاند تا زبان را بفهمند و معناهای مختلف را از آن استخراج کنند. توانایی این مدلها محدود به زبان طبیعی نیست و درک زبان برنامهنویسی نیز از قابلیتهای دیگر مدلهای بنیادی است.
- تحلیل احساسات: این مدلها میتوانند احساسات، مقاصد و موضوعات مختلف متن را درک کنند و به این ترتیب قادرند تا اقدام به طبقهبندی، مدلسازی و تجزیه و تحلیل متن کنند.
اگر به یادگیری مبحث مدل های بنیادی علاقهمند هستید، مسیرهای مختلفی برای شروع وجود دارد؛ دورههای آموزشی آنلاین، کتابهای مختلف مانند “یادگیری عمیق” اثر یان گودفلا، آموزشهای رایگان در یوتیوب و وبسایتهای مرجعی مانند Hugging Face، TensorFlow Hub و PyTorch Hub از منابع مناسب برای یادگیری به شمار میروند.
باورهای کاملا غلط درباره مدل های بنیادی
از زمان گذشته تا حالا صحبت از هوش مصنوعی و مدل های بنیادی بسیاری را به این گمان انداخته که با موجوداتی با درک کامل انسانی و بدون اشتباه روبهرو خواهند بود؛ در حالی که این مدلها نه از درک انسانی برخوردارند و نه کامل هستند. مدل های بنیادی قادرند برخی از فرایندها را با دقت بسیار بالا درک کرده و مدیریت کنند اما به معنای دقیق کلمه از درک انسانی برخوردار نیستند؛ این مدلها نمیتوانند اراده کنند و تنها بر اساس آنچه که بهعنوان آموزش دریافت کردهاند عمل میکنند.
یکی دیگر از باورهای اشتباه درباره این مدلها این است که در آینده، به شکلی مشاغل انسانی را تهدید میکنند در حالی که این باور نیز همچنان نادرست و به دور از واقعیت است.
اخلاق در توسعه مدل های بنیادی
ملاحظات اخلاقی در توسعه و مدیریت مدل های بنیادی اهمیت بسیاری دارد زیرا این مدلها میتوانند بهطور مستقیم باعث ایجاد یا زمینهساز آسیبهای مختلفی شوند. از مهمترین مواردی که باید در حیطۀ اخلاقی به آن توجه کرد عبارتاند از:
- رعایت حق نشر در مرحلۀ آموزش مدل بنیادی
- جلوگیری از جهتگیری در بیان واقعیتها
- حفظ حریم خصوصی کاربران
- ممانعت از پاسخ به سؤالات نامناسب (آسیبزا، غیرقانونی، جنسی و …)
با نگاه مختصری به تاریخ توسعۀ مدل های بنیادی، میتوانیم پیشرفت سریع ظرفیت این مدلها را ببینیم؛ مدل Bert به عنوان یکی از اولین مدل های بنیادی، با ۳۴۰ میلیون پارامتر منتشر شد در حالیکه نسخۀ چهارم Chat gpt، تنها بعد از گذشت پنج سال، با ظرفیت یک تریلیونی رونمایی شد. علاوه بر افزایش ظرفیت، تواناییهای این مدلها نیز در آینده افزایش خواهد یافت و چالشها و فرصتهای تازهای را برای دنیا ایجاد خواهد کرد.
باید منتظر بود و دید که پیشرفت مدل های بنیادی در دنیا به چه نقطهای خواهد رسید و این مدلها کدام فرایندها را برای سهولت زندگی انسان و آسودگی او، بهشکل خودکار انجام خواهد داد.