جامعه متن باز مدل های زبانی بزرگ

مدل بنیادی چیست | از کاربردها تا تأثیر بر روی آینده هوش مصنوعی

«هوش مصنوعی» امروزه به نامی آشنا برای عموم مردم تبدیل شده است. از تلفن‌های همراه و دیگر ابزارهای دیجیتالی گرفته تا موتورهای جستجو و سرویس‌های آنلاین، بی‌وقفه در تلاش‌اند تا محصولات خود را به این فناوری انقلابی مجهز کنند و از این طریق، نظر میلیون‌ها مخاطبی که با روی باز به استقبال این فناوری رفته‌اند را به خود جلب کنند. یکی از دلایل پیوند مخاطبان با هوش مصنوعی را می‌توان «مدل‌های زبانی بزرگ» (LLMs) دانست که به خلق چت‌بات‌های هوشمندی مانند ChatGPT، Bing، Google Bard، Meta LLaMa و… منتج شدند. در اواخر سال 2022، مرکز تحقیقاتی OpenAI با عرضه مدل زبانی GPT-3، تحولی را رقم زد که اثرات عمیق آن، حال و آینده دنیای تکنولوژی‌ها نوین را دستخوش تغییر کرد. اما آیا تا به حال به این موضوع فکر کرده‌اید که چرا برای توسعه مدل GPT سال‌ها زمان صرف شد‌ ولی پس از عرضه آن، چت‌بات‌های هوشمند دیگر به سرعت روی کار آمدند و LLMهای متنوعی در دسترس عموم قرار گرفتند؟

پاسخ این سؤال در گرو مفهومی تحت عنوان «مدل‌های بنیادی» (Foundation models) است که با قابلیت‌های متنوع و منحصربه‌فرد خود، آینده هوش مصنوعی را دگرگون کرد. در این مطلب، نگاهی تفصیلی به این مدل‌های تعمیم‌پذیر می‌اندازیم و مسیر آنها را از گذشته تا آینده منتهی به هوش مصنوعی عمومی بررسی می‌کنیم.

مدل بنیادی چیست؟

مدل‌های بنیادی را می‌توان سنگ بنیای مدل‌های بزرگ زبانی دانست. به زبان ساده و خلاصه، مدل‌های بنیادی را می‌توان چنین تعریف کرد:

«مدل‌های بنیادی، مجموعه‌ای از شبکه‌های عصبی متخاصم (GAN) در مقیاس بسیار بزرگ است که بر روی مجموعه گسترده‌ای از داده‌ها آموزش دیده‌اند و این توانایی را دارند که دانش خود را به وظایف متنوعی تعمیم بدهند.»

شبکه‌های عصبی این مدل‌ها از پارامترهایی در مقیاس کلان تشکیل شده‌اند که تعداد آنها اغلب به چندین میلیارد می‌رسد. در طی مرحله پیش‌آموزش (pre-training)، انبوهی از اطلاعات و دیتاست‌های موجود در فضای اینترنت در اختیار این شبکه‌های عصبی قرار می‌گیرد و از این طریق، مدل‌های بنیادی قواعد و نحوه کارکرد زبان انسانی را می‌آموزند. در مدل‌های بنیادی جدید و پیشرفته، دانش این مدل‌ها تنها به زبان انسانی خلاصه نمی‌شود و بسیاری از زبان‌های برنامه‌نویسی و فرمول‌های ریاضی را نیز در بر می‌گیرند.

مدل‌های بنیادی چگونه آموزش می‌بینند؟

فرایند آموزش مدل‌های بنیادی بر اساس ساختار «یادگیری بدون نظارت» طی می‌شود. در این روش، الگوریتم‌ها بر اساس داده‌های بدون برچسب آموزش می‌بینند و سیستم سعی می‌کند تا به‌صورت خودکار، الگو و ارتباط  میان داده‌ها را بیاموزد. سپس از مدل درخواست می‌شود تا بر اساس آنچه که از پیش آموخته، به سؤالات مطرح‌شده پاسخ بدهد. در این مرحله، وظیفه نیروی انسانی است که کیفیت و استانداردهای خروجی مدل را محک بزند و به آن بازخورد مثبت یا منفی بدهد. اگر پاسخی که توسط مدل ارائه می‌شود با استانداردها و ساختارهای تعریف‌شده منطبق باشد، بازخورد تیم نظارتی مثبت خواهد بود و مدل، ساختار صحیحی که ارائه کرده است را به‌خاطر می‌سپارد. در غیر این صورت، اگر به هر دلیلی پاسخ خروجی حاوی محتوایی باشد که انتظارات ناظران را برطرف نکند، مدل با بازخورد منفی مواجه می‌شود و سعی می‌کند جواب‌های بعدی را به گونه‌ای اصلاح کند که به بازخورد مثبت منجر بشود. این فرایند آن‌قدر ادامه پیدا می‌کند تا الگوریتم، ضعف‌های موجود در پاسخ‌هایی که بازخورد منفی دریافت کرده‌اند را شناسایی و رفع کند و از این طریق، بهترین عملکرد خود را به نمایش بگذارد.

ذکر این موضوع که داده‌های دریافتی الگوریتم‌های مدل‌های بنیادی از نوع بدون نظارت است به این معنا نیست که می‌توان هر نوع داده‌ای را در اختیار مدل قرار داد. داده‌هایی با غلط‌های املایی و گرامری، اطلاعات نادرست و غیرحقیقی، محتوای خشونت‌آمیز، نژادپرستانه، متعصبانه، غیراخلاقی و… می‌تواند خروجی مدل را دستخوش نتایج منفی کند. درنتیجه، می‌بایست تمامی ضعف‌ها و ایرادات داده‌ها را پیش از ارائه به مدل رفع کرد و به‌اصطلاح «داده‌های تمیز‌شده» را در اختیار الگوریتم قرار داد.

ویژگی مدل‌های بنیادی

مدل‌های بنیادی مجهز به شبکه‌های عصبی از ویژگی‌های منحصربه‌فردی بهره می‌برند که آنها را به ابزاری ایده‌آل برای توسعه، بهبود و بهینه‌سازی دیگر سرویس‌های هوش مصنوعی تبدیل می‌کند. برخی از این ویژگی‌ها شامل موارد زیر است:

  • پارامترهای کلان

مفهوم «پارامتر» در مدل‌های بنیادی به وزن شبکه‌های عصبی موجود در مدل اشاره دارد و به نوعی، معیاری برای سنجش توانایی مدل است. این پارامترها طی مرحله آموزش مدل و در مواجهه با حجم عظیم اطلاعات ایجاد می‌شوند و نمایش‌دهنده نوع الگوها و شیوه ارتباط میان داده‌ها است. تعداد پارامترهای مدل‌های بنیادی در مدل‌های کوچک و ابتدایی اغلب از 1.5 میلیارد پارامتر آغاز می‌شود و در مدل‌های پیشرفته به بیش از 700 میلیارد پارامتر می‌رسد. این حجم عظیم از پارامترها به مدل‌های بنیادی اجازه می‌دهد که پیچیده‌ترین روابط میان داده‌ها را نیز درک کنند و درنتیجه، با افزایش این مقیاس، توانایی خود را بهبود ببخشند.

  • انجام وظایف چندمنظوره

پیش از ظهور مدل‌های بنیادی به شکل امروزی، مدل‌های مبتنی بر یادگیری ماشین سنتی قادر بودند که تنها یک وظیفه خاص را برعهده بگیرند؛ اما مدل‌های جدید می‌توانند طیف گسترده‌ای از وظایف مانند ترجمه، خلاصه‌سازی، پاسخ به پرسش‌ها و… را به‌صورت هم‌زمان انجام دهند.

  • یادگیری و بهبود عملکرد مداوم

مدل‌های بنیادی با دریافت داده‌های جدید و به‌روز و همچنین پردازش بازخوردها، عملکرد خود را به طور همیشگی بهبود می‌بخشد. البته کیفیت پشتیبانی مستمر، وابستگی زیادی به تیم توسعه مدل دارد و کارشناسان پشتیبانی تصمیم می‌گیرند که نقاط ضعف مدل به چه صورت رفع شود.

  • سازگاری و تطبیق‌پذیری

کاربرد مدل‌های بنیادی تنها به LLMها و چت‌بات‌های هوشمند خلاصه نمی‌شود و طیف وسیعی از سرویس‌ها را دربر می‌گیرد. این مدل‌ها می‌توانند به‌سادگی با دیگر ابزارها سازگار شوند و وظایف گوناگونی را در صنایع مختلف برعهده بگیرند.

تأثیر مدل‌های بنیادی بر تسریع رشد هوش مصنوعی

آموزش مدل‌های بنیادی، فرایند بسیار پیچیده و زمان‌بری است که نیاز به نیروی متخصص و سخت‌افزار بسیار قدرتمندی در حد پیشرفته‌ترین ابرکامپیوترهای جهان دارد؛ اما پس از طی این فرایند، مدل نهایی به‌عنوان ساختاری برای دیگر سرویس‌های مجهز به هوش مصنوعی قرار می‌گیرد و آنها را از طی‌کردن چنین مسیر دشواری بی‌نیاز می‌کند. توسعه مدل‌های پیشرفته چند میلیارد پارامتری، امری نیست که جز غول‌های تکنولوژی و شرکت‌های بزرگ فعال در زمینه هوش مصنوعی از عهده آن بر بیایند و این امر موجب کاهش دسترسی عمومی به ابزارهای توسعه هوش مصنوعی می‌شود. این در حالی است که مدل‌های بنیادی متن‌باز، این فرصت را برای سازمان‌های کوچک‌تر، استارت‌آپ‌ها و توسعه‌دهندگان فردی فراهم می‌کنند که به‌جای شروع از نقطه صفر، تمرکز خود را بر روی پیشرفت و شخصی‌سازی مدل‌های از پیش آموزش‌دیده معطوف کنند.

مدل بنیادی؛ الفبای فناوری هوش مصنوعی

مدل‌های بنیادی را می‌توان به مدرسه‌ای تشبیه کرد که خواندن و نوشتن را از الفبا به کودکان می‌آموزد و آنها را جهت پیروی از ملاحظات اخلاقی تعلیم می‌دهد. حال که دانش‌آموزش دوران ابتدایی را پشت سر گذاشت، از دانش‌پایه‌ای برخوردار است که می‌توان آن را در مقاطع بالاتر برای دستیابی به یک تخصص مشخص به کار بگیرد. مدل‌های بنیادی نیز چنین بستری را برای توسعه‌دهندگان فناوری هوش مصنوعی و یادگیری ماشین فراهم می‌کنند تا به‌جای صرف زمان و هزینه برای آموزش، به بهبود و fine-tuning مدل برای دستیابی به یک هدف مشخص بپردازند.

در دنیای امروزه، ارائه سریع راه‌حل برای چالش‌های پیش رو از اهمیت بسیاری برخوردار است. یکی از اهداف سرویس‌های توسعه‌یافته بر پایه هوش مصنوعی، حل مسائل به شیوه‌ای است که پیش‌ازاین برای نیروی انسانی به‌سادگی ممکن نبود و یا زمان و هزینه زیادی را به خود اختصاص می‌داد. ما در دنیای زندگی می‌کنیم که گاهی سرعت در ارائه راه‌حل حرف اول را می‌زند و در این میان، وجود یک مدل از پیش آموزش‌دیده و آماده بهره‌برداری، اهمیت خود را به نمایش می‌گذارد. در چنین مواقعی، متخصصان هوش مصنوعی قادرند با استفاده از مدل‌های بنیادی، بلافاصله فعالیت بر روی اهداف خود را آغاز کنند و در سریع‌ترین زمان ممکن به راه‌حل مد نظر خود برسند.

تحقق رؤیای هوش مصنوعی عمومی (AGI)

سال‌هاست که بشر، رؤیای دستیابی به ماشین‌هایی با توانایی‌های انسان‌گونه را در سر می‌پروراند. پس از اختراع اولین ربات‌ها و سیستم‌های کامپیوتری، رؤیاپردازی پیرامون این فناوری‌ها آغاز شد و از متخصصان گرفته تا هنرمندان، آینده‌ای را تصور می‌کردند که هوشمندی ماشین‌ها نه‌تنها به سطح انسان‌ برسد، بلکه از آن پیشی بگیرد. مبحث هوش مصنوعی انسان‌گونه که امروزه آن را تحت عنوان هوش مصنوعی عمومی (AGI) می‌شناسیم، برای سال‌ها امری دست‌نیافتنی به‌حساب می‌آمد؛ اما طی مدت زمانی که از شکوفایی فناوری هوش مصنوعی می‌گذرد، این مفهوم از خیال‌پردازی عبور کرده و به یکی از اهداف اصلی شرکت‌های بزرگ فناوری تبدیل شده است.

حتی پیشرفته‌ترین مدل‌های بنیادی را هم نمی‌توان در قالب هوش مصنوعی عمومی دسته‌بندی کرد و اصولاً این مدل‌ها، پتانسیل آن را ندارند که به طور مستقیم به AGI تبدیل شوند. بااین‌حال، نقش مدل‌های بنیادی در توسعه سیستم‌های مجهز به هوش مصنوعی که در نهایت به روی کار آمدن هوش مصنوعی عمومی می‌انجامد، چنان پررنگ و اثرگذار است که به‌سختی می‌توان دستیابی به چنین تکنولوژی انقلابی را بدون وجود مدل‌های بنیادی تصور کرد.

چرا AGIها به مدل‌های بنیادی وابسته‌اند؟

پیش از همه، AGIها نیازمند آن هستند که از دانشی گسترده برخوردار باشند و همچنین بتوانند این ظرفیت را به طیف گسترده‌ای از وظایف تعمیم بدهند. این دقیقاً همان نقطه قوتی است که مدل‌های بنیادی را به پایه‌ای مستحکم برای دیگر سیستم‌های هوش مصنوعی تبدیل می‌کند. با وجود مدل‌های از پیش آموزش‌دیده، AGIها کافیست که وظیفه انتقال مؤثر دانش را بر عهده بگیرند و در یادگیری اطلاعات جدید، مؤثر عمل کنند.

به‌علاوه، هوش مصنوعی عمومی نیازمند آن است بتواند با وظایف گوناگون تطبیق پیدا کند و بدون آن که برای انجام یک فعالیت خاص آموزش دیده باشید، از توانایی خود برای ارائه راهکار برای موضوعات متنوع استفاده کند. در این زمینه هم مدل‌های بنیادی اثرگذار ظاهر می‌شود و پتانسیل «انعطاف‌پذیری» را برای AGIها به ارمغان می‌آورد.

در نهایت، مدل‌های بنیادی امکان نمونه‌سازی سریع و تعمیم‌پذیر را فراهم می‌کنند که به توسعه‌دهندگان این امکان را می‌دهد که به‌سرعت مدل‌هایی جدید خلق کنند و به آزمایش آنها بپردازند. این روند آزمون و خطای مؤثر و کم‌هزینه، یکی از بهینه‌ترین مسیرهایی است که می‌تواند ما را به هدف دستیابی به AGIها نزدیک کند.

نگاهی به آینده مدل‌های بنیادی

هرچند که بیش از یک دهه از عمر مدل‌های بنیادی مبتنی بر شبکه‌های عصبی متخاصم نمی‌گذرد و هنوز به‌عنوان یک فناوری نوپا شناخته می‌شوند؛ ولی در همین فرصت اندکی که در اختیار داشته‌اند، موفق شدند که اثرات شگفت‌انگیزی در زمینه‌های مختلف از خود به‌جای بگذارند. در این بخش، به نظر تعدادی از کارشناسان و دانشمندان حوزه داده پیرامون نقشه راه مدل‌های بنیادی در آینده پیش رو نگاهی می‌اندازیم:

  • افزایش مقیاس مدل

برای آنکه OpenAI مدل بنیادی GPT-2 خود را از 1.5 میلیارد پارامتر به بیش از 750 میلیارد پارامتر در نسخه GPT-4 توربو برساند، تنها به 4 سال زمان نیاز داشت! نسخه دوم مدل GPT در سال 2019 معرفی شد و از آنجایی که صرفاً جهت اهداف تحقیقاتی توسعه یافته بود، هرگز در دسترس عموم قرار نگرفت. تعداد پارامترهای ایم مدل در نسخه سوم به 175 میلیارد و در آخرین نسخه به 750 میلیارد رسید. آنچه که به‌اتفاق تمامی کارشناسان به آن معتقد هستند این است که رشد مقیاس پارامترهای مدل‌های بنیادی به‌صورت نمایی در آینده ادامه خواهد داشت و در سال‌های آینده شاهد چندبرابر شدن مقیاس پارامترها هستیم.

  • دریافت محتوای چندوجهی

در حال حاضر، مدل‌های بنیادی بر روی فرم خاصی از محتوا شامل متن، تصویر و یا صوت آموزش می‌بینند و به سرویس‌های مبتنی بر هوش مصنوعی این امکان را می‌دهند که این داده‌ها را پردازش کنند. با این حال، مدل‌های بنیادی که توانایی دریافت و پردازش هم‌زمان اشکال متفاوتی از محتوا را داشته باشند هنوز در دسترس مخاطبان قرار نگرفته‌اند و در حال طی‌کردن مراحل توسعه خود در مراکز تحقیقاتی هستند. انتظار می‌رود که طی سال‌های پیش رو، مدل‌های چندوجهی مراحل آزمایشی خود را پشت سر بگذارند و با دریافت هم‌زمان محتوای تصویری، صوتی و متن، به درک عمیق‌تری از خواسته کاربران برسند.

  • استانداردسازی جهانی

مدل‌های بنیادی و در نگاه کلان، هوش مصنوعی، با چنان سرعتی به شکوفایی رسیدند که بسیاری از کشورها، هنوز قوانین و استاندارهای مشخصی برای این فناوری تدوین نکرده‌اند. بنا به انتظار کارشناسان، در آینده نزدیک شاهد گردهمایی کشورها برای استقرار استاندارهای جهانی برای هوش مصنوعی خواهیم بود تا به این وسیله، امکان همکاری مسئولانه در مقیاس بین‌المللی فراهم شود.

  • همکاری بیشتر انسان و هوش مصنوعی

فرایند کاری انسان و هوش مصنوعی روزبه‌روز بیشتر باهم ادغام می‌شود و این روندی است که انتظار می‌رود طی سال‌های آتی با رشد چشمگیری همراه باشد. مدل‌های بنیادی به‌عنوان یکی از زیرساخت‌های حیاطی برای توسعه سرویس‌های هوشمند، نقشی اساسی در توسعه ابزارهایی دارند که در قالب دستیار نیروی انسانی، به افزایش بهره‌وری کمک می‌کنند. دستیابی به این هدف نیازمند آن است که ماشین‌ها به درک درستی از توانایی، چالش‌ها و خواسته‌های انسان برسند و بتوانند خود را به‌خوبی با آنها وفق دهند؛ امری که بدون استفاده از مدل‌های بنیادی پیشرفته امکان تحقق نخواهد داشت.

مدل بنیادی؛ پایه‌گذار آینده هوشمند

مدل‌های بنیادی به‌واسطه فناوری شبکه‌های عصبی متخاصم، موفق به تحقق هدفی شدند که سال‌ها رؤیای دستیابی به آن وجود داشت؛ خلق ماشین‌هایی با دانش بی‌انتها و دستیاری بی‌نظیر برای انسان‌ها جهت انجام امور مختلف. با این حال، علی‌رغم مدل‌های زبانی قدرتمندی که امروزه در دسترس ما قرار دارد، هنوز در ابتدای راه تکامل هوش مصنوعی قرار داریم و برای دستیابی به هوش مصنوعی عمومی، راه درازی پیش روی ماست. به تعبیر دیگر، مدل‌های بنیادی به عنوان  کاتالیزورهایی مهم و اثر‌گذاری، توسعه مدل‌های پیشرفته هوش مصنوعی را سرعت می‌بخشند و در نهایت، ساخت AGIها را ممکن می‌کنند. هرچند چالش‌های متعددی ازجمله مشکلات زیست‌محیطی و ملاحظات اخلاقی بر سر راه توسعه این مدل‌ها قرار دارند، اما با این وجود، هرگز تا به ‌حال به این اندازه به ظهور هوش مصنوعی عمومی نزدیک نبوده‌ایم. نظر شما در این باره چیست؟ آیا مدل‌های بنیادی می‌‌توانند پیش از آنچه انتظار می‌رود، رویای ما را برای دستیابی به هوش مصنوعی عمومی محقق کند؟

این مطلب را با دوستان خود به اشتراک بگذراید:

فهرست مطالب

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *