همکاری Microsoft و Nvidia برای ساخت یک Microsoft and Nvidia NLP در سال 2021

Microsoft and Nvidia NLP

مایکروسافت و انویدیا امروز اعلام کردند که آنچه را که ادعا می کنند بزرگترین و تواناترین مدل زبان مجهز به هوش مصنوعی یعنی Microsoft and Nvidia NLP است را آموزش داده اند:

تولید زبان طبیعی مگاترون تورینگ (MT-NLP) مایکروسافت و انویدیا می گویند که این مدل که جانشین احتمالی مدل شرکت Turing NLG 17B و Megatron-LM است، شامل 530 میلیارد پارامتر خواهد بود و در مجموعه وسیعی از وظایف زبان طبیعی با دقت بی نظیری عمل خواهد نمود

از جمله قابلیت های این مدل یعنی Microsoft and Nvidia NLP درک مطلب با دقت بالا، استدلال منطقی و استنباط های زبان طبیعی است.

“کیفیت و نتایجی که امروز این دو شرکت به دست آورده اند گامی بزرگ در جهت دستیابی به ظرفیت نسبتا کامل هوش مصنوعی در زبان طبیعی است. نوآوری های DeepSpeed و Megatron-LM به نفع توسعه مدل های هوش مصنوعی موجود و آینده خواهد بود و آموزش مدل های هوش مصنوعی بزرگ را ارزان تر و سریع تر خواهد کرد.

علی آلوی در وبلاگ این تیم در یک پست بلاگ نوشت:

"ما مشتاقانه منتظریم تا مشاهده کنیم که MT-NLG چگونه محصولات آینده را شکل خواهد داد تا جامعه را برانگیزد و مرزهای پردازش زبان طبیعی (NLP) را بیش از پیش پیش ببرد. این سفر طولانی خواهد بود اما ما از آنچه ممکن است و آنچه در پیش است، هیجان زده ایم."

Ali Alvi

آموزش مدلهای گسترده زبان در Microsoft and Nvidia NLP:

در یادگیری ماشین برای توسعه Microsoft and Nvidia NLP، پارامترها بخشی از مدل هستند که از دیتاست های قدیمی آموزش داده شده اند. به طور کلی، در حوزه زبان ، همبستگی بین تعداد پارامترها و پیچیدگی به طور قابل ملاحظه ای حفظ شده است. همچنین در پروژه Microsoft and Nvidia NLP نشان داده شده است که مدل های زبانی با تعداد زیادی پارامتر ، داده های بیشتر و زمان آموزش بیشتر به درک غنی تر و ظریف تری از زبان دست می یابند، به عنوان مثال توانایی جمع بندی کتاب ها و حتی تکمیل کد برنامه نویسی نمونه ای از این امکانات خواهد بود.

In machine learning, parameters are the part of the model that’s learned from historical training data. Generally speaking, in the language domain, the correlation between the number of parameters and sophistication has held up remarkably well. Language models with large numbers of parameters, more data, and more training time have been shown to acquire a richer, more nuanced understanding of language, for example gaining the ability to summarize books and even complete programming code.

برای آموزش MT-NLG، تیم توسعه Microsoft and Nvidia NLP می گویند که آنها یک مجموعه دیتاست با 270 میلیارد توکن از وب سایت های انگلیسی زبان ایجاد کرده اند. نشانه ها، راهی برای جدا کردن قطعات متن به واحدهای کوچکتر در زبان طبیعی، می تواند کلمات، کاراکترها یا بخشهایی از کلمات باشد. مانند همه مدل های هوش مصنوعی، MT-NLP مجبور بود با استفاده از مجموعه ای از مثالها برای یادگیری الگوها در نقاط داده، مانند قوانین دستوری و نحوی، “آموزش” دهد.

مجموعه داده تا حد زیادی از The Pile، مجموعه ای 835 گیگابایتی از 22 مجموعه داده کوچکتر که توسط تیم تحقیقاتی منبع باز EleutherAI ایجاد شده است ، تهیه شده است. این شمع شامل منابع آکادمیک (به عنوان مثالArxiv ، PubMed)، دانشنامه (StackExchange ، Wikipedia)، مخازن کد (Github) و موارد دیگر است که تیم Microsoft and Nvidia NLP می گویند آنها را تهیه کرده و با عکس های فیلتر شده از Common Crawl ترکیب کرده اند، حاصل آن مجموعه بزرگی از صفحات وب شامل اخبار و پست های رسانه های اجتماعی شده است.

اگر اساسا به بازی با رایانه علاقه دارید، احتمالاً با Steam و پلتفرم Valve برای به روز رسانی و اجرای بازی ها برخورد کرده اید. Steam امکان خرید بازی، نصب آن از طریق اینترنت و سپس اجرای آن از رابط Steam را فراهم می آورد. اما این ما را به چالش قدیمی بازی در سیستم عامل لینوکس یا game in Linux باز می گرداند، زیرا هر بازی رایانه ای به گونه ای طراحی نشده است که به غیر از سیستم عامل مایکروسافت یعنی ویندوز روی هر چیزی اجرا شود.

NLP dataset categories

آموزش این سیستم هوش مصنوعی در 560 سرور Nvidia DGX A100 انجام شد که هریک شامل 8 پردازنده گرافیکی Nvidia A100  بود. در قسمت دوم این مقاله به ادامه تشریح توسعه این سیستم قدرتمند بر پایه هوش مصنوعی خواهیم پرداخت.

احمد ساروخانی
احمد ساروخانی

  • چنانچه دیدگاهی توهین آمیز باشد و متوجه اشخاص مدیر، نویسندگان و سایر کاربران باشد تایید نخواهد شد.
  • چنانچه دیدگاه شما جنبه ی تبلیغاتی داشته باشد تایید نخواهد شد.
  • چنانچه از لینک سایر وبسایت ها و یا وبسایت خود در دیدگاه استفاده کرده باشید تایید نخواهد شد.
  • چنانچه در دیدگاه خود از شماره تماس، ایمیل و آیدی تلگرام استفاده کرده باشید تایید نخواهد شد.
  • چنانچه دیدگاهی بی ارتباط با موضوع آموزش مطرح شود تایید نخواهد شد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

مطالب مرتبط

لینک کوتاه نوشته
0

سبد خرید چسبان