مایکروسافت و انویدیا امروز اعلام کردند که آنچه را که ادعا می کنند بزرگترین و تواناترین مدل زبان مجهز به هوش مصنوعی یعنی Microsoft and Nvidia NLP است را آموزش داده اند:
تولید زبان طبیعی مگاترون تورینگ (MT-NLP) مایکروسافت و انویدیا می گویند که این مدل که جانشین احتمالی مدل شرکت Turing NLG 17B و Megatron-LM است، شامل ۵۳۰ میلیارد پارامتر خواهد بود و در مجموعه وسیعی از وظایف زبان طبیعی با دقت بی نظیری عمل خواهد نمود
از جمله قابلیت های این مدل یعنی Microsoft and Nvidia NLP درک مطلب با دقت بالا، استدلال منطقی و استنباط های زبان طبیعی است.
“کیفیت و نتایجی که امروز این دو شرکت به دست آورده اند گامی بزرگ در جهت دستیابی به ظرفیت نسبتا کامل هوش مصنوعی در زبان طبیعی است. نوآوری های DeepSpeed و Megatron-LM به نفع توسعه مدل های هوش مصنوعی موجود و آینده خواهد بود و آموزش مدل های هوش مصنوعی بزرگ را ارزان تر و سریع تر خواهد کرد.
علی آلوی در وبلاگ این تیم در یک پست بلاگ نوشت:
"ما مشتاقانه منتظریم تا مشاهده کنیم که MT-NLG چگونه محصولات آینده را شکل خواهد داد تا جامعه را برانگیزد و مرزهای پردازش زبان طبیعی (NLP) را بیش از پیش پیش ببرد. این سفر طولانی خواهد بود اما ما از آنچه ممکن است و آنچه در پیش است، هیجان زده ایم."
آموزش مدلهای گسترده زبان در Microsoft and Nvidia NLP:
در یادگیری ماشین برای توسعه Microsoft and Nvidia NLP، پارامترها بخشی از مدل هستند که از دیتاست های قدیمی آموزش داده شده اند. به طور کلی، در حوزه زبان ، همبستگی بین تعداد پارامترها و پیچیدگی به طور قابل ملاحظه ای حفظ شده است. همچنین در پروژه Microsoft and Nvidia NLP نشان داده شده است که مدل های زبانی با تعداد زیادی پارامتر ، داده های بیشتر و زمان آموزش بیشتر به درک غنی تر و ظریف تری از زبان دست می یابند، به عنوان مثال توانایی جمع بندی کتاب ها و حتی تکمیل کد برنامه نویسی نمونه ای از این امکانات خواهد بود.

برای آموزش MT-NLG، تیم توسعه Microsoft and Nvidia NLP می گویند که آنها یک مجموعه دیتاست با ۲۷۰ میلیارد توکن از وب سایت های انگلیسی زبان ایجاد کرده اند. نشانه ها، راهی برای جدا کردن قطعات متن به واحدهای کوچکتر در زبان طبیعی، می تواند کلمات، کاراکترها یا بخشهایی از کلمات باشد. مانند همه مدل های هوش مصنوعی، MT-NLP مجبور بود با استفاده از مجموعه ای از مثالها برای یادگیری الگوها در نقاط داده، مانند قوانین دستوری و نحوی، “آموزش” دهد.
مجموعه داده تا حد زیادی از The Pile، مجموعه ای ۸۳۵ گیگابایتی از ۲۲ مجموعه داده کوچکتر که توسط تیم تحقیقاتی منبع باز EleutherAI ایجاد شده است ، تهیه شده است. این شمع شامل منابع آکادمیک (به عنوان مثالArxiv ، PubMed)، دانشنامه (StackExchange ، Wikipedia)، مخازن کد (Github) و موارد دیگر است که تیم Microsoft and Nvidia NLP می گویند آنها را تهیه کرده و با عکس های فیلتر شده از Common Crawl ترکیب کرده اند، حاصل آن مجموعه بزرگی از صفحات وب شامل اخبار و پست های رسانه های اجتماعی شده است.
اگر اساسا به بازی با رایانه علاقه دارید، احتمالاً با Steam و پلتفرم Valve برای به روز رسانی و اجرای بازی ها برخورد کرده اید. Steam امکان خرید بازی، نصب آن از طریق اینترنت و سپس اجرای آن از رابط Steam را فراهم می آورد. اما این ما را به چالش قدیمی بازی در سیستم عامل لینوکس یا game in Linux باز می گرداند، زیرا هر بازی رایانه ای به گونه ای طراحی نشده است که به غیر از سیستم عامل مایکروسافت یعنی ویندوز روی هر چیزی اجرا شود.

آموزش این سیستم هوش مصنوعی در ۵۶۰ سرور Nvidia DGX A100 انجام شد که هریک شامل ۸ پردازنده گرافیکی Nvidia A100 بود. در قسمت دوم این مقاله به ادامه تشریح توسعه این سیستم قدرتمند بر پایه هوش مصنوعی خواهیم پرداخت.