«سیم سیم، بازشو» اگر خاطرتان باشد، این رمزی بود که علی بابای افسانهای برای ورود به غار پر از گنج طلا از آن استفاده میکرد و حالا شرکت چینی علیبابا با رونمایی از کوئن خود به دنیای رقابتی هوشمصنوعی وارد شده است. اگر علی بابا با گفتن «سیمسیم» دروازه یک غار را باز می کرد، […]
«سیم سیم، بازشو» اگر خاطرتان باشد، این رمزی بود که علی بابای افسانهای برای ورود به غار پر از گنج طلا از آن استفاده میکرد و حالا شرکت چینی علیبابا با رونمایی از کوئن خود به دنیای رقابتی هوشمصنوعی وارد شده است. اگر علی بابا با گفتن «سیمسیم» دروازه یک غار را باز می کرد، حالا امروز شرکت چینی علی بابا با کوئن تلاش می کند همه گرههای ذهنی را بگشاید. شرکت علیبابا مدعی است این چتبات حتی از جی پی تی و دیپ سیک هم برتر است.
درحالیکه تا چند هفته قبل دیپ سیک با ۶۷۲ میلیارد پارامتر آموزشی حرف اول را در دنیای هوش مصنوعی می زد حالا کوئن علیبابا از تستهای پیچیده سربلند بیرون آمده و نسبت به بقیه چتباتها نمرات بالاتری کسب کرده است. این موضوع نشان از وجود بیشترین تعداد پارامتر آموزشی در این مدل اط هوش مصنوعی است.
چتباتها بر سر چه با هم رقابت میکنند؟
رقابت برسر این است که ماشینها بتوانند زبان انسان را بفهمند، پردازش کنند و به آن پاسخ دهند. این حوزه پردازش طبیعی (Natural Language Processing) با نام اختصاریNLP)) یکی از شاخههای مهم هوش مصنوعی است که به تعامل میان کامپیوترها و زبان انسانها میپردازد.
تفاوت اصلی انواع هوشمصنوعی در پیشرفت حوزه پردازش زبان طبیعی است که نقش کلیدی در این مهم را مدل زبانی بزرگ ((Large Language Model که در فناوری با نام اختصاری (LLM) شناخته میشود، ایفا میکند. مدل زبانی بزرگ یا(LLM) یک الگوریتم هوشمصنوعی است که در پشت صحنه تمام رباتهای گفتوگو محور، نقش فعالی را ایفا میکند. یکی از نمونههای معروف این مدل زبانی چت جیپیتی است. از قدرت پاسخگویی و حتی قدرت تشخیص احساسات کاربر گرفته تا قدرت دیالوگنویسی در این مدل زبانی وجود دارد. تفاوت مدلهای زبانی در تعداد پارامترهای آموزشی است و این مدلها با دهها و حتی میلیاردها پارامتر آموزش میبینند. درواقع مدلهای زبانی بزرگ، مدلهای هوشمصنوعی هستند که از شبکههای عصبی عمیق مانند ترنسفورمرها استفاده میکنند و با تعداد بسیار زیادی پارامتر آموزش داده میشوند تا بتوانند زبان انسان را درک کنند. رباتهای معروفی که از مدلهای زبانی بزرگ استفاده می کنند شامل: GPT توسعهیافته توسط OpenAI، Gemini 2.0 Flash توسعهیافته توسط گوگل یا R1 توسعه یافته توسط شرکت deepseek است.
مزیت رقابتی علیبابا در دنیای هوش مصنوعیها
حالا شرکت علیبابا در چین توانسته مدل زبانی برای هوشمصنوعی خود طراحی کند که با توجه به نام و عملکرد آن در تستهای مختلف، میتوان انتظار داشت دارای صدها میلیارد پارامتر باشد و یکی از قدرتمندترین مدلهای زبانی موجود باشد. البته اطلاعات دقیقی درباره تعداد پارامترهای آموزشی Owen2.5-Max در دسترس نیست زیرا جزئیات فنی آن به طور عمومی منتشر نشده است. اما با توجه به نام آن و مقایسه با مدل deepseek R1 که نهایتا ۶۷۲ میلیارد پارامتر دارد، میتوان حدس زد که Owen2.5-Max احتمالاً بیشتر از این تعداد پارامتر است.
تستهایی که کوئن از آن سربلند بیرون آمد
علیبابا بعد از رونمایی از کوئن در تستهای مختلف به بررسی و مقایسه چند مدل زبانی مهم در دنیا پرداخته تا عملکرد بهتر خود را نشان دهد.
تستهای مورد استفاده شامل: سنجش درک چندوجهی زبان (MMLU) و نسخه پیشرفته تر آن به نام (MMLU-Pro)، سنجش تواناییهای استدلالی (BBH)، ارزیابی مبتنی بر زبان چینی (C-Eval)، درک چندوجهی زبان چینی (CMMLU)، ارزیابی توانایی کدنویسی(HumanEval)، توانایی حل مسائل برنامهنویسی (MBPP)، درک و استدلال درونی (CRUX-I)، درک و استدلال بیرونی (CRUX-O)، دانش عمومی و کتابمحور (GSMBK)، توانایی حل مسائل ریاضی (MATH) است و در همه این تستها کوئن نسبت به رقبای خود بالاترین امتیاز را کسب کرده است.
تستهای مورد استفاده برای مقایسه عملکرد این مدلها شامل: Areaa-Hard، MMU-Pro، GPQA-Diamond، LiveCodeBench و LiveBench است که نشان میدهد کوئن در پردازش زبان طبیعی و حل مسائل پیچیده نسبت به اکثر زبانهای هوش مصنوعی موجود در دنیا برتری دارد.
منبع:خبرگزاری انا