وقتی ChatGPT در پایان سال ۲۰۲۲ منتشر شد و تنها در چند روز میلیون‌ها کاربر را به خود جذب کرد، رقابت تازه‌ای میان غول‌های فناوری بر سر دستیارهای هوش مصنوعی مکالمه‌ای آغاز شد. پاسخ گوگل به این موج، ابتدا رباتی به نام Bard بود؛ اما امروز در سال ۱۴۰۴ دیگر خبری از نام Bard نیست. گوگل این سرویس را به Gemini تغییر نام داده و آن را به خانواده‌ای کامل از مدل‌های هوش مصنوعی تبدیل کرده که مستقیماً در برابر ChatGPT قرار می‌گیرد. در این مقاله نگاهی به‌روز به دستیار هوش مصنوعی Gemini گوگل، مسیری که از Bard تا اینجا طی شده و جایگاه فعلی آن در رقابت با ChatGPT می‌اندازیم.

از Bard تا Gemini؛ یک تغییر نام، یک تغییر مسیر

گوگل در فوریهٔ ۲۰۲۳ از رباتی به نام Bard رونمایی کرد. این ربات در آن زمان بر پایهٔ مدل زبانی LaMDA ساخته شده بود و به‌عنوان یک سرویس آزمایشیِ گفت‌وگومحور معرفی شد؛ ابزاری که قرار بود دانش وب را با توان مدل‌های زبانی بزرگ ترکیب کند و به پرسش‌های کاربران پاسخ‌های تازه و طبیعی بدهد. Bard در ماه‌های بعد چند بار ارتقا پیدا کرد و سرانجام به مدل‌های قوی‌تر گوگل مهاجرت کرد.

نقطهٔ عطف اصلی، اوایل سال ۲۰۲۴ بود؛ زمانی که گوگل تصمیم گرفت نام Bard را کنار بگذارد و کل سرویس را با عنوان Gemini یکپارچه کند. از آن پس، هم اپلیکیشن و دستیار گفت‌وگو و هم خانوادهٔ مدل‌های زیربنایی، همگی زیر یک نام واحد یعنی Gemini شناخته می‌شوند. به بیان ساده، Bard را باید پیشینه و نقطهٔ شروع این مسیر دانست و Gemini را شکل بالغ و امروزیِ همان ایده.

Gemini دقیقاً چیست؟

Gemini نام محصول هوش مصنوعی گوگل است و دو لایه دارد که اغلب با هم اشتباه گرفته می‌شوند. لایهٔ اول، اپلیکیشن و دستیار Gemini است؛ همان رابطی که کاربر عادی با آن گفت‌وگو می‌کند، سؤال می‌پرسد، متن یا تصویر تولید می‌کند و کارهای روزمره را پیش می‌برد. لایهٔ دوم، خانوادهٔ مدل‌های Gemini است؛ یعنی موتورهای هوش مصنوعی‌ای که در پشت صحنه این پاسخ‌ها را می‌سازند و در محصولات دیگر گوگل و حتی در ابزارهای توسعه‌دهندگان نیز به کار می‌روند.

برخلاف Bard اولیه که عمدتاً یک ربات گفت‌وگوی متنی بود، Gemini از پایه به‌صورت چندوجهی (Multimodal) طراحی شده است. این یعنی می‌تواند هم‌زمان متن، تصویر، صدا و حتی ویدئو را درک و پردازش کند. برای نمونه می‌توانید عکسی از یک مسئله را نشان دهید و توضیح بخواهید، یا فایل صوتی و سندی را به آن بدهید تا تحلیل کند. همین چندوجهی‌بودن، یکی از مهم‌ترین تفاوت‌های نسل امروزی نسبت به روزهای ابتدایی Bard است.

خانوادهٔ مدل‌های Gemini؛ یک نام، چند مدل

مهم‌ترین نکته‌ای که این مقاله را از نسخهٔ قدیمیِ مربوط به Bard جدا می‌کند، همین است که Gemini دیگر یک مدل واحد نیست، بلکه یک خانوادهٔ کامل از مدل‌هاست که هر کدام برای کاربردی متفاوت تنظیم شده‌اند. گوگل این مدل‌ها را در نسل‌های پیاپی منتشر کرده است؛ از Gemini 1.0 و 1.5 گرفته تا نسل‌های جدیدتر مانند خانوادهٔ Gemini 2.5 که در سال ۲۰۲۵ به‌صورت پایدار در دسترس قرار گرفت.

درون هر نسل، معمولاً چند نسخه با اولویت‌های متفاوت وجود دارد:

  • نسخهٔ Pro: قوی‌ترین و دقیق‌ترین مدل برای کارهای پیچیده، استدلال عمیق و وظایف سنگین مانند برنامه‌نویسی و تحلیل‌های دشوار.
  • نسخهٔ Flash: مدلی متعادل که تعادل خوبی میان سرعت، هزینه و کیفیت برقرار می‌کند و برای بیشتر کاربردهای روزمره مناسب است.
  • نسخهٔ Flash-Lite: سبک‌ترین و کم‌هزینه‌ترین گزینه که برای حجم بالای درخواست‌ها و کارهای ساده بهینه شده است.

منطق این تقسیم‌بندی روشن است: همه به سنگین‌ترین مدل نیاز ندارند. برای یک پرسش سادهٔ روزمره، یک مدل سریع و سبک کافی است؛ اما برای حل یک مسئلهٔ پیچیدهٔ ریاضی یا نوشتن کد، مدل قوی‌تر ارزش انتظار بیشتر را دارد. این انعطاف، یکی از مزیت‌های رقابتیِ Gemini در برابر رقبا به‌شمار می‌رود.

قابلیت «تفکر» و حالت‌های استدلال

یکی از تحولات مهم نسل‌های اخیر Gemini، افزوده‌شدن قابلیت تفکر (Thinking) است. در این حالت، مدل پیش از ارائهٔ پاسخ نهایی، فرضیه‌ها و گام‌های میانی را بررسی می‌کند و عملاً مسیر استدلال خود را طی می‌کند. نتیجهٔ این رویکرد، پاسخ‌های دقیق‌تر در مسائلی است که به استدلال چندمرحله‌ای نیاز دارند؛ مانند ریاضی، منطق و برنامه‌نویسی.

گوگل برای کاربردهای بسیار پیچیده، حالت‌های پیشرفته‌تری مانند Deep Think نیز معرفی کرده است که در آن مدل چند فرضیهٔ موازی را پیش از پاسخ‌دادن می‌سنجد. این جهت‌گیری نشان می‌دهد رقابت دیگر صرفاً بر سر «پاسخ‌دادن سریع» نیست، بلکه بر سر «درست‌تر فکر کردن» است؛ همان زمینی که ChatGPT هم با مدل‌های استدلالی خود در آن فعال است.

Gemini در برابر ChatGPT در سال ۱۴۰۴

در نسخهٔ قدیمیِ این مقاله، مقایسهٔ Bard و ChatGPT تا حد زیادی بر اساس حدس و خبرهای اولیه انجام شده بود، چون Bard هنوز به‌طور کامل منتشر نشده بود. امروز شرایط کاملاً متفاوت است و هر دو محصول بالغ و پرکاربرند. مهم‌ترین محورهای مقایسه را می‌توان این‌طور خلاصه کرد:

  • دسترسی به اطلاعات روز: یکی از مزیت‌های تاریخی خانوادهٔ گوگل، پیوند نزدیک با جست‌وجوی وب و اطلاعات به‌روز است. ChatGPT نیز امروز قابلیت جست‌وجوی زندهٔ وب دارد و این فاصله نسبت به گذشته بسیار کم شده است.
  • یکپارچگی با اکوسیستم: Gemini مزیت روشنی در ادغام با سرویس‌های گوگل مانند Search، Gmail، Docs و Android دارد؛ در مقابل، ChatGPT اکوسیستم گستردهٔ خود از افزونه‌ها، ابزارها و مدل‌های متنوع را ارائه می‌دهد.
  • چندوجهی‌بودن: هر دو سرویس امروز می‌توانند متن، تصویر و صدا را پردازش کنند؛ این دیگر یک ویژگی انحصاری نیست، بلکه به استاندارد پایه تبدیل شده است.
  • تنوع مدل: هر دو خانواده چند مدل با سطوح مختلف سرعت و قدرت ارائه می‌دهند تا کاربر بتواند بین هزینه و کیفیت تعادل برقرار کند.

واقعیت این است که هیچ‌کدام به‌طور مطلق «بهتر» نیستند؛ انتخاب میان آن‌ها بیشتر به نیاز کاربر، بستر کاری و ترجیح شخصی بستگی دارد. رقابت میان این دو، عملاً موتور پیشران سرعت بالای پیشرفت در کل این حوزه شده است.

محدودیت‌ها و نکته‌ای که نباید فراموش شود

هرچند Gemini نسبت به روزهای Bard فاصلهٔ زیادی را طی کرده، اما همچنان مانند هر مدل زبانی بزرگ دیگری بی‌نقص نیست. این دسته از ابزارها گاهی دچار پدیده‌ای به نام توهم (Hallucination) می‌شوند؛ یعنی اطلاعاتی نادرست را با لحنی کاملاً مطمئن ارائه می‌دهند. همان‌طور که در روزهای نخستِ معرفی Bard هم یک پاسخ نادرست در ویدئوی دموی گوگل سروصدای زیادی به‌پا کرد و بر ارزش سهام شرکت اثر گذاشت، امروز هم نباید پاسخ‌های این ابزارها را بدون راستی‌آزمایی، به‌ویژه در موضوعات حساس، قطعی فرض کرد.

بهترین رویکرد این است که Gemini و ابزارهای مشابه را یک «دستیار توانمند» در نظر بگیریم، نه یک «مرجع خطاناپذیر». استفادهٔ هوشمندانه از این ابزارها، یعنی بهره‌گیری از سرعت و توان آن‌ها در کنار قضاوت و بازبینی انسانی.

سخن پایانی

مسیر Bard تا Gemini نمونه‌ای روشن از سرعت تحول در دنیای هوش مصنوعی است؛ سرویسی که چند سال پیش به‌عنوان یک ربات آزمایشی و در پاسخ شتاب‌زده به ChatGPT معرفی شد، امروز به یک خانوادهٔ کامل از مدل‌های چندوجهی و استدلال‌محور تبدیل شده که در قلب بسیاری از محصولات گوگل قرار دارد. رقابت Gemini و ChatGPT نه‌تنها به سود این دو شرکت، بلکه به سود کاربران بوده است، چون هر نسل تازه، استانداردهای کیفیت را بالاتر می‌برد. آنچه برای کاربر امروز اهمیت دارد، شناخت توانایی‌ها و محدودیت‌های واقعی این ابزارها و انتخاب گزینه‌ای است که با نیاز او بهترین تناسب را دارد.

سؤالات متداول

تفاوت Bard و Gemini چیست؟

Bard نام نخستین ربات گفت‌وگوی هوش مصنوعی گوگل بود که در سال ۲۰۲۳ و در پاسخ به ChatGPT معرفی شد. گوگل در اوایل سال ۲۰۲۴ این سرویس را به Gemini تغییر نام داد و آن را از یک ربات گفت‌وگوی ساده به یک خانوادهٔ کامل از مدل‌های هوش مصنوعی چندوجهی گسترش داد. بنابراین Gemini در واقع نسخهٔ بالغ و امروزیِ همان مسیری است که با Bard آغاز شد.

منظور از خانوادهٔ مدل‌های Gemini چیست؟

Gemini یک مدل واحد نیست، بلکه مجموعه‌ای از مدل‌هاست که در نسل‌های پیاپی (مانند Gemini 1.5 و سپس خانوادهٔ Gemini 2.5) منتشر شده‌اند. درون هر نسل معمولاً چند نسخه با اولویت‌های متفاوت وجود دارد؛ از نسخهٔ Pro برای کارهای پیچیده تا نسخه‌های Flash و Flash-Lite که سریع‌تر و کم‌هزینه‌ترند.

آیا Gemini رایگان است؟

گوگل نسخه‌ای از دستیار Gemini را به‌صورت رایگان در دسترس کاربران قرار می‌دهد که برای کارهای روزمره کافی است. در کنار آن، اشتراک‌های پولی نیز وجود دارند که دسترسی به قوی‌ترین مدل‌ها و قابلیت‌های پیشرفته‌تر را فراهم می‌کنند. وضعیت دقیق دسترسی و پلن‌ها ممکن است به مرور زمان و بسته به منطقهٔ کاربر تغییر کند.

Gemini بهتر است یا ChatGPT؟

پاسخ قطعی و یکسانی برای همه وجود ندارد. هر دو امروز ابزارهایی بالغ و قدرتمند هستند و انتخاب میان آن‌ها به نیاز کاربر بستگی دارد؛ برای مثال، Gemini در یکپارچگی با سرویس‌های گوگل قوی است و ChatGPT اکوسیستم گسترده‌ای از ابزارها دارد. بهترین کار، آزمودن هر دو برای کاربرد مورد نظر و انتخاب بر اساس تجربهٔ واقعی است.

آیا می‌توان به پاسخ‌های Gemini کاملاً اعتماد کرد؟

خیر؛ مانند هر مدل زبانی بزرگ دیگری، Gemini هم ممکن است گاهی اطلاعاتی نادرست را با لحنی مطمئن ارائه دهد (پدیده‌ای که به آن توهم گفته می‌شود). بهتر است این ابزار را یک دستیار توانمند بدانید و در موضوعات حساس یا تخصصی، پاسخ‌های آن را با منابع معتبر راستی‌آزمایی کنید.