شرکت گوگل اخیراً از مدل تخصصی جدیدی با نام Gemini 2.5 Computer Use پرده برداری کرده است. این سیستم هوش مصنوعی پیشرفته، قابلیت تعامل با وبسایت ها و رابط های کاربری گرافیکی (GUI) را دقیقاً مانند یک انسان پیدا کرده است، به طوری که میتواند کارهای پیچیده را از طریق عملیات هایی نظیر کلیک، اسکرول و تایپ کردن به صورت خودکار به انجام برساند. تمایز کلیدی این مدل با سیستم های قدیمیتر، درک مستقیم آن از GUI است. برخلاف مدل های سنتی که برای ارتباط با نرمافزارها به رابط های برنامهنویسی (API) متکی بودند، Gemini 2.5 Computer Use یک تصویر لحظهای (اسکرینشات) از صفحه و درخواست کاربر را دریافت میکند. سپس با بهرهگیری از توانایی های پیشرفته درک بصری خود، صفحه را تحلیل کرده و مناسبترین اقدام بعدی (مانند تایپ در یک فیلد یا کلیک روی یک المان) را مشخص میکند. این فرآیند حلقوی ادامه مییابد تا زمانی که وظیفه تعیین شده به طور کامل محقق شود. در حال حاضر، این مدل از ۱۳ نوع عملیات اصلی از جمله باز کردن مرورگر، کشیدن و رها کردن (Drag and drop)، تایپ و اسکرول پشتیبانی میکند.
معرفی قابلیت های مدل Gemini 2.5 Computer Use
مدل Gemini 2.5 Computer Use گوگل به طور اختصاصی برای خودکارسازی وظایف پیچیده مبتنی بر مرورگر طراحی شده است. این ابزار قادر است کارهایی را که معمولاً نیازمند تعامل انسانی در محیط وب هستند، به شکل هوشمندانه انجام دهد. برای نمایش توانمندی این هوش مصنوعی، گوگل دو مورد استفاده عملی ارائه کرده است. در یک نمونه، Gemini 2.5 با موفقیت توانست اطلاعات مربوط به حیوانات خانگی را از یک وبسایت استخراج کند، سپس آن داده ها را در سیستم مدیریت ارتباط با مشتری (CRM) یک وبسایت دیگر وارد کند و در نهایت، یک قرار ملاقات برای آن ها ثبت نماید. در دموی دیگر، این مدل نشان داد که میتواند یک تخته یادداشت دیجیتال در هم ریخته را با استفاده از قابلیت کشیدن و رها کردن (Drag and Drop) به سرعت سازماندهی کرده و یادداشت ها را در دستهبندی های درست مرتب سازد. جالب است بدانید که این فناوری پیشرفته، همان موتور محرک پشت پرده در پروژه تحقیقاتی Project Mariner گوگل و نیز قابلیت های ایجنت محور (Agent-based) در بخش AI Mode جستجوی این شرکت است.
رونمایی از مدل Gemini 2.5 Computer Use توسط گوگل، تنها یک روز پس از رویداد مهم OpenAI و معرفی قابلیت اجرای “اپلیکیشن ها در ChatGPT” صورت گرفت، که این خود شدت رقابت موجود در عرصه هوش مصنوعی مولد را به وضوح نشان میدهد. این همزمانی تأکید میکند که شرکت های پیشرو با سرعت بالایی در تلاشند تا نوآوری های خود را به بازار عرضه کنند. Gemini 2.5 Computer Use در واقع پاسخ مستقیم گوگل به قابلیت های مشابهی است که پیش از این توسط رقبا معرفی شدهاند. این قابلیت با هدف برابری و پیشی گرفتن از ابزارهایی مانند “ChatGPT Agent” متعلق به OpenAI و “Computer Use” در مدل Claude از شرکت Anthropic طراحی شده است. این روند، بازار را به سمت توسعه هوش مصنوعی هایی سوق میدهد که توانایی انجام تعاملات و وظایف پیچیدهتر با سیستم های کامپیوتری را دارند.
بر اساس ارزیابی های اخیر منتشر شده از سوی گوگل، مدل هوش مصنوعی Gemini 2.5 Computer Use در مقایسه با رقبای پیشرو، عملکرد بهتری در مدیریت و کنترل وظایف در محیط های وب و موبایل از خود نشان داده است. با این حال، باید به یک محدودیت مهم توجه داشت: این مدل در حال حاضر صرفاً برای محیط مرورگر بهینه سازی شده است و برخلاف برخی از رقبا، هنوز توانایی کنترل کامل سیستمعامل دسکتاپ را ندارد. با این وجود، Gemini 2.5 Computer Use از امروز به صورت پیشنمایش در اختیار توسعه دهندگان قرار گرفته است. علاقهمندان میتوانند از طریق Gemini API و در پلتفرم های Google AI Studio و Vertex AI به این قابلیت جدید دسترسی پیدا کرده و شروع به ساخت و آزمایش ابزارهای مبتنی بر آن کنند.