گوگل مدل Gemini 2.5 Computer Use را با قابلیت کنترل مرورگر معرفی کرد

شرکت گوگل اخیراً از مدل تخصصی جدیدی با نام Gemini 2.5 Computer Use پرده‌ برداری کرده است. این سیستم هوش مصنوعی پیشرفته، قابلیت تعامل با وبسایت‌ ها و رابط‌ های کاربری گرافیکی (GUI) را دقیقاً مانند یک انسان پیدا کرده است، به طوری که می‌تواند کارهای پیچیده را از طریق عملیات‌ هایی نظیر کلیک، اسکرول و تایپ کردن به صورت خودکار به انجام برساند. تمایز کلیدی این مدل با سیستم‌ های قدیمی‌تر، درک مستقیم آن از GUI است. برخلاف مدل‌ های سنتی که برای ارتباط با نرم‌افزارها به رابط‌ های برنامه‌نویسی (API) متکی بودند، Gemini 2.5 Computer Use یک تصویر لحظه‌ای (اسکرین‌شات) از صفحه و درخواست کاربر را دریافت می‌کند. سپس با بهره‌گیری از توانایی‌ های پیشرفته درک بصری خود، صفحه را تحلیل کرده و مناسب‌ترین اقدام بعدی (مانند تایپ در یک فیلد یا کلیک روی یک المان) را مشخص می‌کند. این فرآیند حلقوی ادامه می‌یابد تا زمانی که وظیفه تعیین‌ شده به طور کامل محقق شود. در حال حاضر، این مدل از ۱۳ نوع عملیات اصلی از جمله باز کردن مرورگر، کشیدن و رها کردن (Drag and drop)، تایپ و اسکرول پشتیبانی می‌کند.

معرفی قابلیت‌ های مدل Gemini 2.5 Computer Use

مدل Gemini 2.5 Computer Use گوگل به طور اختصاصی برای خودکارسازی وظایف پیچیده مبتنی بر مرورگر طراحی شده است. این ابزار قادر است کارهایی را که معمولاً نیازمند تعامل انسانی در محیط وب هستند، به شکل هوشمندانه انجام دهد. برای نمایش توانمندی این هوش مصنوعی، گوگل دو مورد استفاده عملی ارائه کرده است. در یک نمونه، Gemini 2.5 با موفقیت توانست اطلاعات مربوط به حیوانات خانگی را از یک وبسایت استخراج کند، سپس آن داده‌ ها را در سیستم مدیریت ارتباط با مشتری (CRM) یک وبسایت دیگر وارد کند و در نهایت، یک قرار ملاقات برای آن‌ ها ثبت نماید. در دموی دیگر، این مدل نشان داد که می‌تواند یک تخته یادداشت دیجیتال در هم‌ ریخته را با استفاده از قابلیت کشیدن و رها کردن (Drag and Drop) به سرعت سازماندهی کرده و یادداشت‌ ها را در دسته‌بندی‌ های درست مرتب سازد. جالب است بدانید که این فناوری پیشرفته، همان موتور محرک پشت پرده در پروژه تحقیقاتی Project Mariner گوگل و نیز قابلیت‌ های ایجنت‌ محور (Agent-based) در بخش AI Mode جستجوی این شرکت است.

رونمایی از مدل Gemini 2.5 Computer Use توسط گوگل، تنها یک روز پس از رویداد مهم OpenAI و معرفی قابلیت اجرای “اپلیکیشن‌ ها در ChatGPT” صورت گرفت، که این خود شدت رقابت موجود در عرصه هوش مصنوعی مولد را به وضوح نشان می‌دهد. این همزمانی تأکید می‌کند که شرکت‌ های پیشرو با سرعت بالایی در تلاشند تا نوآوری‌ های خود را به بازار عرضه کنند. Gemini 2.5 Computer Use در واقع پاسخ مستقیم گوگل به قابلیت‌ های مشابهی است که پیش از این توسط رقبا معرفی شده‌اند. این قابلیت با هدف برابری و پیشی گرفتن از ابزارهایی مانند “ChatGPT Agent” متعلق به OpenAI و “Computer Use” در مدل Claude از شرکت Anthropic طراحی شده است. این روند، بازار را به سمت توسعه هوش مصنوعی‌ هایی سوق می‌دهد که توانایی انجام تعاملات و وظایف پیچیده‌تر با سیستم‌ های کامپیوتری را دارند.

بر اساس ارزیابی‌ های اخیر منتشر شده از سوی گوگل، مدل هوش مصنوعی Gemini 2.5 Computer Use در مقایسه با رقبای پیشرو، عملکرد بهتری در مدیریت و کنترل وظایف در محیط‌ های وب و موبایل از خود نشان داده است. با این حال، باید به یک محدودیت مهم توجه داشت: این مدل در حال حاضر صرفاً برای محیط مرورگر بهینه‌ سازی شده است و برخلاف برخی از رقبا، هنوز توانایی کنترل کامل سیستم‌عامل دسکتاپ را ندارد. با این وجود، Gemini 2.5 Computer Use از امروز به صورت پیش‌نمایش در اختیار توسعه‌ دهندگان قرار گرفته است. علاقه‌مندان می‌توانند از طریق Gemini API و در پلتفرم‌ های Google AI Studio و Vertex AI به این قابلیت جدید دسترسی پیدا کرده و شروع به ساخت و آزمایش ابزارهای مبتنی بر آن کنند.

اشتراک گذاری: