Консорциум ученых из Гонконга, Стэнфорда и Moonshot AI представляет OpenCUA — первую открытую платформу для создания компьютерных AI-агентов с человеческим интерфейсом. Это решение проблемы «черного ящика» в мире искусственного интеллекта.
Ведушие системы автоматизации компьютеров (например, разработки OpenAI) закрыты для исследований. Невозможно проанализировать их код, найти уязвимости или оценить риски. OpenCUA ломает эту парадигму, предлагая полную прозрачность и доступность для сообщества.
Пошаговый процесс выполнения задачи
Как работает AI-агент?
Агент на базе OpenCUA автономно выполняет задачи на ПК или ноутбуке: от поиска файлов и заполнения веб-форм до создания презентаций и онлайн-покупок. Он взаимодействует с интерфейсом как человек: кликает мышью, вводит текст с клавиатуры и переключается между окнами приложений.
Что входит в открытую экосистему OpenCUA:
-
Масштабный датасет человеческих действий.
Крупнейшая база из 22 500 записей реальных задач на трех ОС: Windows, macOS и Ubuntu. Данные собраны в 140+ настольных приложениях и 190+ веб-сервисах. Каждая запись включает видео экрана, движения курсора, нажатия клавиш и результат действия. -
Инструмент для записи задач (Screen Recorder).
Простое ПО для захвата действий. Пользователь выполняет рутинные операции на своем компьютере, а утилита в фоновом режиме создает детализированный лог для обучения будущих моделей. -
Готовые к использованию AI-модели.
Предтренированные модели OpenCUA-7B и OpenCUA-32B, которые уже научились управлять компьютером. Модели распространяются бесплатно и могут быть дообучены под специфические задачи.
Ключевые технологические преимущества:
-
Архитектура «Мысли вслух» (Chain-of-Thought): Агент не просто действует, а ведет пошаговые рассуждения перед каждым шагом. Пример: «Требуется найти поле поиска. В верхнем правом углу обнаружена лупа. Кликаю на элемент».
-
Мультивариантность решений: Платформа понимает, что большинство задач имеют несколько путей решения (например, сохранение файла через меню или комбинацию клавиш Ctrl+S). Это закладывается в процесс обучения и оценки, что повышает гибкость агента.
