OpenAI начала тестирование нового инструмента Operator, способного самостоятельно работать в веб-браузере. Как сообщается в блоге компании, программа использует технологию Computer-Using Agent (CUA), обученную взаимодействовать с графическим интерфейсом — кнопками, меню и текстовыми полями — так же, как это делают люди.
Текущая версия Operator построена на модели GPT-4o. Она сочетает возможности компьютерного зрения этого алгоритма с "продвинутым мышлением", развитым через обучение с подкреплением. Система способна разбивать задачи на многоступенчатые планы и самостоятельно исправлять ошибки при возникновении проблем.
OpenAI предупреждает, что Operator находится на ранней стадии разработки и имеет ограничения. Для сложных задач пользователям рекомендуется давать более детальные инструкции. По данным The Verge, если Operator застрянет на каком-то этапе, управление автоматически передается пользователю. То же происходит при запросе конфиденциальной информации, включая данные для входа. Система также запрограммирована отклонять вредоносные запросы и блокировать запрещенный контент.
Доступ к Operator получат подписчики ChatGPT Pro за $200 в месяц. OpenAI также сотрудничает с компаниями вроде Instacart для интеграции агента в их платформы, но и там потребуется подписка ChatGPT Pro.
Operator пополнил растущий список ИИ-агентов, способных работать в браузере или операционной системе. Первой такую возможность представила Anthropic в октябре с моделью Claude 3.5 Sonnet, а недавно Google выпустила Gemini 2.0 и Project Mariner.