слов.арь · bisovka

объясни computer-use --простыми-словами

Иллюстрация к термину «Управление компьютером»

Управление компьютером

КороткоИИ, который кликает и печатает как человек.

Когда я впервые увидел, как ИИ делает такое, мне стало реально не по себе. Я дал ему задачу, потом сидел и смотрел, как мышка двигается сама. Курсор поехал по экрану, нашел кнопку, нажал. Напечатал текст в поле. Прокрутил страницу. Никто не трогал трекпад. Будто призрак пользуется моим ноутбуком.

Вот что происходит.

Чаще всего ИИ делает работу через окошко drive-thru. Приложение вывешивает меню того, что можно заказать (получить эти заказы, отправить это письмо), ИИ подъезжает и заказывает из меню, а работа выполняется. Чисто, быстро, надежно. Это окно называется API, и если оно есть, это почти всегда лучший путь.

Но вот проблема: у огромной кучи софта такого окна никогда не было. Старые внутренние инструменты. Какой-нибудь госпортал, который будто последний раз обновляли в 2009 году. Корявый дашборд поставщика, куда тебя заставляют логиниться. Нет меню, нет окна, нет нормального входа. Десятилетиями это значило, что ИИ застревал. Он мог весь день обсуждать задачу, но не мог ее потрогать.

Computer use это и чинит. Если окна для заказа нет, ИИ просто заходит через парадную дверь и нажимает кнопки как человек.

Что это значит буквально. ИИ делает ровно те три вещи, которые ты весь день делаешь не задумываясь:

  1. Смотрит на экран. Скриншот уходит в модель, и она читает, что там есть, примерно как ты пробегаешь глазами страницу. Кнопки, текстовые поля, меню, маленький крестик в углу.
  2. Двигает мышь и кликает. Решает: «кнопка отправки вот тут», ведет курсор к этим координатам и нажимает.
  3. Печатает. В строку поиска, поле логина, форму.

Посмотреть, навести, кликнуть, напечатать. Всё. Тот же цикл, который ты прокручиваешь тысячу раз в день, просто отдан машине.

Ментальная модель, после которой у меня все щелкнуло: представь, что нанял удаленного ассистента, который видит твой экран и может взять управление. Ты не учишь его секретному языку программирования. Не выдаешь ему особый доступ. Он просто смотрит на монитор и проходит путь кликами, как прошел бы ты. Computer use — это такой ассистент, только за рулем ИИ.

Когда к этому стоит тянуться? Честный ответ: только когда чистого способа нет.

Порядок важен, потому что computer use — медленный и неуклюжий вариант, и лучше знать это заранее.

Почему медленный и неуклюжий? Сравни, как живой человек пользуется сайтом, и как быстро работает телефонная линия прямо на кухню. Прокликать пять экранов каждый раз занимает реальные секунды. И как человек, ИИ может промахнуться. Перепутать одну кнопку с другой, проскроллить мимо нужного, потеряться, когда неожиданный попап выскочил поверх страницы. Он возится с экраном примерно так же, как ты возился бы на незнакомом сайте. Иногда попадает идеально. Иногда жмет не тот синий прямоугольник.

Вот обмен. Ты отдаешь скорость и надежность. А получаешь досягаемость: теперь ИИ может управлять почти всем, чем может управлять человек, включая гору софта, который никогда не давал аккуратного входа.

Одна мысль, которую стоит удержать, потому что это та же осторожность, что и с агентом, который умеет действовать в реальном мире: чем до большего ИИ может дотянуться, тем внимательнее стоит смотреть, к чему именно он тянется. Инструмент, который заказывает из вывешенного меню, может заказать только то, что там напечатано. А штука, у которой в руках твоя мышь и клавиатура, теоретически может нажать что угодно на экране. Это не причина избегать ее. Это причина первые несколько раз следить за курсором, как ты поглядывал бы через плечо нового ассистента, прежде чем доверить ему весь день.

Когда есть окно, ИИ заказывает из меню. Когда окна нет, он заходит внутрь и нажимает кнопки.

← все термины