Как OpenClaw превращает LLM в действия в реальном мире

24 февраля 2026 г.

Александр Пехота, ведущий инженер-программист компании Teaching Strategies

Введение

OpenClaw заработал репутацию Джарвиса, который делает всю работу за тебя. Это действительно магия, или есть какая-то базовая логика, которую можно разложить на части и объяснить?

В этой статье мы попробуем это выяснить. Наша цель — дать краткий обзор концепций, доступных сегодня при использовании современных LLM (Large Language Models), и показать, как эти концепции интегрированы в архитектуру OpenClaw. Используя реальный запрос, мы проследим все точки, где задействован запрос, и как эти данные передаются до финальной цели.

Мы привыкли использовать многие популярные LLM (такие как ChatGPT, Gemini, Claude и т. д.), чтобы помогать нам делать разные вещи. Такие сценарии использования включают, но не ограничиваются: объяснение какой-то концепции, суммаризация статей, извлечение данных из PDF, анализ таблиц и т. д. Наш стандартный пользовательский опыт, однако, ограничен выбранным вендором (например, ChatGPT от OpenAI), типом подписки (Free, Pro, Max) или отдельными функциями, вроде OpenAI’s Browser Atlas, Claude Code, CLI tools и т. д. Есть и более продвинутые инструменты. Я хочу использовать пример OpenAI’s ChatGPT, потому что у них там есть несколько интересных функций. Например, Codex позволяет подключить модель к твоему GitHub-репозиторию и делать ревью кода каждый раз, когда ты создаёшь pull request, или использовать deep research, чтобы изучать тему и собирать данные вместе. Но всё же стоит сказать, что все эти дополнительные возможности по сути являются расширениями поверх существующих LLM-решений. Так что же уникального предлагает OpenClaw, что сделало его таким популярным?

Мы могли бы повторить те же концептуальные термины, как и многие другие статьи, чтобы подсветить, что такое OpenClaw, но человеку, который никогда не пользовался AI-инструментами, всё равно будет непонятно. Поэтому мы хотим подсветить несколько концепций, которые важно понять сначала, используя ChatGPT как пример:

Дата отсечения знаний и промпт-инжиниринг?

Данные обучения LLM фиксированы — пользователи не могут напрямую их изменить. Не веришь? Спроси у модели: What is the knowledge cut-off date?. Интересно? Если базовые знания заблокированы, тогда как мы можем попросить ChatGPT рассказать нам текущую погоду? Или как это работает, когда мы просим нарисовать что-то, и вдруг модель начинает рендерить картинку вместо текстового описания?

Опять же, знания модели ограничены данными, на которых она обучалась, а это включает информацию только до конкретной даты отсечения. Мы вообще не можем на это повлиять. Но что мы можем — это дать модели дополнительный контекст для работы. Мы можем описать проблему, загрузить файлы, предоставить исследовательские данные и объяснить, как обрабатывать тот или иной сценарий. Более того, при решении задач перевода или технических проблем мы можем передавать примеры того, как бы мы решали похожие задачи. Делая это, мы можем помочь модели работать с нашей конкретной проблемой более эффективно.

Источник изображения: https://platform.claude.com/docs/en/about-claude/models/overview

Токены и контекстное окно

Но ты не можешь отправить свою домашнюю библиотеку из 100 книг и сказать: прочитай все эти книги и стань таким же умным, как я :)

Когда ты отправляешь сообщение модели, модель обрабатывает текст как токены — распространённые последовательности символов, встречающиеся в наборе текстов. Есть хороший инструмент, который можно найти здесь: https://platform.openai.com/tokenizer. Поиграйся с инструментом, чтобы лучше понять концепцию токенов. У каждой модели есть ограничение контекстного окна — по сути объём данных, который модель может удерживать в памяти. Если ты превысишь контекст, модель забудет информацию, которую ты отправил в начале. Поэтому, когда у тебя длинный чат с моделью, она иногда забывает инструкции, упомянутые в начале разговора.

Источник изображения: https://developers.openai.com/api/docs/guides/conversation-state

Долгосрочная память и RAG

Подожди, я видел онлайн-агентов или чатботов, которые делают вид, что знают больше, чем средние модели могут удержать в пределах контекстного окна. Как это возможно? — можешь спросить ты.

Чтобы добиться такого результата, инженерам нужно разрабатывать разные обходные решения. К счастью, большинство таких инструментов уже встроены как платформенные средства. По сути, когда пользователь делает конкретный запрос, система понимает контекст, делает отдельный запрос, чтобы извлечь релевантные данные из какого-то хранилища, очень часто это векторная база данных, и вставляет эти связанные данные как часть промпта. Дополнительные данные могут быть пользовательскими, например история поиска пользователя, или предпочтения пользователя, или доменная информация.

Вызов функций

Когда работаешь с моделью внутри браузера, например отправляешь запросы внутри интерфейса ChatGPT, это не совсем очевидно, потому что интерфейс делает всю работу за кулисами, но если попробовать сделать вызов к ChatGPT API напрямую, можно увидеть довольно интересное поведение. Каждый раз, когда модели задают что-то, чего модель не знает, например текущую погоду в Париже, она может вернуть структурированный запрос вроде get_weather с Paris как параметром. Затем код клиента может трактовать такой ответ как вызов функции, сделать отдельный поиск в интернете, выяснить температуру в Париже и вернуть это обратно в модель ChatGPT. Это позволит модели ответить естественно, например: Погода в Париже холодная или дождливая.

Комбинируя такие функции, мы можем строить очень сложное пользовательское поведение. Например, ChatGPT Chat может искать веб-страницы, рисовать картинки, анализировать файлы — внутри одного приложения, но за кулисами выполняются разные процессы.

Протокол контекста модели (MCP)

Хотя вызов функций сам по себе — очень мощная концепция, он всё равно требует, чтобы интеграционный слой был спроектирован, разработан и задеплоен. Такой подход в масштабе создаёт много разных проблем. Чтобы решить эту задачу, в 2024 году Anthropic представили Model Context Protocol (MCP). Он предоставляет универсальный, открытый стандарт для подключения AI-систем к источникам данных, заменяя разрозненные интеграции одним протоколом. Результат — более простой и надёжный способ дать AI-системам доступ к данным, которые им нужны. С введением протокола Anthropic предоставили много SDK, тем самым упростив сообществу создание переиспользуемых коннекторов, позволяющих моделям делать вызовы к таким системам, как базы данных (PostgreSQL), облачные сервисы (AWS), настольные приложения (Apple Calendar) и многим другим https://github.com/modelcontextprotocol/servers.

Источник изображения: https://www.thinkstack.ai/glossary/model-context-protocol/

Погружение в OpenClaw

Вот где мы можем начать говорить об OpenClaw.

По сути OpenClaw — это процесс Typescript CLI, запущенный на твоей машине. Этот процесс поднимает gateway server, который по сути является ядром приложения. Думай об этом как о программе, работающей на твоей машине в фоне и способной выполнять разные задачи. Но называть это просто gateway было бы слишком легко и просто.

Первый компонент gateway, который стоит упомянуть, — это Channels или Chat Channels https://docs.openclaw.ai/channels.

Это твой интерфейс для взаимодействия с приложением OpenClaw. Тебе по сути не нужен сложный интерфейс (хотя у тебя есть веб-интерфейс и companion apps :) ), или чат, или что-то ещё, когда ты можешь отправлять свои запросы через любимый мессенджер, например Telegram, WhatsApp и т. д. Функция Channels по сути позволяет подключить любой поддерживаемый мессенджер, такой как Telegram, Discord, Whatsapp, и иметь прямой доступ ко всем возможностям OpenClaw.

Поскольку это The AI that actually does things., он должен поддерживать современные LLM, как ты уже, вероятно, понял. И список поддерживаемых LLM обширный. Инструмент поддерживает почти все современные модели, включая self-hosted. То есть, по сути, ты можешь заставить его работать с Claude, или ChatGPT, или даже Llama.

Но чем он отличается от любого другого агента в мессенджере с коннектором к ChatGPT? Gateway, о котором мы говорили выше, по сути — программа, работающая на твоей машине и имеющая права, равные правам пользователя, который её запускает. Это значит, что gateway может отправить твой запрос в AI-модель, а затем выполнить действия, которые она предложит, через инструменты, которые ты включил на своём компьютере.

Но подожди… Мы говорим о поиске в интернете, запуске приложений на твоей машине, периодической проверке твоего почтового ящика и т. д. Как LLM может это делать? По сути, всё это возможно благодаря Model Context Protocol, который мы упоминали выше. Если ты предоставишь правильный мост, который позволит ChatGPT или Claude управлять твоим Gmail, тогда AI-модель сможет генерировать подходящие запросы к инструментам для этого.

У OpenClaw есть список инструментов, доступных из коробки, таких как Exec tool для выполнения команд в терминале, WebTool для поиска информации в интернете или BrowserControll tool через расширение Chrome и т. д. https://openclaw.ai/integrations.

Все они интегрированы в приложение с использованием того же MC protocol.

А как насчёт всех тех красивых видео, которые я видел в интернете? Инструменты выше — это лишь базовые примеры того, что ты можешь делать с приложением, но этим не ограничивается. Существует огромное количество приложений и функций, которые можно интегрировать в приложение, но возможности команды разработки не бесконечны. Вместо этого они выпустили https://clawhub.ai/ и сделали OpenClaw по сути платформой, где ты можешь подключить почти любой инструмент с реализованным MC protocol: Trello, Slack, Zoho, Philips Hue и Home Automation. Не нашёл чего-то — смело разрабатывай свою интеграцию.

Но что если ты хочешь, чтобы он что-то проверял периодически? Тебе нужно писать приложению каждые 30 минут? Ответ — нет. В gateway встроен планировщик, который может запускать задачи автоматически с заданными интервалами, например каждый час. Когда ты просишь приложение выполнять что-то регулярно, оно сохраняет эту инструкцию и выполняет её по расписанию, которое ты определил. Например, оно может каждый час проверять цену монеты, сравнивать её с твоим целевым уровнем и отправлять тебе уведомление, если порог достигнут.

Память? Да, эти инструкции, контекст, разговоры и т. д. должны как-то запоминаться, чтобы приложение делало то, что нужно тебе. Ты можешь посмотреть больше здесь: https://docs.openclaw.ai/concepts/memory#memory

Но главный пункт такой: память OpenClaw — это обычный Markdown в рабочем пространстве агента. Файлы — источник истины; модель помнит только то, что записано на диск. Когда ты это понимаешь, ты можешь пойти и проследить эти файлы и увидеть, как это работает за кулисами. Это может помочь тебе понять, как структурируются данные и как они используются при коммуникации с выбранной тобой LLM.

Источник изображения: https://apidog.com/blog/openclaw-memory/

Архитектура OpenClaw в одном виде

Разбор реального кейса — Whales AI Crypto Follower

Давай разберём простой пример запроса, когда мы просим OpenClaw действительно сделать что-то полезное для нас.

Предварительные условия:
После того как у тебя установлено приложение OpenClaw, тебе нужно подключить его к одной из поддерживаемых LLM. Мы нашли очень удобным использовать codex agent api key (аналогично ты можешь использовать любое другое приложение LLM, похожее на codex), поскольку это будет использовать твою активную подписку без отдельной оплаты за использование LLM API.

Чтобы отправлять сообщения и взаимодействовать с OpenClaw gateway, тебе нужно настроить один из поддерживаемых channels https://docs.openclaw.ai/channels.

В нашем примере мы используем Telegram channel. Больше информации можно найти здесь: https://docs.openclaw.ai/channels/telegram.

На этом этапе OpenClaw может обрабатывать твои сообщения с помощью LLM и отвечать тебе. Ты можешь отправить сообщение hello через Telegram и получить ответы LLM. Но что мы действительно хотим — это заставить OpenClaw выйти в интернет и поискать информацию для нас. Есть несколько способов заставить это работать:

С помощью встроенных веб-инструментов OpenClaw: web_search и web_fetch. Это программный способ получить данные. Просто имей в виду, что это не автоматизация браузера. Он использует внешние системы, такие как Brave Search API и Perplexity. Для тебя это означает: никакого браузера на твоей машине, только запросы во внешнюю поисковую систему. Но чтобы использовать это, тебе нужно получить API key, чтобы система могла работать от твоего имени. Больше информации здесь: https://docs.openclaw.ai/tools/web#web-tools
Альтернативой будет использовать автоматизацию браузера через MCP protocol, упомянутый выше. Мы нашли удобным использовать Chrome Browser Extension https://docs.openclaw.ai/tools/chrome-extension как один из самых простых способов управлять браузером. Более того, это позволяет тебе войти в некоторые системы и дать OpenClaw доступ к закрытым областям сайтов.

Когда у тебя готовы все предварительные условия, ты можешь начинать просить агента делать реальную работу. Важно сказать, что ты свободен использовать свои комбинации разных коннекторов. Вот где и лежит реальная сила для тебя как пользователя.

Например, если мы отправим такой запрос:

[Запусти ежечасную проверку китовых потоков BTC/ETH с фокусом на крупные переводы и потоки на/с бирж. Используй доступные веб-источники/инструменты (например, панель Whale Alert и надёжные трекеры). Возвращай краткое обновление с: (1) топ-3–5 заметных потоков за последний час, (2) быстрой интерпретацией (risk-on/risk-off/neutral), (3) любыми прикладными уровнями наблюдения для BTC/ETH. Если значимых потоков нет, напиши: No major whale-flow change in the last hour. Держи ответ в пределах 8 буллетов.]

К сведению: тебе не обязательно делать такой продвинутый запрос. Ты можешь просто вести разговор и обсуждать желаемый результат с агентом. Gateway автоматически объединяет историю разговора, память и детали задания перед отправкой запроса в модель. Финальный результат можно найти в файле jobs.json по пути вроде ~/.openclaw/cron/jobs.json (может отличаться в зависимости от системы).

Сообщение отправляется через Telegram channel в gateway для обработки. Поскольку мы просим сделать это действие повторяющимся, оно будет обработано как запланированная задача. Когда всё настроено и агент выполняет наше действие, он начинает делать web queries или управлять твоим браузером, чтобы собрать нужную информацию. Если ты хочешь видеть реальную исследовательскую работу на экране, рекомендуется использовать автоматизацию браузера. Плюс у Brave API Search есть лимит на поиск, так что имей это в виду.

Реальный результат будет примерно таким:

Этот пример не очень подходит для реальных действий с криптовалютой, потому что тебе нужно учитывать гораздо больше параметров, сервисов и точек, которые нужно связать вместе, но его должно хватить, чтобы получить базовое понимание и попробовать автоматизировать свой первый crypto flow.

Очень важно подчеркнуть, что этот поток только для чтения и не делает никаких торговых действий от твоего имени. Это рискованный поток, так как некоторые MCP-коннекторы могут нести риски безопасности, при которых твои криптоключи могут быть украдены, или весь торговый процесс может быть неэффективным из-за галлюцинаций модели. Делай это только если понимаешь, что делаешь, и продумывай более сложные процессы, где ты используешь только проверенные и безопасные коннекторы, а действия AI-агента либо контролируются тобой, либо дополнительно контролируются другими AI-моделями, чтобы снизить вероятность ошибок.

OpenClaw может выглядеть как Jarvis на поверхности, но за этим нет магии — только хорошо продуманная архитектура. Large Language Models дают рассуждение, gateway управляет коммуникацией, MCP подключает инструменты, планировщик запускает задачи, а память сохраняет контекст. Когда эти части работают вместе, результат ощущается автономным, но по факту это структурированный поток: запрос пользователя → рассуждение модели → выполнение инструментов → сохранённое состояние → ответ.

Сила OpenClaw не в загадке — она в оркестрации.

Другие новости