Мониторинг ClickHouse Cloud

Это руководство предоставляет корпоративным командам, оценивающим ClickHouse Cloud, подробную информацию о возможностях мониторинга и наблюдаемости для продуктивных развертываний. Корпоративные клиенты часто спрашивают о встроенных возможностях мониторинга, интеграции с существующими стеками наблюдаемости, включая такие инструменты, как Datadog и AWS CloudWatch, а также о том, как возможности мониторинга ClickHouse Cloud соотносятся с развертываниями в self-hosted‑средах.

Расширенная панель наблюдения

ClickHouse Cloud предоставляет всесторонний мониторинг через встроенные панели, доступные в разделе Monitoring. Эти панели отображают системные метрики и метрики производительности в режиме реального времени без дополнительной настройки и служат основными инструментами для мониторинга боевых сред в ClickHouse Cloud.

Advanced Dashboard: Основной интерфейс панели, доступный через Monitoring → Advanced dashboard, обеспечивает мониторинг в реальном времени показателей скорости запросов, использования ресурсов, состояния системы и производительности хранилища. Для этой панели не требуется отдельная аутентификация, она не мешает экземплярам переходить в режим простоя и не добавляет нагрузку запросами на вашу продуктивную систему. Каждая визуализация построена на настраиваемых SQL‑запросах; готовые диаграммы сгруппированы по метрикам, специфичным для ClickHouse, метрикам состояния системы и метрикам, специфичным для Cloud. Пользователи могут расширять мониторинг, создавая собственные запросы непосредственно в SQL‑консоли.

Примечание

Доступ к этим метрикам не генерирует запрос к базовому сервису и не выводит из режима простоя простаивающие сервисы.

Пользователи, которые хотят расширить эти визуализации, могут использовать возможности панелей мониторинга в ClickHouse Cloud, выполняя запросы напрямую к системным таблицам.

Native advanced dashboard: Альтернативный интерфейс панели, доступный по ссылке «You can still access the native advanced dashboard» в разделе Monitoring. Он открывается в отдельной вкладке с аутентификацией и предоставляет альтернативный интерфейс для мониторинга состояния системы и сервиса. Эта панель поддерживает расширенную аналитику, позволяя пользователям изменять базовые SQL‑запросы.

Обе панели обеспечивают оперативное представление о состоянии и производительности сервиса без внешних зависимостей, что отличает их от внешних инструментов, ориентированных на отладку, таких как ClickStack.

Подробное описание возможностей панелей и доступных метрик см. в документации по расширенной панели наблюдения.

Аналитика запросов и мониторинг ресурсов

ClickHouse Cloud включает дополнительные средства мониторинга:

Query Insights: встроенный интерфейс для анализа производительности запросов и устранения неполадок
Resource Utilization Dashboard: отслеживает использование памяти, распределение CPU и характер передачи данных. Графики использования CPU и памяти показывают максимальное значение соответствующей метрики за определённый период времени. График использования CPU отображает метрику загрузки CPU на уровне системы (а не метрику загрузки CPU ClickHouse).

См. документацию по аналитике запросов и использованию ресурсов для подробного описания возможностей.

Совместимая с Prometheus конечная точка метрик

ClickHouse Cloud предоставляет конечную точку, совместимую с Prometheus. Это позволяет пользователям сохранять текущие рабочие процессы, использовать существующий опыт команды и интегрировать метрики ClickHouse в корпоративные платформы мониторинга, включая Grafana, Datadog и другие инструменты, совместимые с Prometheus.

Конечная точка на уровне организации агрегирует метрики от всех сервисов, а конечные точки для отдельных сервисов обеспечивают детализированный мониторинг. Ключевые возможности включают:

Опция фильтрации метрик: необязательный параметр filtered_metrics=true сокращает объём данных с более чем 1000 доступных метрик до 125 «критически важных» метрик для оптимизации затрат и упрощения мониторинга.
Кэшированная доставка метрик: использует материализованные представления, обновляемые каждую минуту, чтобы минимизировать нагрузку от запросов на производственные системы.

Примечание

Этот подход учитывает поведение простаивающих сервисов, позволяя оптимизировать затраты, когда сервисы не выполняют активную обработку запросов. Эта конечная точка API использует учетные данные API ClickHouse Cloud. Полные сведения о конфигурации конечной точки смотрите в документации по Prometheus.

Integration examples

External integration allows organizations to maintain established monitoring workflows, leverage existing team expertise with familiar tools, and integrate ClickHouse monitoring with broader infrastructure observability without disrupting current processes or requiring significant retraining investments. Teams can apply existing alerting rules and escalation procedures to ClickHouse metrics, while correlating database performance with application and infrastructure health within a unified observability platform. This approach maximizes ROI on current monitoring setups and enables faster troubleshooting through consolidated dashboards and familiar tooling interfaces.

Grafana Cloud monitoring

Grafana provides ClickHouse monitoring through both direct plugin integration and Prometheus-based approaches. The Prometheus endpoint integration maintains operational separation between monitoring and production workloads while enabling visualization within existing Grafana Cloud infrastructure. See Grafana's ClickHouse documentation for configuration guidance.

Datadog monitoring

Datadog is developing a dedicated API integration that will provide proper cloud service monitoring while respecting service idling behavior. In the interim, teams can use the OpenMetrics integration approach via ClickHouse Prometheus endpoints for operational separation and cost-efficient monitoring. For configuration guidance, see Datadog's Prometheus and OpenMetrics integration documentation.

ClickStack

ClickStack is ClickHouse's recommended observability solution for deep system analysis and debugging, providing a unified platform for logs, metrics, and traces using ClickHouse as the storage engine. This approach relies on HyperDX, the ClickStack UI, connecting directly to the system tables inside your ClickHouse instance. HyperDX ships with a ClickHouse focused dashboard with tabs for Selects, Inserts, and Infrastructure. Teams can also use Lucene or SQL syntax to search system tables and logs, as well as create custom visualizations via Chart Explorer for detailed system analysis. This approach is ideal for debugging complex issues, performance analysis, and deep system introspection rather than real-time production alerting.

Примечание

Note that this approach will wake idle services as HyperDX queries the system tables directly.

Варианты развертывания ClickStack

HyperDX в ClickHouse Cloud (закрытый предварительный релиз): HyperDX можно запустить на любом сервисе ClickHouse Cloud.
Helm: Рекомендуется для Kubernetes-сред для отладки. Поддерживает интеграцию с ClickHouse Cloud и позволяет настраивать конфигурацию для конкретной среды, лимиты ресурсов и масштабирование через values.yaml.
Docker Compose: Разворачивает каждый компонент (ClickHouse, HyperDX, OTel collector, MongoDB) отдельно. Пользователи могут изменить compose-файл, чтобы удалить неиспользуемые компоненты при интеграции с ClickHouse Cloud, в частности ClickHouse и OTel collector.
Только HyperDX: Автономный контейнер HyperDX.

Полный перечень вариантов развертывания и подробности архитектуры см. в документации ClickStack и руководстве по ингестии данных.

Примечание

Пользователи также могут собирать метрики с Prometheus-эндпоинта ClickHouse Cloud через коллектор OpenTelemetry и пересылать их в отдельное развертывание ClickStack для визуализации.

Direct Grafana plugin integration

The ClickHouse data source plugin for Grafana enables visualization and exploration of data directly from ClickHouse using system tables. This approach works well for monitoring performance and creating custom dashboards for detailed system analysis. For plugin installation and configuration details, see the ClickHouse data source plugin. For a complete monitoring setup using the Prometheus-Grafana mix-in with pre-built dashboards and alerting rules, see Monitor ClickHouse with the new Prometheus-Grafana mix-in.

Direct Datadog Integration

Datadog offers a Clickhouse Monitoring plugin for its agent which queries system tables directly. This integration provides comprehensive database monitoring with cluster awareness through clusterAllReplicas functionality.

Примечание

This integration is not recommended for ClickHouse Cloud deployments due to incompatibility with cost-optimizing idle behavior and operational limitations of the cloud proxy layer.

Using system tables directly

Users can perform deep query performance analysis by connecting to ClickHouse system tables, particularly system.query_log and querying directly. Using either the SQL console or clickhouse client, teams can identify slow queries, analyze resource usage, and track usage patterns across the organization.

Query Performance Analysis

Users can use the system table query logs to perform Query Performance Analysis.

Example query: Find the top 5 long-running queries across all cluster replicas:

SELECT
    type,
    event_time, 
    query_duration_ms,
    query,
    read_rows,
    tables
FROM clusterAllReplicas(default, system.query_log)
WHERE event_time >= (now() - toIntervalMinute(60)) AND type='QueryFinish'
ORDER BY query_duration_ms DESC
LIMIT 5
FORMAT VERTICAL

Community monitoring solutions

The ClickHouse community has developed comprehensive monitoring solutions that integrate with popular observability stacks. ClickHouse Monitoring provides a complete monitoring setup with pre-built dashboards. This open source project offers a quick-start approach for teams looking to implement ClickHouse monitoring with established best practices and proven dashboard configurations.

Примечание

Like other direct database monitoring approaches, this solution queries ClickHouse system tables directly, which prevents instances from idling and impacts cost optimization.

Соображения по влиянию на систему

Все перечисленные выше подходы в разной степени опираются либо на эндпоинты Prometheus, либо управляются ClickHouse Cloud, либо выполняют прямые запросы к системным таблицам. Последний из этих вариантов основан на выполнении запросов к продукционной службе ClickHouse. Это добавляет дополнительную нагрузку на наблюдаемую систему за счёт выполнения запросов и мешает экземплярам ClickHouse Cloud простаивать, что влияет на оптимизацию затрат. Кроме того, в случае отказа продукционной системы мониторинг также может пострадать, так как они тесно связаны. Этот подход хорошо подходит для глубокого анализа работы системы и отладки, но менее уместен для мониторинга продукционных систем в реальном времени. Учитывайте этот баланс между возможностями детального анализа системы и операционными накладными расходами при оценке прямой интеграции с Grafana по сравнению с подходами интеграции через внешние инструменты, обсуждаемыми в следующем разделе.

Расширенная панель наблюдения​

Аналитика запросов и мониторинг ресурсов​

Совместимая с Prometheus конечная точка метрик​

Integration examples​

Grafana Cloud monitoring​

Datadog monitoring​

ClickStack​

Варианты развертывания ClickStack​

Direct Grafana plugin integration​

Direct Datadog Integration​

Using system tables directly​

Community monitoring solutions​

Соображения по влиянию на систему​

Расширенная панель наблюдения

Аналитика запросов и мониторинг ресурсов

Совместимая с Prometheus конечная точка метрик

Integration examples

Grafana Cloud monitoring

Datadog monitoring

ClickStack

Варианты развертывания ClickStack

Direct Grafana plugin integration

Direct Datadog Integration

Using system tables directly

Community monitoring solutions

Соображения по влиянию на систему