First batch
This commit is contained in:
@@ -236,7 +236,7 @@ receivers:
|
||||
|
||||
## Strukturované logování
|
||||
|
||||
```
|
||||
```json
|
||||
{
|
||||
"timestamp": "2026-06-03T10:30:00Z",
|
||||
"level": "ERROR",
|
||||
@@ -381,6 +381,91 @@ Level 3: Engineering manager / incident commander
|
||||
- **Retention politika** — raw data krátce, agregace dlouhodobě
|
||||
- **Jednotný formát logů** — JSON, strukturovaná data
|
||||
|
||||
## Doporučená literatura
|
||||
|
||||
### Klasické knihy
|
||||
|
||||
| Kniha | Autoři | ISBN | Klíčová témata |
|
||||
|-------|--------|------|----------------|
|
||||
| **Site Reliability Engineering** | Beyer, Jones, Petoff, Murphy | 978-1491929124 | Jak Google provozuje produkční systémy — SRE principy, error budgety, toil, SLI/SLO |
|
||||
| **The Site Reliability Workbook** | Beyer, Murphy, Rensin, Kawahara, Thorne | 978-1492029502 | Praktický doprovod k SRE — case studies z Evernote, Home Depot, NY Times; implementace SLO, monitoring, on-call |
|
||||
| **Observability Engineering** | Majors, Fong-Jones, Miranda | 978-1492076445 | První ucelená kniha o observability — structured events, iterativní verifikace hypotéz, core analysis loop; 2. vydání v roce 2026 (32 nových kapitol o AI, cost governance) |
|
||||
|
||||
### Cloud a monitoring
|
||||
|
||||
| Kniha | Autor | ISBN/Rok | Témata |
|
||||
|-------|-------|----------|--------|
|
||||
| **Cloud Observability in Action** | Michael Hausenblas | Manning, 2023 | Praktický průvodce observability v cloud-native prostředí — signal types (logs, metrics, traces, profiles), OTel Collector, SLOs, signal correlation, developer observability; open-source nástroje |
|
||||
| **Mastering Prometheus** | William Hegedus | 978-1-80512-566-2 | Pokročilé techniky pro Prometheus — interní architektura TSDB, custom service discovery, kardinalita, remote storage (VictoriaMetrics, Mimir), SLO-based alerting; autor je SRE manager v Akamai a contributor Prometheus/Thanos |
|
||||
| **Observability with Grafana** | Chapman, Holmes | 978-1-80324-964-3 | Kompletní průvodce LGTM stackem (Loki, Grafana, Tempo, Mimir) — instrumentace přes OTel, LogQL/PromQL/TraceQL, AI/ML alerting, real user monitoring s Faro, Pyroscope profiling, k6 zátěžové testování |
|
||||
| **Hands-On Monitoring and Alerting with Prometheus** | Muhammad Badawy | 978-9349887565 | Praktický průvodce Prometheus — instalace, konfigurace, service discovery, labeling, PromQL, Alertmanager, monitoring Linux, Windows, Docker, databází |
|
||||
|
||||
### AI a observability
|
||||
|
||||
| Kniha | Autoři | ISBN/Rok | Témata |
|
||||
|-------|--------|----------|--------|
|
||||
| **Observability in the AI-Native Era** | Lipsig, Grabner, Rati | 978-1-80638-959-9 | Propojení observability s AIOps — ML-based anomaly detection, root-cause analysis, self-healing systémy, OTel + Prometheus + Grafana + Dynatrace/Datadog, compliance |
|
||||
| **Open Source Observability** | Corless, Pawar | O'Reilly, 2025 | Report o disaggregated, modulárních observability stackách — flexibilita, cost efficiency, data autonomy, blueprint pro vlastní řešení z open-source komponent |
|
||||
|
||||
## Detailní přehled nástrojů
|
||||
|
||||
Rozšířené informace k nástrojům z tabulky výše:
|
||||
|
||||
### Grafana Sigil
|
||||
|
||||
AI observability produkt od Grafana Labs. OpenTelemetry-native SDK pro instrumentaci LLM agentů:
|
||||
|
||||
- **Repozitář**: `github.com/grafana/sigil-sdk` (Go SDK) + `sigil-app` (Grafana plugin)
|
||||
- **Funkce**: sledování konverzací, generování, tool usage, cost tracking, quality evaluation
|
||||
- **Rostoucí problém**: 500M+ konverzací, 5M+ agentů v produkci (GrafanaCON 2026)
|
||||
- **Integrace**: automatické propojení s Prometheus (metrics), Tempo (traces), AI Observability API
|
||||
|
||||
### InfraLens
|
||||
|
||||
Zero-instrumentation Kubernetes observability postavená na eBPF:
|
||||
|
||||
- **Repozitář**: `github.com/Herenn/Infralens` (Apache 2.0, Go)
|
||||
- **Funkce**: automatická detekce service-to-service komunikace, vizualizace topologie, AI-powered dokumentace
|
||||
- **Architektura**: eBPF agent + Go backend + React frontend
|
||||
- **Status**: early-stage (1 star, 10 commitů), ale koncept eBPF-based observability je potvrzený (Grafana Beyla, Cilium Hubble, Pixie)
|
||||
|
||||
### Ingero
|
||||
|
||||
GPU causal observability agent — první svého druhu:
|
||||
|
||||
- **Repozitář**: `github.com/ingero-io/ingero` (Apache 2.0)
|
||||
- **Funkce**: eBPF tracing od Linux kernel eventů přes CUDA API až po Python zdrojový kód
|
||||
- **Overhead**: < 2 %, zero code changes, jeden binární soubor
|
||||
- **MCP server**: nativní podpora Model Context Protocol — AI asistenti mohou přímo queryovat GPU data
|
||||
- **Use case**: diagnostika GPU stallů, scheduler preemptions, CUDA memory spikes — kauzální řetězce místo prostých metrik
|
||||
- **Verze**: v0.19.0 (2026), aktivní vývoj
|
||||
|
||||
### GreptimeDB
|
||||
|
||||
Unified observability databáze — jeden backend pro metrics, logs a tracy:
|
||||
|
||||
- **Repozitář**: `github.com/GreptimeTeam/greptimedb` (Apache 2.0, Rust)
|
||||
- **Architektura**: compute-storage disaggregation, object storage first (S3, GCS, Azure Blob), columnar storage
|
||||
- **Dotazování**: SQL + PromQL v jedné query, možnost JOIN mezi metrikami a logy
|
||||
- **Drop-in náhrada**: Prometheus (PromQL, remote write), Loki (Push API), Elasticsearch (bulk API), Jaeger (Query API)
|
||||
- **Cost reduction**: až 50× nižší náklady oproti tradičním řešením
|
||||
- **Roadmap 2026**: v1.0 GA (Q1 2026), v1.1–v1.3 (Vector Index, AI Functions, Auto Rollup, adaptive resource management)
|
||||
- **GreptimeDB Enterprise**: enhanced security, HA, enterprise support
|
||||
|
||||
### Netdata
|
||||
|
||||
Open-source, real-time monitoring platform pro celou infrastrukturu:
|
||||
|
||||
- **Repozitář**: `github.com/netdata/netdata` (GPLv3+, C; 79k★)
|
||||
- **Funkce**: per-sekundové metriky, ML-based anomaly detection, AI-powered troubleshooting, 800+ integrací
|
||||
- **Zero configuration**: auto-discovery, pre-configured alerts, hotové dashboardy
|
||||
- **Architektura**: distributed agent → Netdata Cloud (volitelně), data zůstávají lokální
|
||||
- **Energetická efektivita**: dle studie University of Amsterdam nejefektivnější nástroj pro monitoring Docker systémů
|
||||
- **Netdata Cloud**: free tier (5 node), paid od $12/node/měsíc
|
||||
- **Licencování**: agent GPLv3+, dashboard NCUL1, cloud closed-source
|
||||
|
||||
## Zdroje
|
||||
|
||||
Odkazy, knihy a standardy: [sources/monitoring/sources.md](sources/monitoring/sources.md)
|
||||
|
||||
*Poslední revize: 2026-06-03*
|
||||
|
||||
Reference in New Issue
Block a user