First batch

2026-06-03 22:42:43 +02:00
parent c6fa0bff6a
commit 95d1839f05
31 changed files with 3527 additions and 485 deletions
--- a/MONITORING.md
+++ b/MONITORING.md
@@ -236,7 +236,7 @@ receivers:

 ## Strukturované logování

-```
+```json
 {
  "timestamp": "2026-06-03T10:30:00Z",
  "level": "ERROR",
@@ -381,6 +381,91 @@ Level 3: Engineering manager / incident commander
 - **Retention politika** — raw data krátce, agregace dlouhodobě
 - **Jednotný formát logů** — JSON, strukturovaná data

+## Doporučená literatura
+
+### Klasické knihy
+
+| Kniha | Autoři | ISBN | Klíčová témata |
+|-------|--------|------|----------------|
+| **Site Reliability Engineering** | Beyer, Jones, Petoff, Murphy | 978-1491929124 | Jak Google provozuje produkční systémy — SRE principy, error budgety, toil, SLI/SLO |
+| **The Site Reliability Workbook** | Beyer, Murphy, Rensin, Kawahara, Thorne | 978-1492029502 | Praktický doprovod k SRE — case studies z Evernote, Home Depot, NY Times; implementace SLO, monitoring, on-call |
+| **Observability Engineering** | Majors, Fong-Jones, Miranda | 978-1492076445 | První ucelená kniha o observability — structured events, iterativní verifikace hypotéz, core analysis loop; 2. vydání v roce 2026 (32 nových kapitol o AI, cost governance) |
+
+### Cloud a monitoring
+
+| Kniha | Autor | ISBN/Rok | Témata |
+|-------|-------|----------|--------|
+| **Cloud Observability in Action** | Michael Hausenblas | Manning, 2023 | Praktický průvodce observability v cloud-native prostředí — signal types (logs, metrics, traces, profiles), OTel Collector, SLOs, signal correlation, developer observability; open-source nástroje |
+| **Mastering Prometheus** | William Hegedus | 978-1-80512-566-2 | Pokročilé techniky pro Prometheus — interní architektura TSDB, custom service discovery, kardinalita, remote storage (VictoriaMetrics, Mimir), SLO-based alerting; autor je SRE manager v Akamai a contributor Prometheus/Thanos |
+| **Observability with Grafana** | Chapman, Holmes | 978-1-80324-964-3 | Kompletní průvodce LGTM stackem (Loki, Grafana, Tempo, Mimir) — instrumentace přes OTel, LogQL/PromQL/TraceQL, AI/ML alerting, real user monitoring s Faro, Pyroscope profiling, k6 zátěžové testování |
+| **Hands-On Monitoring and Alerting with Prometheus** | Muhammad Badawy | 978-9349887565 | Praktický průvodce Prometheus — instalace, konfigurace, service discovery, labeling, PromQL, Alertmanager, monitoring Linux, Windows, Docker, databází |
+
+### AI a observability
+
+| Kniha | Autoři | ISBN/Rok | Témata |
+|-------|--------|----------|--------|
+| **Observability in the AI-Native Era** | Lipsig, Grabner, Rati | 978-1-80638-959-9 | Propojení observability s AIOps — ML-based anomaly detection, root-cause analysis, self-healing systémy, OTel + Prometheus + Grafana + Dynatrace/Datadog, compliance |
+| **Open Source Observability** | Corless, Pawar | O'Reilly, 2025 | Report o disaggregated, modulárních observability stackách — flexibilita, cost efficiency, data autonomy, blueprint pro vlastní řešení z open-source komponent |
+
+## Detailní přehled nástrojů
+
+Rozšířené informace k nástrojům z tabulky výše:
+
+### Grafana Sigil
+
+AI observability produkt od Grafana Labs. OpenTelemetry-native SDK pro instrumentaci LLM agentů:
+
+- **Repozitář**: `github.com/grafana/sigil-sdk` (Go SDK) + `sigil-app` (Grafana plugin)
+- **Funkce**: sledování konverzací, generování, tool usage, cost tracking, quality evaluation
+- **Rostoucí problém**: 500M+ konverzací, 5M+ agentů v produkci (GrafanaCON 2026)
+- **Integrace**: automatické propojení s Prometheus (metrics), Tempo (traces), AI Observability API
+
+### InfraLens
+
+Zero-instrumentation Kubernetes observability postavená na eBPF:
+
+- **Repozitář**: `github.com/Herenn/Infralens` (Apache 2.0, Go)
+- **Funkce**: automatická detekce service-to-service komunikace, vizualizace topologie, AI-powered dokumentace
+- **Architektura**: eBPF agent + Go backend + React frontend
+- **Status**: early-stage (1 star, 10 commitů), ale koncept eBPF-based observability je potvrzený (Grafana Beyla, Cilium Hubble, Pixie)
+
+### Ingero
+
+GPU causal observability agent — první svého druhu:
+
+- **Repozitář**: `github.com/ingero-io/ingero` (Apache 2.0)
+- **Funkce**: eBPF tracing od Linux kernel eventů přes CUDA API až po Python zdrojový kód
+- **Overhead**: < 2 %, zero code changes, jeden binární soubor
+- **MCP server**: nativní podpora Model Context Protocol — AI asistenti mohou přímo queryovat GPU data
+- **Use case**: diagnostika GPU stallů, scheduler preemptions, CUDA memory spikes — kauzální řetězce místo prostých metrik
+- **Verze**: v0.19.0 (2026), aktivní vývoj
+
+### GreptimeDB
+
+Unified observability databáze — jeden backend pro metrics, logs a tracy:
+
+- **Repozitář**: `github.com/GreptimeTeam/greptimedb` (Apache 2.0, Rust)
+- **Architektura**: compute-storage disaggregation, object storage first (S3, GCS, Azure Blob), columnar storage
+- **Dotazování**: SQL + PromQL v jedné query, možnost JOIN mezi metrikami a logy
+- **Drop-in náhrada**: Prometheus (PromQL, remote write), Loki (Push API), Elasticsearch (bulk API), Jaeger (Query API)
+- **Cost reduction**: až 50× nižší náklady oproti tradičním řešením
+- **Roadmap 2026**: v1.0 GA (Q1 2026), v1.1–v1.3 (Vector Index, AI Functions, Auto Rollup, adaptive resource management)
+- **GreptimeDB Enterprise**: enhanced security, HA, enterprise support
+
+### Netdata
+
+Open-source, real-time monitoring platform pro celou infrastrukturu:
+
+- **Repozitář**: `github.com/netdata/netdata` (GPLv3+, C; 79k★)
+- **Funkce**: per-sekundové metriky, ML-based anomaly detection, AI-powered troubleshooting, 800+ integrací
+- **Zero configuration**: auto-discovery, pre-configured alerts, hotové dashboardy
+- **Architektura**: distributed agent → Netdata Cloud (volitelně), data zůstávají lokální
+- **Energetická efektivita**: dle studie University of Amsterdam nejefektivnější nástroj pro monitoring Docker systémů
+- **Netdata Cloud**: free tier (5 node), paid od $12/node/měsíc
+- **Licencování**: agent GPLv3+, dashboard NCUL1, cloud closed-source
+
 ## Zdroje

 Odkazy, knihy a standardy: [sources/monitoring/sources.md](sources/monitoring/sources.md)
+
+*Poslední revize: 2026-06-03*