Spadlo ti to Machale :D

lukalus

"za to může poskytovatel internetu" 😃

nosek_tomas2004

Taky by mě zajímalo...Čistě ze zajímavosti 😊

honzam

Jste si neaktualizovali DNS záznamy a teď tady machrujete :-D

zdeneksvarc

Později dám vědět 🙋🏻‍♂️

staryvena

Zdeněk nás trochu napíná, tak pojďme lehce spekulovat, co se stalo. 😁 Vykopávám:
Jelikož stránka vracela 404, tak to vypadá, že reverzní proxy jela ale byl problém s kontejnerem fóra. Buď proxy běží na jiném hardwaru a selhal stroj s kontejnerem (ale to by snad na Proxmoxu ošetřilo HA) nebo byl problém s konfigurací, který se neprojevil hned, ale až později.

skrivy

staryvena Místo chybé konfigurace bych dal Selhal člověk, ať je to konzistentní.

staryvena

skrivy Jsem nechtěl dostat ban, kdybych to napsal tak na plnou hubu. 🤣

zdeneksvarc

Dlužím vysvětlení. Ačkoliv správná odpověď na anketu je "Kombinace více problémů", příčinu vidím jen a pouze na své straně. Vysvětlím proč.

Fórum běží na LXC kontejneru ve dvou Docker Compose projektech. První je reverzní proxy (caddy:2-alpine) a druhý projekt obsahuje aplikační server (caddy:2-alpine) + PHP FPM kontejnery (php8.3-fpm) + MySQL (mysql:8.4) + Redis (redis:7.4-alpine) + nějaké provozní kontejnery pro správu. Dvakrát denně se vytváří snapshoty pro zálohu (BTRFS), přičemž v inkriminovatný čas se nějakým způsobem poškodil běh na aplikačním serveru. Důvod přičítám na vrub softwarovému RAIDU, resp. životnosti SSD disků v něm, protože pravidelně registruju zmenšování SMART Available Spare Threshold. Stát se to může a migraci na nové železo + přehození na Kubernetes jsem měl stejně v plánu ještě letos.

Proč mluvím o svém selhání souvisí s tím, že jsem v daný den ignoroval mobilní notifikace (ntfy) od Uptime Kuma, která 404 správně vyhodnotila jako závadu. Reagoval jsem až s mnohahodinovým zpožděním. Funguje mi sice hlídání služeb, ale nefunguje eskalace. Tedy, aby v případě, že je služba nefunkční delší dobu (v řádech desítek minut), tak by notifikace měly zvýšit invazivnost (mobilní notifikace > SMS > prozvonění). Samozřejmě od věci by nebyla ani delegace na záložní druhou osobu. Tady je nedostatek, který musím napravit a napravím.

Jak řešíte hlídání služeb v malých týmech a one-man-show projektech vy? Co se vám osvědčilo a na co nedáte dopustit?

skrivy

zdeneksvarc

Co se vám osvědčilo a na co nedáte dopustit?

Beru vážně notifikace a nemám je pro prdel králíkům.

jezdec

zdeneksvarc

Zajima me konkretne "prehozeni na Kuebernetes" jen ze zvedavosti, co konkretne si mam pod tim predstavit ? 🙂

zdeneksvarc

skrivy To je jasný. Jenže pokud ten týden proběhlo několik falešně pozitivních notifikací, protože finská lokalita Hetzneru, odkud běží Kuma, měla nestabilitu na Frankfurt, odkud běží servery, tak se při každém pípnutí notifikace nezblázníš. Proto má fungovat eskalace třeba po 5 minutách, která už nepošle mobilní notifikaci, ale SMS nebo rovnou zavolá. Nebo nastavit rovnou 5 minut, ale jsou případy, kdy výpadek potřebuješ vědět hned. Takže jsem za eskalaci upozornění mobilní notifikace > SMS > zavolání.

zdeneksvarc

jezdec docker-compose ➡️ ArgoCD / FluxCD

skrivy

zdeneksvarc
Aha, takže nemáš nastavené opakované notifikace? My máme intervaly notifikací dle úrovně důležitosti a posílají se dokud problém buď není ACKnut nebo vyřešen.

zdeneksvarc

Notifikace down > down > down > up se neposílají. Jen down > up