Zdravím všechny, prosím o radu, nebo jestli to někdo už někdy taky neviděl...
U zákazníka máme RB3011 a spojení k ISP přes PPPoE. Uvnitř několik VLAN a IPsec tunely na další lokality. Čas od času se stává (typicky kolem 8h ráno), že RB přestane komunikovat a pomůže jedině restart (což zařídí WatchDog). Projeví se to tak, že počítač v LAN ztratí IPv4 adresu a přepne se do WiFi, kde ji normálně dostane. Všechny DHCP přiděluje ten chybující RB.
Empirickým výzkumem jsme zjistili, že v okamžiku zamrznutí je možné se k RB připojit WinBoxem přes MAC. Z něj pak nejde ping na subnet za PPPoE, přestože je running. Dále nejde ping na subnet LAN, ale třeba na subnet WiFi ping jde. Zkoušeli jsme v tomto chybovém stavu vypínat a zapínat jednotlivé interfacy, bridge, pravidala, routy... prostě cokoliv se dá vypnout a zase zapnout, ale nic nezabralo. Prostě zabere až restart celého RB. V logu jsme nenašli žádnou událost, která by tomu zamrznutí předcházela a opakovala se před každým zamrznutím.
Stávalo se to již zhruba před rokem a po marných analýzách jsme vyměnili RB za nový kus. Asi na rok byl klid, ale v únoru se to objevilo znovu. Mezi tím proběhlo spousta upgradů, udržujeme vždy poslední stable verzi. Zkoušeli jsme i vrátit nižší long-term, ale nemá to vliv.
Bohužel na podrobnější analýzu máme vždy jen několik minut, je to hlavní router v produkci a v laboratorním prostředí neumíme tuto závadu nasimulovat.
Díky za jakýkoliv nápad.