MikroTik - částečné zamrzání IPv4 komunikace

sparrow

Zdravím všechny, prosím o radu, nebo jestli to někdo už někdy taky neviděl...
U zákazníka máme RB3011 a spojení k ISP přes PPPoE. Uvnitř několik VLAN a IPsec tunely na další lokality. Čas od času se stává (typicky kolem 8h ráno), že RB přestane komunikovat a pomůže jedině restart (což zařídí WatchDog). Projeví se to tak, že počítač v LAN ztratí IPv4 adresu a přepne se do WiFi, kde ji normálně dostane. Všechny DHCP přiděluje ten chybující RB.
Empirickým výzkumem jsme zjistili, že v okamžiku zamrznutí je možné se k RB připojit WinBoxem přes MAC. Z něj pak nejde ping na subnet za PPPoE, přestože je running. Dále nejde ping na subnet LAN, ale třeba na subnet WiFi ping jde. Zkoušeli jsme v tomto chybovém stavu vypínat a zapínat jednotlivé interfacy, bridge, pravidala, routy... prostě cokoliv se dá vypnout a zase zapnout, ale nic nezabralo. Prostě zabere až restart celého RB. V logu jsme nenašli žádnou událost, která by tomu zamrznutí předcházela a opakovala se před každým zamrznutím.
Stávalo se to již zhruba před rokem a po marných analýzách jsme vyměnili RB za nový kus. Asi na rok byl klid, ale v únoru se to objevilo znovu. Mezi tím proběhlo spousta upgradů, udržujeme vždy poslední stable verzi. Zkoušeli jsme i vrátit nižší long-term, ale nemá to vliv.
Bohužel na podrobnější analýzu máme vždy jen několik minut, je to hlavní router v produkci a v laboratorním prostředí neumíme tuto závadu nasimulovat.

Díky za jakýkoliv nápad.

soban

Mě se teď stalo něco podobného, prostě přes PPPoE to nekomunikovalo po IPv4, ale IPv6 fungovala, když se PPPoE zakázalo tak komunikace přes záložní lte fungovala.
Co se tam dělo netuším, SW byl verze 7.x.y tak jsem to vrátil na 6.x.y a taky to zlobilo, ale po kompletním resetu a nastavení všeho ručně to s 6.x.y verzí chodí zatím OK.

Takže pokud tam máte verzi 7.x.y tak bych vyskoušel vrátit verzi 6.x.y a pokud by blbla i ta 6.x.y tak reset a neobnovovat nic ze záloh a znovu to ručně nastavit zda pak něco nekompatibilního zůstává v konfiguraci z té verze 7.x.y

sparrow

soban je tam 6.49.5. , na verzi 7 jsem zatím neměl nikde odvahu 🙂
a bohužel to není jenom PPPoE ale i jeden subnet LAN, takže mě fakt nic nenapadá... zkusíme asi reset a nasypat tam exportovanou konfiguraci ořezanou o blbosti a uvidíme... ale fakt bych raději přišel na kořenovou příčinu