Ano, to jsem nezmínil, problémová přípojka v Pardubicích je NONbonding, jeden link, jeden pár drátů s terminátorem.

jchudoba
Tak člověk míní, bůh mění ☹️.

Včera u nás asi 8* bliknula elektrika (a protože děláme menší rekonstrukci sklepa, tak byl celý rack odpojený od UPSky ☹️).
Takže to ve finále "vynutilo" restart a nyní vše (asi zase jen na chvíli) běží jak má. Nestihnul jsem zkusit tam vložit "meziRB" ještě před restartem.

Zítra tam připojím dalšího MikroTika mezi hlavní RB a Terminátora, ať to můžu (až to znovu nastane) ještě zkusit vysledovat tam.
K tomu bych měl ale ještě menší dotaz - Když dám na tom "meziRB" PacketSniffer na bridge (ve kterém budou všechny fyzické ETH porty), tak na něm uvidím ten provoz toho PPPoE tunelu? Bez toho aniž by to "meziRB" o nějakém PPPoE vůbec vědělo?

Uvažuji tak na základě myšlenky, že i ten tunel se ve finále (asi) skládá z nějakých paketů/rámců, takže bych měl Sniffnout právě ty PPPoE pakety/rámce (ve kterých jsou zabaleny opravdové pakety/rámce) 😀? Je tato úvaha správná?

Díky moc 😊

    Můj report.

    Situace se zhoršila natolik, že se výpadky začaly pravidelně opakovat každý den ráno mezi 5 a 7 hodinou ráno. A to i přes to, že mám nasazený ROS long term 6.47.9.

    Abych kompletně vyloučil chybu na mém zařízení, Mikrotik a jakákoliv verze ROS, nasadím náhradní router, Turris MOX.

      iTomB Taky si to myslím, ale potřebuju mít své doměnky potvrzené praktickou zkušeností.

        liquidcz tak si dej restart mikrotiku na 4 rano a uvidis ... 😉

        nosek_tomas2004 Neptej se a vyzkoušej si to ... je to pět minut práce a i kdyby byla odpověď "ne", znalost jak funguje ten sniffer se ti bude v životě ještě mnohokrát hodit při dalších diagnostikách, ušetří ti to spoustu wiresharků. Nemůžeš na tom prodělat. Čímž nijak neříkám ani že to jde, ani že to nejde-jen tě nechci rozmazlovat informací kterou zvládneš zjistit sám.

        iTomB Velmi přínosný příspěvek - to říkám od začátku.

        liquidcz Dotáhni to do konce s providerem. To je jediné systémové řešení.

          jchudoba ty tu mas registraci 18 dni a budes tu o necem takovem kecat? 😃 LOOL Pokud by byla chyba v mikrotiku, tak po restartu a stane se to znova, tak je pravdepodobnost, ze je to mikrotik 0,000prd %.

          Po týdnu pravidelného zasekávání linky, každé ráno, jsem na sprosťáka předřadil Turris MOX, jen proto, aby pppoe klientem byl jiný systém než mikrotik. A taky proto, že se mi nechtělo celou síť za mikrotikem překonfigurovat (vpn, routing, pravidla, rezervace, DNS...). Výsledkem jsou dvě rána, kdy se spojení nezaseklo a stále jede. Nechám to běžet týden a uvidím zda-li se něco stane, zopakuje se situace.

          Pokud bude vše stabilní, zkusím zase nasadit napřímo mikrotik a uvidím, zda-li se situace bude opakovat. Tím budu chtít vyvrátit možnou náhodnou součinnost na straně Cetinu. (...že by si toho někdo všimnul a sám od sebe "to" opravil ve stejný čas jako já vyměnil HW) :-)

          Pokud se rozpadání spojení opět vyskytne při zapojení mikrotiku jako pppoe klienta, tak ještě zkusím prohodit mikrotik HW kus za kus. Tím se mi podaří potvrdit nebo vyvrátit, že zakopaný pes je někde v ROS nebo v mojí konfiguraci. I když si myslím, že se na tom nedá nic zkazit tak, aby se mi to spojení takto zasekávalo.

          Tak jsem mezi RB1100AHx2 a Terminátora vložil RB800 (která se mi tu válela).....

          Dneska jsem se do "onoho" záhadného stavu dostal znovu, takže jsem udělal ještě diagnostiku na tom "mezi RB". O výsledek se potvrdil. Z hlavního MK (ze kterého je vytáčeno PPPoE) pakety odchází. Při "zaseklém" stavu, vidím v PacketSnifferu na RB800 PPPoE jak RX, tak TX provoz.

          Ještě jsem udělal jeden "potvrzující" test:

          • Přepnul jsem si konektivitu na záložní --> internet funkční.

          • Z PC v lokální sítí jsem pustil packet-generator (s malou velikostí) na jednu veřejnou IP (X.X.X.X) (která je úplně mimo infrastrukturu MetroNetu/CETINu) na které mám MikroTik SXT.

          • Paket generátor jsem pustil a na tu veřejku X.X.X.X a požadovaný datový tok, který jsem vygeneroval se objevil na fyzickém interface SXTčka. Tím jsem si ověřil, že to generování funguje a je "vidět"

          • Nyní jsem přepnul konektivitu zpět na nefunkční VDSL a packet generátor opět pustil. V tuto chvíli to začlo býti trošku zajímavější:

          • Požadovaný datový rok směrem VEN (cca 20Mbit/s) jsem viděl jak na PPPoE, tak i na ETH interface hlavní RB1100AHx2

          • Tok byl vidět i na tom mezikusu tvořeným RB800 (jak na fyzických iface, tak i ve snifferu). Z toho usuzuji, že pakety ode mne odcházejí. Co s tím dělá Terminátor už ale asi nezjistím. ....

          • Každopádně na tom veřejném SXTčku bylo "ticho po pěšině". Přestože od mne to "valilo" 20Mbit/s, tak na vzdáleném SXTčku po nějakém takovém provozu nebylo ani vidu, ani slechu.

          Z toho usuzuji že to záhadné "ono/něco", žere pakety, které putují směrem ode mne.

          Pokud packet-generátor udělám opačným směrem (možná jsem to už výše popisoval) - tj. z internetu na moji Metronet veřejnou IP, tak i v nefunkčním stavu datový tok ta PPPoE interface dorazí.

          Z tohoto zase usuzuji, že cesta ke mě je (zjevně) v pořádku.

          Už to mám v řešení s technikem od Metronetu, uvidím(e), jak to dopadne 😀.

          Každopádně moc děkuju všem za pomoc, rady, nasměrování a i za naučení některých (pro mne) nových věcí 😊😀

            nosek_tomas2004 Super, to zcela vylučuje problém na Mikrotiku (jak jsem ostatně předpokládal, ale sniffnutí komunikace to postavilo najisto). Zkus tedy dotáhnout toho Metronet technika, předpokládám že takto sesbírané podklady mu nedovolí to zamést pod koberec. Rozhodně dej vědět jak jsi dopadl-i kdyby to neklaplo s Metronetem, stálo by za to to sepsat a poslat na CETIN rovnou.

            Hele nechci vám kazit diskuzi, ale na mých přípojkách co jsou přes Metronet (s Terminátorem) se nic takového neděje. Jako koncová zařízení používám výhradně ASUS routery s Merlinem nebo pfSense. Obávám se že chyba není na straně CETINu/Metronetu, ale na straně Tiku...

            Fajn, a jak se vypořádáš s faktem že to z Tiku to teče v pořádku, což bylo prokázáno snifferem? Zkus prosím rozepsat nějaké vysvětlení kdy platí současně že [na příchodu sniffnuto že je to OK, v logu Mikrotiku je to OK, sniffnuto na odchozím směru je to také OK], a současně "je to chyba Tiku".

            Kde je tedy potom v Tiku chyba, když na příchjozí pakety reaguje správně, což prokázal sniffer?

            (nehledě k tomu že tohle se mi děje per lokalita, mám i terminátor+mikrotik s uptimem 180dnů, a to jen kvůli updatům).

            Jinak nevylučuji že Mikrotik může ten jev nějak vydráždit (třeba způsob fragmentace?, v Terminátoru něco přeteče a sesype se to?) a že s jiným zařízením by se nedělo, ale dokud to sniffnuto teče tam i zpět v pořádku, tak si s tím Terminátor a to co je za ním musí poradit.

            Tvrdím že pokud by byla "chyba v Tiku", tak budu schopen ve sniffnutém odchozím provozu najít buď absenci dat, nebo vadná data. Prokázal toto někdo?

            A pozor, nikdo netrvdí že je to Metronetem - mi to dělá i na jiných providerech a problém bych lokalizoval na něčem co patří CETINu.

            Věříš-li že je to Mikrotikem, je snadný způsob jak to prokázat - nech si od Tomáše poslat uložený sniffnutý provoz a řekni nám co Mikrotik odesílá špatně. Na to stačí sniffnout jeden SYN paket zevnitř ven (který na cílovou IP už nedoleze), pár bajtů, žádná složitá analýza. To ti Tomáš určite rád sniffne.

            Nakonec Tome můžeš to sem hodit veřejně, jeden sniffnutý SYN zevnitř ven, ať kdokoli kdo si myslí že to Mikrotik na Terminátor špatně odesílá má možnost to zanalyzovat a buď říct kde je chyba (potom ji rád předám na support), nebo ať mlčí navěky. Bude to hozená rukavice pro všechny zastánce teorie "je to Mikrotikem",

            Držme se prosím toho že takovéto diagnostiky se dělají snifferem a z něj získanou analýzou tvrdých dat, nikoli statistikami co se komu hryže nebo nehryže. (Když bych se pouštěl do úvah které nejsou postaveny na měkkých datech, aktuálně se mi to neděje na ani jedné ze stovek bondovaných xDSL s Terminátorem. Nebondované aktuálně nemám, oba diskutující zde mají Terminátor nebondovaný. Ale zda je tam souvislost by bylo odvážné dovozovat, byť jistá statistika tam je.)

              jchudoba Tohle lze vyloučit, resp. potvrdit velmi jednoduše: na přípojku kde se to děje zkušebně nasadit router od jiného výrobce. To by snad neměl být takový problém, ne?

              To by byl postup který bych zcela jistě poradil na mimibazaru nějaké bydlence kterou zlobí internet. Od člena odborného fóra bych však očekával postup odborný - a tím je sniffnutí komunikace, analýza zachyceného provozu a výrok "provoz je OK, je třeba hleda za sniffovaným zařízením" nebo "paket X má chybu v hlavičce Y, hodnota Z tam nedává smysl".

              Prosím, nedělejme z tohoto vláka mimibazar.

                jchudoba V jednoduchosti je síla. Ale komu není rady, tomu není pomoci...

                Různí ajťáci to dotáhnou různě daleko. Někomu stačí umět "vypnout a zapnout", ti o něco málo šikovnější umí "vyměnit za jiné zařízení", ještě o něco šikovnější "downgradovat". Ano, i s tímto repertoárem se dá před méně znalými uživateli předstírat že jsem ajťák. Potom se ale nedivme že tak jako se o policistech vykládají vtipy že jeden umí číst a jeden psát, o ajťácích se točí seriály jak umí jen vypínat a zapínat.

                Kdo na tomto levelu zamrznout nechce, ten si zanalyzuje problém hlouběji. Každému dle jeho mentální kapacity, ochoty se učit, rozvíjet, rozpočtu, míry priorit ...

                Tomáše zjevně baví se učit, já bych mu to přál, jednou bude vydělávat více než ten kdo bude umět jen restartovat, měnit a downgradovat. Ale i to tahání kabelů bude potřeba aby někdo uměl, takže cajk, nikdo neříká že všichni musí u práce přemýšlet.

                @nosek_tomas2004 velikost MTU si s Metronetem řešil? Oni sice píšou 1492 (1500 - PPPoE header 8 byte), ale otázkou je zda se to někde ještě netuneluje. Pokud máš ozkoušeno že ti proleze jen 1400 bytů pomocí pingu, tak je to dost divný a moc to 1492 bytů neodpovídá. Pokud je max 1400, tak + 28 bytu je eth(20) + icmp(8) a máš tam 1422 co by mělo být teoreticky ne tom PPPoE. Což by znamenalo, že tam probíhá ještě něco po cestě.

                Mám příklad třeba z naší sítě:
                Mamé PPPoE přes EOIP tunely vedoucí na site. EOIP sežere 42 bytů, PPPoE 8. Takže na PPPoE klientu je nastaveno 1500-50 = 1450 MTU. Když pustím ping na seznam na IPv4 a zkusím co se nefragmentuje, tak max je to 1422 bytů (právě 1450 - 20 eth - 8 icmp). To všechno s obalí + PPPoE 8 byte + 42 EOIP a celé se to vleze do 1500byte fyzických.

                Kdyby se řešilo to aby prolezlo celých 1500, museli bychom po cestě zvedat MTU na všech zařízeních po cestě. Nemůže to být i tvůj problém na tom iface směr CETIN/METRONET atd? Vím, že pokud u nás měli lidi pevnou IP adresu na interfacu (třeba veřejku) a nepoužili ty PPPoE = tudíž tam oni měli standradních 1500 MTU, tak docházelo k podivným jevům - napříkald rozpojování session na SSH. Ale ne stylem že by se to právě nenavázalo, ale například pak při šifrovaném přenosu více dat na cloud. Ve chvili kdy upravili MTU řádně, tak bylo po problému.

                Ber to jen jako radu, nemám čas a ni náladu se tu s ostatními dohadovat na téma Mikrotik sucks, kdo má delší vedení a kdo je lepší guru, ale když tě to pomůže budu rád. Pokud je to jiný problém (nebo jiný problém kombinovaným s tímhle, rád si přečtu až to vyřešíš).

                PS: Nevím jestli řešíš i IPv6, ale je u té je nutné to správně MTU nastavit i v ND aby to fungovalo korektně i pro připojovaná zařízení na Ipv6.

                Měj se a hodně zdaru. Brody

                  📡 Telekomunikace.cz