pepulis Rovnako, u nas je to x86 s ROS v7.14.3 Sietovky QSFP+ (tusim melanox) + CPU 8 core Xeon. CPU chodi 15-20% pri celkovom trafiku cca 20-24 Gbit. - RX drop 3750, RX error 2 900 000 - za cas uptime 97 days.
Vyrazne pomohli zmeny nastaveni vo fronte QT. Okrem toho sme nic nemenili. Stratovost do internetu ani u klientov nepozorujeme, ani monitoring ho nevidi.
Tento problem aj s realnou stratovostou asi 0,5% sme mali na ROS v6 a starsim x86 HW kde boli len 10Gbit sietovky, tam sme to uz ale mali v spicke upchate, takze to spravi vselico + CPU bol starsi (rv 2018 tusim) Xeon 4 core ktory chodil ókolo 55% a uz to je samo o sebe problem, aj to nam robilo stratu. Samozrejme upgrade z v6 na v7 sa nikto neodvazil spravit, takze sa to vyriesili vsetko az z novym HW.
Po viacerych zistovanich od ludi ktori prevadzkuju siete z traficom 10G+, ze je to viac menej normalne a pokial nie je realna stratovost tak neriesit. Okrem toho je absolutne minimum ludi, ktore ma know how realne na brane ktora ma ine nez 10G sietovky. 10G je zvladnuta a prebadana vec, 40 ci 100G nie a clovek laboruje a nikto o tom nic nevie, s mikrotikom to bolo na dlho aj kvoli driverom.

    gemb Děkuju za odpověď. Zkoušel jsem tedy vypnout QT na upload i download a nic, respektive rx errory skáčou pořád, za jeden den jich mám cca 180 000, jde o 0.01308% k počtu přenesených paketů. CPU 8 core - teď ráno se fláká a jede tak 2-3%, večer v průměru 10-15%. Nevím jestli má smysl vyměnit ten switch Edge-core ECS4120-28T nebo sfp modul.

    • gemb replied to this.

      gemb Používáte VRRP na těch QSPF+ sítovkách?

      • gemb replied to this.

        vdr Nie

        pepulis Switch by som urcite nemenil a zmena SFP modulu je loteria. Zatial sme mali len 1 par modulov ktore chybovali (z cdr.pl - opton wdm 10G) a je mala sanca, ze to pomoze. U nas to mame do switchu Huawei CloudEngine S6730-S24X6Q. Do neho sme mali aj 10G prepoje s x86, teraz 40G. U nas mame pouzite QSFP+ DAC kable o dlzke 2m. Taktiez mame aj prepoj s QSFP+ AOC kablom na 15m. Nemame problem ani s jednym ale priamo QSFP+ opticke moduly vlastne neprevadzkujeme...

        Dvě x86ky s i3-8th a síťovky X520-DA2, zapojeno pomocí DAC kabelů do DCN switche. Errory ne, TX dropy na VLANách ano.

        error je hw chyba. Dojde špatný paket kterému nesouhlasí CCR = error.
        drop je sw chyba/overflow. Příchozí paket není kam uložit, plný buffer v ethernet chipu = drop.

        Drop občas bývá u RB i na ostatní věci třeba na multicast nebo pakety o flow controlu. Asi nejsou brány jako provoz pro router samotný a počítají se tam.

        je třeba také vzít v potaz že x86 na v6 ani jedno většinou neukazuje ale v7 už ano.

        TX dropy většinou řeší zvětšení velikosti fronty v queue na interface. RX dropy ne.

        Pomáhá ručně přiřadit IRQ na jádra pěkně postupně a vypnout RPS pokud má ethernet multi IRQ.

        Já třeba mám na GW s X710 průměrně za den 0.1 pps errorů a 0.02 pps dropů. Ale jenom na vstupním iface, Na iface do sítě to je 0.025 pps a 0.037 pps. A mám tam jednu vlanu na každém iface.

        Asi bych mohl zkusit vyměnit moduly.

          Jen taková moje osobní zkušenost k podobné věci s 10G moduly/DAC . Mám v racku propoje na 10G, ať už DAC nebo přímo optické moduly a často se mi po nějaké době stalo, že se začala objevovat ztrátovost. Nikdo nic nereportoval, na první pohled nikde nic nezlobilo, jen na grafu se začala objevovat marginální ztrátovost (2x za den), která byla docela ustálená (měsíce) a pak se z ničeho nic zvedla výrazně a zase klesla. Ztrátovost se zdála minimální, ale zajímavé bylo, že se objevovala na všech grafech které přes ten router fungovaly a to v různých časech. Když si pak "promítnete" ty grafy přes sebe tak už to tak marginální nebylo.

          Měl jsem DAC od mikrotiku, různé OEM moduly na 10G. Výměna switche/síťovky/konfigurace front nepomáhala. Co pomohlo byla výměna DAC/optiky za nový. Náhle žádný problém nebyl, bohužel po půl roce se začal problém zase plíživě objevovat. Nakonec jsem skončil u obyč DAC z discompu pod jejich značkou Maxlink a k mému překvapení fungují už dva roky. Věřím tomu že kdybych koupil "pořádnou" značku hned na začátku, tak bych problém neměl. Nyní na uptimu 150 dní mám na celém routeru 3x rx-error, cca 1000 rx-drop a na Tx 0error/drop

          Takže za mě zkusit vyměnit propoj je to nejlehčí co se dá zkusit.

          • gemb replied to this.

            pgb my pouzivame 90% maxlink moduly aj maxlink dac kable - okrem jedineho modulu nebol problem...a ten jediny proste vymrzol a nesiel...stacilo vypat/zapat interface a rozbehol sa. Pri 40G to ale nie je take jednoduche, tam sme narazili na problemy s kompatibilitou, niektore DAC nam ani nefungovali, nebolo mozne donutit ani switch ani x86 aby to linklo...nakoniec sme brali dac aj aoc z FS.com, to islo nasupu a drahe to nebolo.

            • pgb replied to this.

              gemb Jsem rád že ty moduly z fska chodí. Já jsem dospěl k názoru že 40G je slepá cesta. Jedná se o můj osobní názor. Je to z důvodů že 40G je 4x10G, kdyžto 100G je 4x25G. Navíc existuje většinou kompatibilita u sfp28 až do 1G sfp. Možná s tím leckdo nebude souhlasit, hádat se nehodlám. Nicméně i na lupě vyšel článek od quantcom k zamyšlení ... "Je pětadvacítka novým desetigigabitem?"

              • gemb replied to this.

                pgb samozrejme suhlasim, 40Gbit QSFP+ je starsie rozhranie a nema buducnost. Lepsia cesta by bola ist smerom 100Gbit. My sme uz ale pred par rokmi isli do cesty pripravy upgradu z 10 na 40 a vtedy sa o 100G moc ani nehovorilo a 40G bolo dostupne , takze sme mali roky pripravene 40G no a v case zmeny uz bolo zase 100G dostupne...kvoli velkej investicii v minulosti sme to chceli vyuzit, tak sme isli cestou 40G. Ked nebude 40G stacit vieme ist este 2x40G co mame tiez uz nachystane...a az o par rokov ak budeme este ako lokalny isp existovat bude mozno skok na 100 alebo 2x 100G...toto su ale cisla ktore vela userom tu nic nehovoriq, kedze casto sa stretavam este s 1 ci max 10G branou ktora ma este svoje rezervy.

                pepulis tyto dávám zákazníkům ale určitě je v bráně nemám. Jeden tam je určitě co se dává k erikssonům a druhý nevím, možná FS. Maxlinků se taky nebojíme.

                Zakoupil jsem tedy DAC kabel od Maxlinku, přesně MaxLink 10G SFP+ DAC kabel, pasivní, DDM, 2m, přepojil a situace stejná, tj. RX errory naskakují dále. Jde v průměru o 0,013% k celkovému přenosu. Učím se na to nekoukat, protože na nic to nemá vliv, nicméně napadá ještě někoho něco? V serveru je 2port supermicro karta tak, jak ji asi mnoho z vás taky využívá. Pořídil jsem sice ještě MaxLink 10G SFP+ optický modul, SM, 1310nm, 10km, 2x LC konektor, DDM, ale tam bude výsledek asi stejný, pokud bych ten DAC kabel odpojil a přehodil na gibicy.

                to si měl spíš koupit AOC kabel. Je to uvnitř optické a je to galvanicky oddělené. DAC je stále spojen kovem.

                Nám se errory kdysi valily kvůli absenci stínění na kabelu resp. doslovného propojení šasí-šasí klidně i extra kabelem mezi routerem a pojítkem a errory byly pryč.

                Kartu máš STGN-I2S?

                  hapi Tak ať zkusí ty moduly + vlákno, to je funkčně to samé jako AOC.

                    Osobne si myslim, ze aj ked vymeni kable, dac alebo moduly, ze stale to bude jeden a ten isty problem...v nejakej verzii mikrotiku sme mali vyslovene 2% stratu, viditelnu aj na klientoch aj dohlade...po upgrade ros zazracne loss zmizol....a ten drop tak ako sa tu riesi...proste nejaky tam bude stale v malej miere.

                    hapi Co se týká uzemnění a propojení, tak mám uzemněný rack a přes zemnící kolíky připojen zemnícím kabelem switch, šasí serveru a další prvky, mám natažený i zemnící kabel mezi racky (dvěmi, co mám). Diskuzi, kde jsi o tom psal v minulosti si pamatuji, je o tom tady diskuze v nějakém vlákně. AOC kabel jsem objednal, nicméně zkusím to přes ty maxlink moduly + optika.

                    📡 Telekomunikace.cz