Akcelerace vykonu routeru pomoci nVidia CUDA

walkeer

http://www.root.cz/clanky/graficka-kart ... -smerovac/ velmi zajimave cteni

lwq

Walkeer: jooo, ted sem to prave sem chtel dat : ...

... "ja vam to rikal" ... :

tomcizech

Upřímně nevím co tu řešíte. Např. Huawei Eudemon E200-X3 stojí 25 000 Kč a odnatuje a odroutuje 1 Gbit/s toku při 1 000 000 otevřených spojeních. Jsou prostě specializované zařízení a nemá cenu vařit z vody takovéto hovadiny. Latence WAN->LAN u Eudemona je menší než vůbec síťovka v PC udělá interupt na CPU. Kdyby to šlo PHY->DMI->CPU->DMI->Cuda->DMI->CPU->DMI->PHY, tak uděláte na tom stroji klidně přes 1 ms než to odbavíte. Všichni víme že latence ničí prospustnost. Pro neznalé většina dat v PC teče přes DMI ( Direct Memory Access ) což znamená že při této konfiguraci se jeden packet přes ram protočí 4x, spíše víckrát a vždy je potřeba generovat interupty pro získání dat z DMI. Spíše to budou 2 až 3 ms kdyby to šlo přes grafiku.

Proto takové řešení nejsou a NEBUDOU! A pokud ano tak pro experimentální testy ale ne do reálného provozu. Pokud chci jen routovat tak třeba 3Com 4800G se dá koupit za 20 000 a odroutuje desítky Gbps, nežere elektriku a zvládá tisíce rout.

lwq

tomiczech: jen drobnost ... Huawei je naprosta cinska (s,h)racka a nebrat od nich ani LEDky :

walkeer

Spíše to budou 2 až 3 ms kdyby to šlo přes grafiku.

Tomu sam neveris, ze by to bylo vice nez 1ms, vazne ne. Kdyz uvazuji Sandybrige-E a grafiku pripojenou do PCI-E v CPU, tak to jde do RAM jen 2x: ze sitovky do RAM a z ni do GPU a pak z GPU do RAM a pak do sitovky. Kdyz uvazujes rychlosti a frekvence PCI-E a RAM, tak mi vysvetli, co by tam trvalo tech cca 3miliony CPU cyklu (=1ms)? Latenci PCI-E v3.0 (Sandybrigde ji uz umi) ale i starsi v2.0 muzeme vpodstate zanedbat vzheldem k jeji prenosove seriove rychlosti 8 resp. 4Gbps a tomu odpovidajici lateci. Latence RAM se pocita v jednotkach az desitkach ns, tam ty tvoje jednotky ms take nedostanes. A na latenci uvnitr GPU to doufam hodit nechces, to by take neklaplo vzheldem k rychlosti a frekvenci tech pameti a GPU co se u modernich grafik pouzivaji.

jeste k tem IRQ pro GPU: jiste jsi si vedom toho, ze pro GPGPU se IRQ jiz vetsinou nepouziva, nybrz se pouziva polling nebo hybridni pristup, stejne jako je tomu u modernich 10Gb sitovek.

Je dulezite si uvedomit, ze pri pouziti dual-socket Sandybidge-E lze ke kazdemu CPU priradit jednu, treba i dual-GPU kartu, takze tuto platformu lze velice efektivne skalovat. Vzhledem k masivne paralelni povaze dnesnich GPU je to pro zpracovani pokrocilych deep packet inspection technik jako delane :) Navic existuji i GPU s ECC pameti, ktere tery pravda neco stoji.

slibca

tomiczech: jen drobnost ... Huawei je naprosta cinska (s,h)racka a nebrat od nich ani LEDky :

A důvod tohoto tvrzení je??

tomcizech

Vzhledem k masivne paralelni povaze dnesnich GPU je to pro zpracovani pokrocilych deep packet inspection technik jako delane :) Navic existuji i GPU s ECC pameti, ktere tery pravda neco stoji.

Ano přiznávám že jsou dnes určitá vylepšení které zvyšují či obcházení limitace x86 architektury ale x86 je skutečně jedna z nejhorších architektur pro síťový provoz. Momentálně vycházím z toho že mám karty s Intel 82576 a i tak při obyčejném routingu mi tento stroj udělá 0.3 ms. Celkem 0.7 včetně dev latence strojů z kterých to posílám a přijímám. V případě GPU řešení musí zákonitě latence narůst. Ale nejde jen o latenci ale i poměr výkon/watt, spolehlivost, nároky na prostor ( počet U ) a rozšířitelnost.

tomiczech: jen drobnost ... Huawei je naprosta cinska (s,h)racka a nebrat od nich ani LEDky

Copak? Špatná zkušenost s modemem od O2 v hodnotě 300 Kč? Ona totiž tahle firma je trochu větší a mají i Enterprise produkty. http://www.huawei.com/enterprise/

walkeer

Ano přiznávám že jsou dnes určitá vylepšení které zvyšují či obcházení limitace x86 architektury ale x86 je skutečně jedna z nejhorších architektur pro síťový provoz. Momentálně vycházím z toho že mám karty s Intel 82576 a i tak při obyčejném routingu mi tento stroj udělá 0.3 ms. Celkem 0.7 včetně dev latence strojů z kterých to posílám a přijímám. V případě GPU řešení musí zákonitě latence narůst. Ale nejde jen o latenci ale i poměr výkon/watt, spolehlivost, nároky na prostor ( počet U ) a rozšířitelnost.

0.3ms mi prijde moc, kolik rekordu mas v routovaci tabulce a co tam mas za OS a fakt to jen routuje? Pouzivas polling nebo IRQ? v pripade samotneho pollingu by to asi bylo mozne, ale pokud mas mensi zatez a IRQ, tak mi to prijde jako docela dost, za predpokladu ze tam mas nejakou normalni moderni platformu..

Copak? Špatná zkušenost s modemem od O2 v hodnotě 300 Kč? Ona totiž tahle firma je trochu větší a mají i Enterprise produkty. :)

tomcizech

Walkeer: Cca 400 záznamů ale tok okolo 850 Mbit/s a tudíž zaplý pooling. Os linux.

walkeer

Hm tak pri takove zatezi mi prijde 0.3ms jako hodne dobry udaj :) co mas za zelezo? Krome toho 850Mb se uz nebezpecne blizi maximalni mozne hranici 1Gb a ethernet by design neni uplne dobre optimalizovan na rychlosti atakujici max rychlost.

Walkeer: Cca 400 záznamů ale tok okolo 850 Mbit/s a tudíž zaplý pooling. Os linux.

jap

mozna by nekoho mohlo zajimat, ze nedavno vysla k tematu na CVUT diplomka Morise Bangoury:

https://dip.felk.cvut.cz/browse/details.php?f=F3&d=K13136&y=2012&a=bangomor&t=dipl

« Předchozí stránka