IP SLA
Ve světě směrovačů už poměrně dlouho existuje možnost monitorovat dostupnost a kvalitu spojení s využitím L3 protokolů. Můžete například z pobočky v pravidelných intervalech testovat dostupnost brány datového centra nebo klíčového serveru včetně měření doby jeho reakce (round-trip-time). Dá se také namířit dva routery proti sobě tak, že jeden se ptá a druhý odpovídá s tím, že do paketů vkládají časové značky. Jste tak schopni měřit latenci a jitter. Prvky s Comware nabízí tyto funkci pod názvem HPE NQA bez nutnosti nějaké licence na prakticky kompletním portfoliu routerů, data centrových prvků i campus páteřních a access systémů.
Před pár dny byla uvolněna verze firmware pro prvky Aruba zaměřené na moderní wireless-first campus (např. 2920, 2930F, 3800, 5400) a funkce základního IP SLA byla přidána i do nich. Podívejme se dnes na ni.
ArubaOS-Switch IP SLA implementace
Po aktualizaci operačního systému, na kterou máte díky doživotní záruce trvale nárok i bez supportního kontraktu, se vám objeví nový příkaz ip-sla (prvky mají všechny funkce v ceně produktu, takž nemusíte kupovat nic navíc). K dispozici jsou tři základní testy:
icmp-echo Configure ICMP echo as the IP SLA test mechanism. tcp-connect Configure TCP connect as the IP SLA test mechanism. udp-echo Configure UDP echo as the IP SLA test mechanism.
ICMP je jednoduchý ping, u kterého bude prvek měřit jeho úspěšnost a také dobu do návratu (round trip time). Nevyžaduje žádnou zvláštní podporu na druhé straně kromě odpovědi na ping, takže tento test můžete namířit prakticky na cokoli. Bránu jakéhokoli výrobce (testovat dostupnost a kvalitu spojení do core, do datového centra, do pobočky) nebo na kritický server apod. UDP a TCP connect dává o něco víc informací a pokud použijete UDP test, potřebujete proti sobě namířit dva Aruba prvky. Jeden se ptá, druhý odpovídá a pokud mají NTP synchrnizaci času, tak vkládají značky umožňující docela efektivně měřit latenci a jitter odděleně pro oba směry.
Testy můžete naplánovat nebo je nechat běžet věčně a také si specifikujete jejich četnost od pěti vteřin po dlouhé časové úseky. Zjištěné výsledky si můžete zobrazit v příklazové řádce nebo je analyzovat v nějakém nástroji pro správu sítě. Je také možné výsledky vyhodnocovat a upozorňovat na problematické situace zapsáním do logu nebo odesláním SNMP trapu. Základní typy monitorování jsou:
packet-loss Configure threshold-action values when packet loss happens.
test-completion Configure action to be taken when test gets completed.
threshold-config Set upper and lower threshold parameters.
Tedy reagujete na výpadky provozu (ztracené pakety), nebo dokončení testu (pakliže je máte časově omezeny) nebo překročení parametrů (tedy zhorčení kvality spojení). Parametry, které můžete takto brát v úvahu jsou:
rtt Configure threshold-action values for RTT.
srctodsttime Configure threshold-action values for source to destination (oneway) time.
This value is applicable only for udp-echo.
dsttosrctime Configure threshold-action values for destination to source (oneway) time.
This value is applicable only for udp-echo.
Reagovat můžete buď ihned nebo pouze pokud se výsledek zopakuje několikrát (tedy například nechcete křičet hned při prvním ztraceném pingu, což se může běžně stát a není to takový problém, ale pokud už vypadl pětkrát po sobě, není to dobré). Také nastavujete horní a dolní hranici. Log zprávu dostanete v okamžiku překročení té horní a pokud je situace i nadále špatná, nebudou se posílat stále další a další hlášky. Pokud ovšem realita klesne pod spodní hranici a někdy později znovu překročí tu horní (tedy situace se opět zhoršila), dostáváte hlášení.
Vyzkoušejme si to
Prvek jsem nastail tak, že provádí ping každých pět vteřin a zapíšeme do logu, pokud odpověď trvala déle jak 170ms.
ip-sla 1 icmp-echo 16.228.51.250 source-interface vlan 1 schedule now forever frequency 5 monitor threshold-config rtt threshold-type immediate threshold-value 170 162 action-type log enable exit
Podívejme se na průměrné výsledky a historii měření.
HP-2920-24G-PoEP(config)# show ip-sla 1 history SLA ID : 1 SLA Type : ICMP-Echo Minimum RTT (ms) : 159 Maximum RTT (ms) : 181 Average RTT (ms) : 161 Total RTT (ms) : 2741 RTT2 (sum of RTT squared): 442363 Start Time Status RTT Description ------------------------ -------- ---- ---------------------------------------- Thu Jul 21 07:32:03 2016 Passed 161 Thu Jul 21 07:32:08 2016 Passed 160 Thu Jul 21 07:32:13 2016 Passed 160 Thu Jul 21 07:32:18 2016 Passed 181 Thu Jul 21 07:32:23 2016 Passed 160 Thu Jul 21 07:32:28 2016 Passed 160 Thu Jul 21 07:32:33 2016 Passed 160 Thu Jul 21 07:32:38 2016 Passed 160 Thu Jul 21 07:32:43 2016 Passed 160 Thu Jul 21 07:32:48 2016 Passed 160 Thu Jul 21 07:32:53 2016 Passed 160
Všimněte si, že ztrátu paketů jsme žádnou nezaznamenali (status je Passed), ale v 7:32:18 byla odpověď delší, než chceme. Dle našeho nastavení bychom tedy měli mít hlášku v logu. Podívejme se.
HP-2920-24G-PoEP(config)# show log -r Keys: W=Warning I=Information M=Major D=Debug E=Error ---- Reverse event Log listing: Events Since Boot ---- I 07/21/16 07:32:19 05022 ipsla: The IP SLA 1, Threshold is crossed. Monitored Param: RTT, Threshold Type: Immediate, Upper threshold: 170, Lower threshold: 162, Action Type: Log. Actual Threshold : 181 I 07/21/16 07:32:04 05027 ipsla: IP SLA 1 state changed to Running