AWS-i oleku kontrollimine: praktiline juhend õigel teel püsimiseks

  • Prioriseeri AWS Healthi juhtpaneeli piirkonna järgi ja täienda seda status.aws.amazon.com ja kontekstiallikatega.
  • Tervisesündmuste sisestamine EventBridge'i abil ja vastused automatiseerimine CloudWatchi ja automaatse skaleerimise abil.
  • Jälgige uuendusi ACM-is (RenewalStatus) ja vastake ajastatud teadetele enne nende aegumist.
  • Tõlgendab EC2 kontrolle (süsteem, eksemplar, EBS) ja määratleb tegevused tõrgete korral.

Kontrollige AWS-i olekut

AWS-i toimimise või komistamise kontrollimiseks ei piisa ainult rohelise või punase tule vaatamisest: Peate läbima tervisepaneeli, reaalajas signaalid ja oma ressursside konkreetsed ülevaatedSelle kombineeritud lähenemisviisi abil teate, kas probleem on üldine, regionaalne või seotud teie enda taristuga, ning saate tegutseda ilma metsiku katsetuseta.

Selles juhendis jätan teile kõik hästi struktureeritud, et kontrollida AWS-i olekut päisega: AWS Healthi juhtpaneelilt ja selle integreerimisest EventBridge'iga, kuidas vaadata uuendamise olekut ACM-is, tõlgendada EC2 kontrolle ning reageerida CloudWatchi mõõdikute ja häiretega. Samuti saate teada, milliseid samme astuda, kui konsool keeldub laadimisest, kuidas kontrollida avalikku olekulehte ja miks on kolmandate osapoolte, näiteks Downdetector, kasulikud konteksti, aga mitte automatiseerimise jaoks.

AWS Healthi juhtpaneel: alguspunkt

AWS Healthi armatuurlaud kuvab katkestusi, aktiivseid sündmusi ja plaanilist hooldust, mis võivad teie teenuseid ja ressursse mõjutada. See on osa teie kontost, ei vaja seadistamist ja pakub kontekstuaalset nähtavust. selle kohta, mis toimub. Kui te pole konkreetsesse eksemplari või konsooli sisse logitud, on see esimene koht, kust otsida.

Üks detail, mis tihti ununeb: AWS on regionaalneValige tervisepaneeli valijast õige piirkond, sest vale piirkonna otsimisel võite teid mõjutava juhtumi märkamata jätta. See täpsus hoiab ära valediagnoosimise, kui probleem piirdub kindla geograafilise piirkonnaga.

Alates 2023. aastast, kui avatakse tervisepaneelil avalik üritus, Brauseri URL sisaldab sündmuse süvalinkiSee võimaldab teil jagada täpselt seda intsidenti, mida parajasti vaatate, või selle uuesti avada ja naasta samasse vaatesse, kus hüpikaken on laetud, hõlbustades meeskonnatööd intsidendi ajal.

Kui administraatori konsool ei avane või tagastab brauseri veateateid (nt 404), siis ära kiirusta sellega. Kõigepealt kontrollige, kas tervise armatuurlaual on asjakohane aktiivne sündmus.ja seejärel rakendage kohalikke meetmeid, näiteks tühjendage vahemälu ja kustutage küpsised, proovige mõnda muud brauserit ja veenduge oma IT-meeskonnaga, et teie võrk ei blokeeri Amazoni domeene (amazon.com ja alamdomeenid nagu aws.amazon.com).

Usaldusväärne sündmuste sisestamine: EventBridge on parem kui RSS

Tervisesündmustega on RSS-vooge, aga nende vorming võib aja jooksul muutuda ja teie integratsioonid katkestadaKriitiliste torujuhtmete puhul RSS-i kraapimine või sellele lootmine on pehmelt öeldes riskantne.

Tugev asi on integreerimine AWS Health koos Amazon EventBridge'igaNii saate sündmusi stabiilse skeemiga reaalajas ja valmis suunamiseks Lambdasse, järjekordadesse, teavitustesse või sisemistesse armatuurlaudadesse, luues oma juhtumite ahela ilma habraste osadeta.

EventBridge'iga saavutate jälgitavuse ja vastupidavuse: Saate vastuseid sildistada, rikastada, korreleerida ja automatiseerida olenevalt teenusest, piirkonnast või mõjust. Ja kui avaliku voo esitluse üksikasjad homme muutuvad, jääb teie integratsioon puutumata.

ACM: Vaadake sertifikaatide uuendamised üle ilma probleemideta

AWS Certificate Manageriga saate kontrollida, kas teie sertifikaate uuendatakse õigesti ja hallatud viisil. Sertifikaat on automaatseks uuendamiseks sobilik, kui see on seotud AWS-teenustega (näiteks ELB või CloudFront) või kui see on pärast väljastamist või viimast uuendamist eksporditud.See abikõlblikkus on käsitsi uuendamise unustamise nurgakivi.

Kui uuendamistsükkel algab, kuvab ACM sertifikaadi üksikasjades olekuvälja. Konsooli, API või CLI kaudu saate kontrollida uuendamise olekut. et teada oma olukorda. Samuti näete oma tervise juhtpaneeliga seotud asjakohaseid olekuid, kui on probleeme, mis vajavad teie tähelepanu.

Kui eelistate käske, teeb CLI selle lihtsaks: Toiming describe-certificate tagastab üksikasjad, sh uuendamise oleku.. Näiteks:

Näide: aws acm describe-certificate --certificate-arn arn:aws:acm:REGION:ACCOUNT:certificate/CERTIFICATE_ID

JSON-vastuses vaadake välja RenewalStatus. Kui see väli veel ei ilmu, pole ACM hallatud uuendamist algatanud.Hea mõte on ette planeerida: ACM püüab domeeni registreeringut automaatselt uuendada umbes 60 päeva enne aegumist ja kui midagi läheb valesti (näiteks domeeni valideerimine), Saate terviserakenduses teateid ette: 45, 30, 15, 7, 3 ja 1 päev.

Kui konsool ei lae: kiired ja tõhusad sammud

AWS-konsoolile juurdepääsu korral tekkivad 404 vead või ühenduse katkestused on tavaliselt lahendatavad. Alustage tervise juhtpaneeli ülevaatamisest piirkonnas, kus teie ressursid asuvad. et jätta kõrvale käimasolev sündmus, mis seda teenust või konsooli mõjutab.

Kui lahtisi intsidente pole, rakendage kohalikke meetmeid: tühjendage brauseri vahemälu ja küpsised, proovige sisse logida teise brauseriga ja kinnitage oma süsteemiadministraatoriga, et ettevõtte võrk ei blokeeri amazon.com-i ega alamdomeene, näiteks aws.amazon.com.

Probleem võib piirduda konkreetse ressursiga. Näiteks võib EC2 eksemplar olla plaanilisel hooldusel.ja tervisepaneel näitab sulle selle sündmuse akent ja mõju. Juurtasemele minek säästab sinu aega.

Samuti, kui teie konto on lukustatud, on alati hea mõte käepärast hoida abiartiklid: Loo ja aktiveeri uus konto, logi sisse konsooli või taotle abi.Nende juhendite leidmine vähendab stressirohketel aegadel ooteaega.

EC2 üksikasjalikult: olekukontrollid ja mida teha, kui need ebaõnnestuvad

Amazon EC2 teostab iga eksemplari kohta automaatseid kontrolle, et tuvastada teie rakendusi mõjutavaid platvormi- või tarkvaraprobleeme. Neid kontrolle tehakse iga minuti järel ja vastavalt tulemusele märgitakse need kas korras või kahjustatud olevat.Neid ei saa välja lülitada ja need on teie varajaseks hoiatuseks.

Igat tüüpi kinnitust toetavad CloudWatchi mõõdikud. Kui kontroll ebaõnnestub, tõuseb vastav mõõdik ja on aeg häirekella anda.Selle abil saate seisakuaja minimeerimiseks automatiseerida teateid ja toiminguid.

Süsteemikontrollid (alusplatvorm)

Need kontrollid jälgivad infrastruktuuri, kus teie eksemplar töötab. Kui need ebaõnnestuvad, on see tavaliselt platvormiprobleem, mis nõuab AWS-i sekkumist või meetmeid eksemplari teise hostisse teisaldamiseks..

EBS-i toetatud juhtudel on efektiivne tegutsemine peata ja käivita eksemplar, et see uude hostisse ümber paigutadaKui teie eksemplar kasutab eksemplaride salvestusruumi (Linux), saate valida lõpetamise ja asendamise, teades, et ajutised köited lähevad sulgemisel kaotsi.

Selle ebaõnnestumise näitaja on StatusCheckFailed_SystemSee sobib ideaalselt häirete jaoks, mis käivitavad tegevusraamatuid, automaatseks taastamiseks või tugiteenuse juhtumi avamiseks, kui olukord püsib.

Bare Metalil on üks eripära: Operatsioonisüsteemist taaskäivitamine võib ajutiselt põhjustada süsteemikontrolli vea.Kui eksemplar on taas töökorras, naaseb olek ilma edasise sekkumiseta OK-le.

Instanssikontrollid (ühenduvus ja tarkvara)

Need kontrollid analüüsivad eksemplari enda operatsioonisüsteemi ja võrgu tervist. EC2 valideerib ühenduvust, saates võrgukaardile ARP-päringuid, et kontrollida selle vastust.Siinne ebaõnnestumine nõuab tavaliselt teiepoolseid kohandusi.

Kui kontroll ebaõnnestub, on aeg tegutseda: Taaskäivitage eksemplar, kontrollige tulemüüri/iptables'i, süsteemilogisid ja veenduge, et võrk reageerib.Kui põhjuseks on tarkvara või konfiguratsioon, siis ootamisest ei piisa.

Jälgitav näitaja on StatusCheckFailed_InstanceKasutage seda häirete käivitamiseks, mis käivitavad diagnostilisi protseduure (logide kogumine, kontrollitud taaskäivitused või tagasipööramised, kui tuvastate, et see ei taastu).

Jällegi võib Bare Metalis operatsioonisüsteemist taaskäivitamisel ilmneda ajutine tõrge. Kui eksemplar on käivitamise lõpetanud, naasevad kontrollid tavaliselt väärtusele OK., seega ärge paanitsege.

EBS-i lisatud kontrollid (mahtude sisend/väljund)

Need kontrollid kinnitavad, kas lisatud EBS-köited on ligipääsetavad ja kas nendega saab sisend-/väljundtoiminguid teha. Binaarmõõdik StatusCheckFailed_AttachedEBS näitab halvenemist ühe või mitme köite rikke korral..

Sellel rindel olev viga võib olla tingitud arvutusprobleemidest või EBS-i probleemidest. Võite oodata AWS-ilt leevendust või võtta meetmeid: Asendage köited, peatage ja käivitage eksemplar, et see teise hostisse teisaldada, või vaadake üle IOPS-i suurus, kui märkate kitsaskohti.

Kui teie koormus ei tee sisend-/väljundvõimsust, kuid ilmneb halvenemine, Peatamise ja käivitamise tsükkel saab lahendada hostimisprobleeme, mis mõjutavad köite ligipääsetavust.Täiendage CloudWatchi natiivsete EBS-i mõõdikutega, et tuvastada halbu jõudlusmustreid.

Automaatse skaleerimise rühmades konfigureerige poliitika järgmiselt: Eemaldage lisatud EBS-kontrollis püsivate tõrgetega eksemplaridHoiate oma masinapargi töökorras ilma käsitsi sekkumiseta ja väldite pikki seisakuid.

Alarmid ja automatiseerimine: CloudWatch + automaatne skaleerimine

Kõigi tervisenäitajatega saab CloudWatchist teie närvisüsteem. Määrake läviväärtused, looge alarme ja korraldage toiminguid: teavitused, Lambda, eksemplari taastamine või asendamineSee on automaatsete ja järjepidevate reageeringute alus.

Kui vajate äritegevuse järjepidevust, kaaluge järgmiste kohtade automatiseerimist ja asendamist: Automaatne skaleerimine saab ebaõnnestunud eksemplare kustutada ja uusi käivitada, samal ajal kui teie alarmid aktiveerivad vastavad teavituskanalid (e-post, Slack, PagerDuty või mis iganes te kasutate).

Täielik ülevaade pärineb korreleerivatest allikatest: CloudWatchi mõõdikud ja logid, jäljed ning AWS Healthi sündmused EventBridge'i kauduSelle paani abil saate eristada, kas probleem on teie rakenduses, eksemplaris, köites või platvormis, ja saate täpselt reageerida.

Ametlikud ja kontekstuaalsed allikad, mis aitavad teada saada, kas AWS ebaõnnestub

Kui levivad kuuldused kukkumisest – nagu siis, kui AWS-i globaalne katkestus mis põhjustas tohutuid ebaõnnestumisi –, on ideaalis eelistada ametlikke allikaid. Teenuse ja piirkonna oleku nägemiseks vaadake avalikku lehte status.aws.amazon.com.ja kui olete kontopõhise teabe saamiseks sisse logitud, kasutage AWS Healthi armatuurlauda.

Kolmandate osapoolte allikad pakuvad täiendavat sotsiaalset konteksti ja signaale. Downdetector kajastab kasutajaaruannete järsku suurenemist ja The Stack Status võtab kokku mitme pakkuja staatuse.Need on kasulikud ulatuse hindamiseks, kuigi need ei asenda ametlikke kanaleid.

Siiski eristab see nähtavust ja automatiseerimist. Programmilise sündmuste sisestamise jaoks on EventBridge parem kui RSS-kanalid või andmete kraapimine., sest välised vormingud võivad muutuda ja jätta teid keset intsidenti.

Kui suured langused avalduvad ja mida võite oodata

Suuremad intsidendid kipuvad koonduma tihedalt kasutatav piirkondadesse (näiteks USA idarannikule) ja Mõju on tunda ahelates: salvestusruumis, arvutustes, andmebaasides või DNS-isPole haruldane näha selliseid teenuseid nagu S3, EC2, RDS, Route 53 või Kinesis nende hulgas, mida veapiigid mõjutavad.

Sellistel juhtudel võivad voogedastusettevõtted, koostöövahendid, e-kaubandus või mobiilirakendused kogeda latentsust, autentimisvigu ja vahelduvaid tõrkeid. Muster on ebaühtlane: mõne kasutaja jaoks see toimib, teiste jaoks mitte., vastavalt marsruutidele, kohalolekupunktidele ja aktiivsetele piirkondadele.

Ametlikud kanalid avaldavad tavaliselt regulaarselt värskendusi: Põhjuse esialgne tuvastamine (nt DNS-i lahendamise probleemid API-s), leevendusmeetmete juurutamine ja uuesti proovimise soovitusedTaastumise edenedes vead vähenevad ja liiklus normaliseerub.

Teatud riikides või sektorites näete pealkirju konkreetsete mõjutatud teenuste kohta. See võib mõjutada selliseid platvorme nagu Netflix, Disney+, Slack, pangad või väga populaarsed rakendused kui piirkond, millest nad sõltuvad, kannatab, ja isegi Ladina-Ameerika ettevõtted (näiteks iFood, Mercado Livre või PicPay varasemates intsidentides) on seda värinat tundnud.

Kukkumise majanduslik ja mainemõju

Lisaks tehnilisele poolele on pilveteenuse katkestusel ka reaalne hind: Kaod minutis, ülekoormatud tugi, pettunud kliendid ja meediasurveVõrguefekti võimendab interneti teatud sammaste tsentraliseerimine.

Kriitilisi teenuseid pakkuvad organisatsioonid teavad seda liigagi hästi: Kui ebaõnnestumised korduvad, siis usaldus kaob ja brändi kuvandi taastamine maksab rohkem kui tehniline remont ise.

Need kriisid toovad lauale ilmse, kuid ebamugava õppetunni: Me sõltume suuresti jagatud infrastruktuuristVastupidavuse ja realistlike rikke eelduste arvestamine projekteerimisel ei ole enam valikuline.

Strateegiad järgmise intsidendi suhtes vastupidavamaks olemiseks

Kui teie ettevõtet ei saa sulgeda, on olemas taktikaid, mis vähendavad operatsiooniriski. Kaaluge mitme piirkonna arhitektuuri kasutamist koormuse jaotamiseks erinevate AWS-tsoonide vahel. ja vältida ühte geograafilise rikke punkti.

Kui kasutusjuhtum seda õigustab, hinnake mitme pilve kasutamist. Põhifunktsioonide levitamine teisele pakkujale (Azure, GCP) annab teile turvavõrgu., kuigi see toob kaasa suurema keerukuse ja koordineerimiskulud.

Tarnekihis aitab hästi konfigureeritud CDN tormidega toime tulla. Teenused nagu CloudFront või alternatiivid nagu Cloudflare võimaldavad teil pakkuda staatilist sisu isegi siis, kui teie päritolu komistab., andes kasutajatele ja süsteemidele puhkust.

Miski sellest ei toimi ilma organiseerimiseta: Määrake intsidendile reageerimise plaan koos rollide, kanalite, eskalatsiooni ja välise suhtlusegaKuumal hetkel säästab selgus väärtuslikke minuteid.

Parimad tavad AWS-i oleku kontrollimiseks ilma eksimata

Jälgitavuse tsentraliseerimine: Kasutage platvormi konteksti jaoks AWS Healthi juhtpaneeli ja operatiivsete mõõdikute jaoks CloudWatchiSee kahetine lähenemine hoiab ära ühegi kihi poolt ootamatult tabamise.

Sertifikaatidega automatiseeri. Jälgige uuendamise olekut ACM-is ja reageerige eskaleeruvatele teadetele tervise armatuurlaual et mitte vale jalaga aegumiskuupäeva kätte jõuda.

Määrake EC2 peamiste näitajate alarmid. StatusCheckFailed_System, StatusCheckFailed_Instance ja StatusCheckFailed_AttachedEBS on olulised., mis on seotud taastamise, taaskäivitamise, tõrkesiirde või asendustoimingutega automaatse skaleerimise kaudu vastavalt teie teenusetaseme lepingule.

Ja kui konsool vastu hakkab, pidage meeles kontrollnimekirja: Kontrolli tervisesündmusi õiges piirkonnas, tühjendage vahemälu ja küpsised, vahetage brauserit ja kinnitage IT-osakonnaga, et AWS-domeenid pole blokeeritud. Need lihtsad kontrollid lahendavad rohkem probleeme, kui arvate.

Seotud ressursid ja konto abi

Oma tegevuse laiendamiseks ja tugevdamiseks vaadake üle asjaomaste teenuste dokumentatsioon. AWS Health ja EventBridge sündmuste marsruutimiseks, ACM uuenduste jaoks ning CloudWatch/EC2 viide mõõdikute ja toimingute jaoks., moodustavad võimsa komplekti.

  • AWS Healthi juhtpaneelAvalike ja kontopõhiste sündmuste nähtavus ilma täiendava konfigureerimiseta.
  • Amazon EventBridgeTervisesündmuste usaldusväärne sisestamine paindlike reeglitega mitmesse sihtkohta suunamiseks.
  • AWS-i sertifikaadihaldur (ACM)Pikendamise staatuse jälgimine ja ajastatud teated enne aegumist.
  • Amazon EC2 + CloudWatchKontrollide arv minutis, oleku mõõdikud ja alarmid, mis käivitavad automaatsed vastused.

Kui teil on kontole juurdepääsu või selle haldamise kohta küsimusi, lugege palun kõige levinumaid tugiartikleid: Kuidas luua ja aktiveerida uut kontot, kuidas konsooli sisse logida ja kuidas oma konto ja ressurssidega abi taotleda.Nende leidmine kiirendab protsessi, kui midagi ei sobi.

Ühe paneeli vaatamine ei räägi kunagi kogu lugu: AWS-i tervise kontrollimiseks on vaja kombineerida tervise armatuurlaua konteksti, usaldusväärset EventBridge'i sisestamist, ACM-signaale ja EC2-kontrolle.Läbimõeldud häirete ja selgete tegevuskavade abil saabuvad diagnoosid kiiremini, vastused on täpsemad ja toimingud muutuvad palju sujuvamaks isegi liikluse suurenemise või piirkondlike rahutuste korral.

Amazon Web Services (AWS) on ülemaailmselt maas.
Seotud artikkel:
Globaalne AWS-i katkestus põhjustab ulatuslikke veebisaitide, rakenduste ja maksete katkestusi