AG strul


Även idag var det strul i AG, denna gången var det 8 AG lokaliserad på 2 olika kluster i lab-miljön.

Typ 850 mejl, mycket larm att transloggsbackuper inte kunde tas, alla dessa hade visserligen inte med dessa att göra, men ändå. Stängde av notifiering på telefonen för att slippa höra det. Det räckte att höra att damp ner i inkorgen!

Det som strulade var listeners ip. Där hade jag inte satt fast ip, utan dynamiskt.

Då det var labbmiljö så passade jag på att testa hur jag kan lösa problemet, om det händer igen, på de få ställen jag valt dhcp.

  • Kan man ta bort AG som jag hade tänkt göra? Listenern gick ju inte att ta bort och skapa på nytt. Visst AG kunde man ta bort, men det ledde till alla databaserna i AG blev korrupta och icke nåbara.
  • Kan man ta bort en databas från AG, innan AG tas bort? Bara dess sekundera replika kunde man koppla bort synkningen av. Det gick inte att koppla bort databasen.
  • Omstart av servern förvärrade det hela. På en av noderna på ett kluster var databaserna nåbara. Inte efter omstart inte. Allt var korrupt. Det verkar så att trots att den sa att AG inte funkade, så funkade vissa saker. Den försökte säkert göra failover till databaser som var korrupta, och då sket det sig rejält.
  • Ska jag starta om dhcp tjänsten? Tja, det är bara att testa. Utslängd från burken efter ett tag och gick ej att logga in! Loggade in via konsolen, men nä. Provade på att starta om burken. Nä, det gick inte att logga in med rdp. Startade om burken en gång till och då gick att köra rdp. Listeners och rollerna gick inte att starta om. På ping svarade den inte heller.
  • OK. Då är det bara att riva AG då. Var på primära replikan och tog bort AG. Då försvann den från den passiva replikan med 😮 Så den hade kontakt i alla fall! Så då rensade jag ett kluster från alla AG och alla databaser som fanns tidigare i AG. Hade jag kollat aktivitet/skriptat så hade jag sett att de hade kontakt, även om dashboard, … visade annat.
  • Kan man klicka på statiskt för att sedan klicka tillbaka på dhcp och klicka på verkställ? Japp, fast det hjälpte inte.
  • Till slut så var 7 av 8 AG och dess databaser borta och bara en kvar.
  • Satte fast ip på kvarvarande AG och tog upp den i klustert. Rullade på fint! Fick göra resume på synkningen i och med att jag hade varit och pillat på den tidigare.

Så den enda lösningen är att ändra till fast ip om detta händer!

Man undvika att använda dhcp från början! Har 3 AG som behöver ändras till fast ip. 2 i test och en i prod. Får ändra det om det detta händer även där, eller ta det utanför kontorstid, i prod i alla fall. Det blir ju en (lite längre) hicka.

Men jag är bra nyfiken varför det har börjat hända nu och vad det är som hänt.

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut /  Ändra )

Google-foto

Du kommenterar med ditt Google-konto. Logga ut /  Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut /  Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut /  Ändra )

Ansluter till %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.