Lite struligt


Varenda gång jag vaknade i natt och snabbtittade på telefonen såg jag att jag fått ännu fler mejl om misslyckades backuper, …

Nya medicinen gör mig bra groggig, men till slut gick jag upp runt 04:30 och började felsöka och rätta till.

  • 2 servrar gick inte ens att pinga och fick logga in via konsolen och starta om, innan jag gjorde host refresh så att backuperna kunde komma igång igen.
  • 2 kluster hade larmat med. Ena var visserligen tom på roller (inga AG och har inte börjat användas än), . Den fick jag ta upp. Den andra hade tappat sitt klustervittne och gjort failover på en AG. Den var redan uppe.
  • Transloggsbackupen hade fastnat för 2 databaser i 2 olika AG och miljöer.
    Det tuggar på samma backup i 2 timmar tills det bryts, nästa backup startar och fastnar i 2 timmar, … ända tills jag kapar den gren den sitter på genom att starta om servern, eller SQL server tjänsten (overkill!) eller göra failover på det AG som backupen fastnat för för.
    Det har hänt 17 gånger sedan augusti. Är 100 på att det har hänt flera gånger, men jag inte dokumenterat det i september!
    Tittar man på det som varit gemensamt för alla 17 gångerna så har det hänt (flest gånger) under eller i anslutning av VM-backup.
    AG får en hicka (inte så pass att det gör failover) och tappar kontakten med en eller flera av sina sekundära replikor.
    Tappar AG tappar kontakt med sekundära replikan/replikor som bryts backupen. Backup ska tas på primära replikan och backupsystemet tänker att ”vänta är det failover på G? Då ska jag inte backa den här replikan”.
    Men i dessa 17 fall så fastnar backup på en av databaserna i AG. Detta trots att hickan var minuten innan backup startades på den databasen. I ett fall var hickan 5 minuter (6 minuter idag) innan backupen startades.

    Min teori är att systemet ser att AG tappar kontakt med sekundära replikan/replikor och låser sig, I de flesta fall medan vm-backup en gått.

    Men dessa fall istället för att backupen bryts och försöker senare, så står den och tuggar i 2 timmar, avslutar jobbet, nästa jobb startar och tuggar i 2 timmar , bryter backupen, startar och tuggar i i2 timmar till, … ända tills någon jag stoppar den ondra cirkeln och gör failover.

    Jag gör först failover till annan replika, väntar tills allt synkas och gör ett failover tillbaka till samma replika. Gör jag ett dubbel failover så misslyckas inte backuperna på de andra databaserna i det AG:t och nästa backup på felande databas kan startas direkt och gå igenom.

    Så jag får skapa nytt ärende hos leverantören och lämna all logg, skärmdumpar, … så jag samlat. Det kan förstås vara annat som är orsaken (än hickan och vm-backupen), men de får vi komma fram till tillsammans. Hur som helst är det en bugg tycker jag. OK att första backupen fastnar, men inte de andra som följer efter!

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com-logga

Du kommenterar med ditt WordPress.com-konto. Logga ut /  Ändra )

Google-foto

Du kommenterar med ditt Google-konto. Logga ut /  Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut /  Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut /  Ändra )

Ansluter till %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.