Bei Fleetondemand basiert unser Engagement für einen erstklassigen Kundenservice auf einer soliden technologischen Infrastruktur. Hinter den Kulissen sorgt unser DevOps-Team dafür, dass unsere Plattform rund um die Uhr reibungslos funktioniert, sodass unsere Kundenteams den außergewöhnlichen Service bieten können, der uns einen NPS-Wert von 75 für die Kundentreue eingebracht hat (wobei ein Wert von über 70 als erstklassig gilt).
Wir haben uns mit Stefan Oliwa, unserem DevOps-Leiter, zusammengesetzt, um zu verstehen, wie sich die Arbeit seines Teams in den Bereichen Infrastruktur, Sicherheit und Automatisierung direkt auf die Zuverlässigkeit und Qualität der Dienstleistungen auswirkt, die unsere Kunden täglich erleben.
Sie sind nun seit fast einem Jahr als DevOps-Leiter bei FOD tätig. Erzählen Sie uns etwas über Ihre Aufgaben und die aktuellen Projekte, an denen Sie beteiligt sind.
Als Infrastrukturingenieure sind wir operative Mitarbeiter, was bedeutet, dass wir jede Situation abdecken müssen. Wenn ein Problem auftritt oder etwas beschädigt ist, lautet das Hauptprinzip unserer Arbeit (das ich immer als „Regen-Szenario” bezeichne): Wenn etwas repariert werden muss und wir wieder bei Null anfangen, wie kann unsere Infrastruktur dann automatisch wiederhergestellt werden, ohne Zeit zu verschwenden? Pragmatische Lösungen sind von entscheidender Bedeutung.
Wir müssen Backup-Richtlinien und die Sicherheit aus jedem Blickwinkel überwachen. Wenn wir den Begriff „Infrastruktur“ verwenden, meinen wir damit all die logischen Teile, die zusammenwirken. Wir überwachen, wie eine Komponente mit anderen zusammenarbeitet. Wir sind auch DevOps (Development Operations), was bedeutet, dass wir in allem mittendrin sind.
Wenn Sie ein Diagramm für DevOps erstellen, werden Sie zwei wichtige Aspekte erkennen. Erstens verbessern wir kontinuierlich das, was wir aufgebaut haben – wir beenden eine Aufgabe nie wirklich. Zweitens sind wir eine Brücke zwischen Teams mit unterschiedlichen Zielen. Das Entwicklungsteam möchte beispielsweise immer neue Funktionen, das ist ihr Hauptziel.
Für Infrastrukturingenieure ist Stabilität das Wichtigste. Wir konzentrieren uns stets auf Sicherheit und Stabilität. Darüber hinaus haben wir Stakeholder, die neue Initiativen planen möchten, und wir befinden uns in der Mitte, verwalten dieses Feedback und versuchen, eine Lösung zu finden, die all diese Anforderungen erfüllt.
Wenn etwas repariert werden muss und wir wieder ganz von vorne anfangen müssen, wie kann unsere Infrastruktur dann automatisch wiederhergestellt werden, ohne Zeit zu verschwenden? Pragmatische Lösungen sind von entscheidender Bedeutung.
Sie wurden kürzlich für Ihre Arbeit bei AWS für unseren Wert „Be Disruptive” auf HiBob nominiert. Was war damit verbunden und wie haben Sie unsere Infrastruktur verändert?
Als ich im November letzten Jahres zu FOD kam, sah ich Möglichkeiten, unsere Infrastruktur zu modernisieren und Cloud-native Best Practices einzuführen. Es gab Diskussionen über die Migration zu einer moderneren Architektur, und als ich den AWS DevOps-Plan überprüfte, arbeitete ich eng mit Matt Heald und Dan Metcalfe zusammen, um eine klare Roadmap mit spezifischen Kennzahlen und definierten Best Practices zu entwickeln.
Eine der ersten Möglichkeiten, die ich identifiziert habe, war die Implementierung einer umfassenden Beobachtbarkeit. Bisher erforderte die Fehlerbehebung einen manuellen Zugriff auf den Server und die Überprüfung von Dateien, was sehr zeitaufwendig war. Ich wusste, dass wir das besser machen konnten. Der richtige Ansatz besteht darin, auf Dashboards zugreifen zu können, schnell durch die Systeme zu navigieren und in Echtzeit zu verstehen, was gerade passiert.
Ich habe den ersten Prototyp für die Beobachtbarkeit entwickelt, den wir nun täglich in unseren Überwachungssystemen einsetzen. Während der Weihnachtszeit habe ich begonnen, unseren Migrationsplan auszuarbeiten. Im Januar kamen wir zu dem Schluss, dass wir uns eher auf einen gezielten Ansatz als auf eine Ad-hoc-Lösung konzentrieren sollten.
In den folgenden zwei bis drei Monaten erstellte ich einen umfassenden Migrationsplan, entwickelte unsere Strategie zur Datenbankkontinuität und arbeitete eng mit unserem Direktor für Informationssicherheit, Dan, zusammen, um sicherzustellen, dass wir alles ordnungsgemäß dokumentierten und richtig machten.
Wir haben die Migration in beeindruckenden acht Wochen abgeschlossen. Das war ein ehrgeiziges Ziel, aber wir haben es erreicht. Dazu mussten wir die Altsysteme sorgfältig aktualisieren und Lücken in unserer Infrastruktur schließen.
Anfang nächsten Jahres werden wir auf unsere V2-Architektur umsteigen, und die GT Suite-Produktion wird vollständig auf dieser neuen Architektur etabliert sein.
Der richtige Ansatz besteht darin, auf Dashboards zugreifen zu können, schnell durch Systeme zu navigieren und in Echtzeit zu verstehen, was gerade passiert.
Was ist der Vorteil dieser neuen Infrastruktur für unsere Teams?
Sie melden sich einfach bei dem System an, in dem Sie Dashboard-Visualisierungen haben, und können Ihre Protokolle einsehen, die innerhalb von Sekunden zurückgegeben werden. Ich habe zuvor Feedback erhalten, in dem jemand sagte, dass diese Verbesserung für uns eine große positive Veränderung bedeutet, da man nun Tests lesen und in der Vorschau anzeigen, Experimente durchführen und Fehler leicht überprüfen kann.
Als ich dies Dave aus der Backend-Entwicklung zeigte, meinte er, dass dies für ihn und sein Team eine bahnbrechende Neuerung sei. Deshalb betrachte ich mich selbst als disruptiv. Etwas, worüber alle reden und nur träumen, habe ich im Büro umgesetzt und so erledigt, wie es getan werden musste.
Wie wirkt sich die Funktionalität unserer Technologie aus Kundensicht aus? Inwiefern hängt Ihre Arbeit mit dem Serviceniveau zusammen, das unsere Kunden erhalten?
Aus Kundensicht gilt zunächst einmal: Wenn wir ein Problem mit der Plattform haben, können wir es in weniger als 30 Minuten beheben, nicht in Tagen oder Wochen. Zweitens sind wir flexibel, wenn unsere Kunden bestimmte Anforderungen an die Datenspeicherung in ihrer Region haben. Wir können die aktuelle Infrastruktur in einer halben Stunde neu aufbauen, alle wesentlichen Komponenten erstellen und innerhalb einer Stunde alles bereitstellen. Das ist für die Flexibilität unserer Kunden von enormer Bedeutung.
Hinzu kommt die Ausfallsicherheit. Wir hatten einige Situationen, in denen etwas dringend Aufmerksamkeit erforderte, aber es hat sich von selbst behoben. Unsere Container befinden sich in zwei verschiedenen Rechenzentren, die rund um die Uhr miteinander kommunizieren. Als das System ein Problem erkannte, haben wir unsere Ressourcen automatisch in das andere Rechenzentrum in London verlagert. Dies geschah die ganze Zeit im Hintergrund, sodass unsere Kunden keine Unterbrechungen bemerkten.
Aus Kundensicht gilt: Wenn wir ein Problem mit der Plattform haben, können wir es in weniger als 30 Minuten beheben, nicht in Tagen oder Wochen.
Könnten Sie erklären, was Modularität in Bezug auf unsere Infrastruktur bedeutet? Ich weiß, dass dies ein wichtiger Aspekt Ihrer Arbeitsweise ist.
Es ist wie das Bauen mit Legosteinen. Wenn wir heute Infrastruktur beschreiben, geben wir tatsächlich Befehle ein. Das nennt man „Infrastructure-as-Code”. Alles wird durch Variablen gesteuert: wie leistungsfähig die Recheninstanz sein soll, wie viel Speicherplatz benötigt wird, welche IP-Adressen miteinander kommunizieren können. Das ist die Art von Modularität, von der wir sprechen.
Es funktioniert auch wie eine Vorlage, mit der Sie einen Teil einer Vorlage ändern oder separat von anderen Komponenten erweitern können. Sie können etwas in einem Bereich ändern, ohne dass dies Auswirkungen auf alles andere hat. Das macht unsere Infrastruktur unglaublich flexibel und wartungsfreundlich.
Flottendaten sind streng vertraulich. Wie gewährleisten wir die Sicherheit der Daten unserer Kunden?
In meiner früheren Position als Mitarbeiter eines NHS-Managers habe ich wichtige Lektionen zum Thema Sicherheit gelernt. Ich habe ihn nach der Datensicherheit zwischen Hausärzten gefragt, und er hat bestätigt, was ich schon immer geglaubt habe: Wirklich sicher sind nur Daten, die offline bleiben und nicht über das Internet zugänglich sind.
Das hat mich zum Nachdenken über unseren Sicherheitsansatz gebracht. Wenn Sie Zugriff auf etwas benötigen, das Ihnen Änderungen ermöglicht, sollte dies nach dem Prinzip der geringsten Privilegien erfolgen, wobei bestimmten Personen nur für einen begrenzten Zeitraum Zugriff gewährt wird.
Diese Berechtigungen erfordern eine robuste Authentifizierung, ähnlich wie bei der Zwei-Faktor-Authentifizierung beim Einloggen in Ihr E-Mail-Konto. Wir haben uns von der veralteten Art der Verbindung zu Servern verabschiedet und stattdessen geeignete Authentifizierungsprotokolle implementiert.
Zweitens vertrauen wir AWS in puncto Sicherheit, da es hervorragende Arbeit leistet und das Vertrauen von Technologiegiganten, Finanzinstituten und Streitkräften genießt. Wie bei allen Sicherheitslösungen muss jedoch auch hier die Leistung kontinuierlich überwacht und bewertet werden.
Deshalb verschlüsseln wir alles, was wir in AWS speichern. Jede Komponente sollte verschlüsselt werden. Außerdem sorgen wir für eine möglichst weitgehende Isolierung zwischen verschiedenen Systemen und Daten.
Es ist wie das Bauen mit Legosteinen. Wenn wir heute Infrastruktur beschreiben, geben wir tatsächlich Befehle ein. Das nennt man „Infrastructure-as-Code“ ... Man kann etwas in einem Bereich ändern, ohne dass dies Auswirkungen auf alles andere hat. Das macht unsere Infrastruktur unglaublich flexibel und wartungsfreundlich.
Haben Sie Pläne für die nächsten 12 Monate und anstehende Projekte?
Mein Hauptziel bei Entwicklungsprojekten (und ich unterstütze dies auch in anderen Unternehmen) ist es, Situationen zu vermeiden, in denen ein Kunde zu uns kommt und sagt, dass etwas nicht funktioniert. Indem wir dafür sorgen, dass dies nicht passiert, erreichen wir eines unserer wichtigsten Ziele als Unternehmen, nämlich die Bereitstellung eines zuverlässigen und konsistenten Service.
Netflix ist hier meine Inspiration. Ich erinnere mich, dass ich sie einmal wegen eines Problems angerufen habe. Sie nahmen den Anruf in weniger als zwei Minuten entgegen und sagten: „Guten Tag, Stefan, wie kann ich Ihnen helfen?“ Ich wollte mein TV-Problem erklären, aber sie sagten: „Wir sehen, dass Sie ein Problem mit der Ladezeit haben.“ Sie kannten das genaue Problem und empfahlen sofort eine Lösung.
Ich liebe es, wenn ein Kunde anruft und wir sagen können: „Wir wissen, dass Sie dieses Problem haben, und unser Techniker arbeitet bereits daran.“ Das ist ein riesiger Unterschied. Mein Ziel ist es, Tools für den technischen Support zu entwickeln, mit denen die Mitarbeiter die Kunden-ID und alle Fehler am Endpunkt sehen können, damit sie bestens darauf vorbereitet sind, mit welchen Problemen jemand zu kämpfen hat und wie sie diese lösen können.
Ich erwäge sogar, dies mit KI zu kombinieren, damit unser technischer Support automatisch E-Mails generieren kann, die für Nicht-Techniker leicht verständlich und auf die jeweiligen Empfänger zugeschnitten sind.
Ich liebe es, wenn ein Kunde anruft und wir sagen können: „Wirwissen, dass Sie dieses Problem haben, und unser Techniker arbeitet bereits daran.“ Das ist ein riesiger Unterschied.
Haben Sie in Ihrer derzeitigen Position oder zuvor viel mit KI gearbeitet?
KI ist derzeit sehr angesagt, aber ich beschäftige mich schon seit Jahren damit. Ich habe sogar ein großes Sprachmodell entwickelt, das Bilder hochskaliert. Ich bin ein großer Fan dieser Technologie, und seit NVIDIA begonnen hat, diesen Bereich voranzutreiben, habe ich mir Beschleuniger gekauft und in meiner Freizeit mein Wissen über KI erweitert.
Ich erinnere mich, dass mein IT-Professor in der High School mich fragte, warum ich nicht an seinem Unterricht teilnahm. Ich sagte ihm, dass er eine Sprache unterrichtete, die keine Zukunft habe. Am Ende des Jahres bat er mich, etwas mit in den Unterricht zu bringen, um mein Wissen unter Beweis zu stellen. Die Leute dachten, ich würde nicht bestehen, aber ich erhielt die höchstmögliche Punktzahl. Mein Lehrer sagte vor der Klasse: „Wenn jemand Stefans Note in Frage stellt, werde ich alle eure Noten in Frage stellen“, weil er wusste, dass ich das richtige Projekt erstellt hatte.
Das Gleiche sage ich meiner sechsjährigen Tochter über IT und traditionelle Sprachen. Ich werde ihr zeigen, was man mit großen Sprachmodellen und deren Implementierungen machen kann. Ich möchte, dass sie sich mit modernster Technologie auskennt und nicht mit dem, was ich als veraltete Technologie betrachte, die in zehn Jahren nicht mehr anwendbar sein wird, wenn sie IT-Spezialistin werden möchte.
Bauen für die Zukunft
Stefans Arbeit zeigt, wie moderne Infrastruktur und DevOps-Praktiken direkt den außergewöhnlichen Kundenservice ermöglichen, der Fleetondemand auszeichnet. Durch den Aufbau robuster, sicherer und automatisierter Systeme stellt sein Team sicher, dass unsere Plattform die Zuverlässigkeit bietet, auf die sich unsere Kunden verlassen können, und trägt so direkt zu dem erstklassigen NPS-Wert bei, auf den wir sehr stolz sind.
Wenn die Infrastruktur im Hintergrund reibungslos funktioniert, können sich unsere Kundenteams voll und ganz darauf konzentrieren, einen hervorragenden Service zu bieten. Das ist die Stärke einer soliden technischen Grundlage.





