Die neusten Data Science Studentenprojekte von der Klasse #14

von Badru Stanicki

Data Science Studentenprojekte Klasse #14

CodeNotary: AIOps - Serverkosten senken mit maschinellem Lernen

Studenten: Gianluca MacaudaMaritsa Norton Oleson

Vereinfachte NUMA-Server-Architektur
Mit zunehmender Abhängigkeit von digitalen Plattformen stellen immer mehr Organisationen - von Banken bis hin zu Regierungseinrichtungen - fest, dass ihre Betriebskosten durch falsch konfigurierte Servereinstellungen aufgehen. CodeNotary stellt das Fachwissen bereit, um diese Probleme zu beheben, aber die Investition von Ressourcen im Vorfeld ist schwer zu priorisieren, wenn es keine kommerziell verfügbare Methode zur Abschätzung der erwarteten geschäftlichen Auswirkungen gibt. Maritsa Norton und Gianluca Macauda haben ein Tool entwickelt, das VMware NUMA-Anwendern bei dieser Entscheidung helfen soll, indem es die Auswirkungen von Konfigurationsänderungen auf die Performance von Serversystemen prognostiziert.
 
In diesem Projekt hatten unsere Studenten Zugang zu einer einzigartigen Datenquelle, die von CodeNotary bereitgestellt wurde. Sie richteten eine Infrastruktur für die Datenverarbeitung ein und prognostizierten die Server-Effizienz basierend auf den Konfigurationseinstellungen des Servers und historischen Nutzungsmustern. Ihre Pilot-Regressionsmodelle sagten die Auswirkungen bekannter Konfigurationsänderungen auf hochgradig ineffiziente Systeme innerhalb von 82-92% der tatsächlichen Ergebnisse voraus. Dies legt den Grundstein für Anwendungen, die es Unternehmen ermöglichen, die Auswirkungen von Konfigurationsänderungen mit grösserer Sicherheit zu quantifizieren.

Graphische Wochenübersicht
 
Abb. 2: Reale (blau) versus vorhergesagte (rot) Ineffizienzen auf wöchentlicher Basis. Jeder Wert auf der x-Achse ist eine einzelne virtuelle Maschine auf Wochenebene. Die Ineffizienzen auf der y-Achse sind als gemittelter Remote-Speicher (in Prozent des Gesamtspeichers) dargestellt. Je höher die Werte sind, desto ineffizienter läuft eine virtuelle Maschine. Vorhersagen werden durch ein optimiertes Random Forest Regressionsmodell getroffen.
 
 

SPI: Impulsing Social Progress

Studenten: Gilda Fernandez-Concha Jahnsen, Lena Rubi, Céline C.
 
Wir neigen dazu, den Erfolg eines Landes mit dem Wirtschaftswachstum in Verbindung zu bringen und gehen davon aus, dass Wirtschaftswachstum und sozialer Fortschritt zusammengehören. Der Social Progress Index (SPI) wurde als Alternative zum BIP geschaffen, um den sozialen Fortschritt eines Landes zu messen. Der SPI ist ein Rahmenwerk, das mit den Zielen für nachhaltige Entwicklung der Vereinten Nationen verknüpft ist und sich aus mehreren Indikatoren zusammensetzt, die sich in drei Dimensionen unterteilen lassen: menschliche Grundbedürfnisse, Grundlagen des Wohlbefindens und Chancen.
 
In diesem Projekt arbeiteten Gilda, Lena und Céline mit der Social Progress Imperative Foundation zusammen, die einen Datensatz von 52 Indikatoren, die zur Berechnung des SPI verwendet werden, für mehr als 160 Länder über die letzten zehn Jahre (2011-2020) zur Verfügung stellte. Sie wendeten unüberwachtes maschinelles Lernen an, um ähnliche Ländergruppen zu finden, die auf ihrem sozialen Fortschritt basieren. Dies ermöglicht die Ableitung einer Liste von Ländern, die einem bestimmten Land am ähnlichsten sind, eine Funktionalität, die nun auf der SPI-Webseite hinzugefügt werden kann.
 
Mittels Dimensionalitätsreduktion haben sie die 52 Dimensionen, die SPI zur Verfügung stellt, auf eine viel kleinere Menge von Schlüsselmerkmalen abgebildet, die es erlauben, Ähnlichkeiten und Unterschiede zwischen Ländern direkt zu visualisieren. Zu diesem Zweck erstellten sie interaktive und benutzerfreundliche Visualisierungen, die es den Stakeholdern einer Gesellschaft ermöglichen, mit den vom Social Progress Imperative bereitgestellten Daten zu interagieren. 

computed clusters for 2020


Sihl: erweiterte Cashflow-Prognose 

Studenten: Ferdinand Limmer, Raoul Steiger, Thomas Massie
 
Viele Unternehmen tun sich schwer damit, ihre unmittelbar verfügbaren finanziellen Mittel für die nahe Zukunft vorauszusehen. Wie viel Bargeld haben wir? Wie viel können wir ausgeben? Wenn man in der Lage ist, gut informierte Prognosen darüber zu erstellen, was passieren könnte, kann man vernünftig planen. Dies ist generell wichtig, aber noch mehr in Zeiten hoher Unsicherheit wie der noch andauernden Covid-19-Pandemie.
 
Thomas, Ferdinand und Raoul halfen der SIHL-Gruppe, einem KMU mit Sitz in Ostermundigen (BE, Schweiz), bei der Analyse ihrer Geschäftsdaten, um erstens historische Cashflows zu rekonstruieren und zweitens den nahen (1-3 Monate) und fernen (>3 Monate) zukünftigen Cashflow auf der Basis sowohl historischer Daten als auch des abrufbaren Cashflows (d.h. des erwarteten Cashflows aufgrund von z.B. Zahlungen, von denen bekannt ist, dass sie zu einem bestimmten Zeitpunkt fällig werden) vorherzusagen.
 
Das Team verwendete Prophet, eine Bibliothek von Facebook, die speziell für die Analyse und Prognose von Zeitreihen entwickelt wurde. Prophet basiert auf einem additiven Modell, bei dem nicht-lineare, globale Trends mit Saisonalität und Urlaubseffekten angepasst werden. Es ist bekannt, dass es am besten mit Zeitreihen funktioniert, die starke saisonale Effekte haben (täglich, wöchentlich, jährlich). Darüber hinaus verwendet Prophet STAN, eine hochmoderne Plattform für statistische Modellierung und leistungsstarke statistische Berechnungen, was die Anpassung sehr schnell macht.

graph Sihl Group
 
Abb.: Anhand historischer Daten wird ein Modell zur Prognose des zukünftigen Cashflows (schwarze Linie und Kreise) trainiert und diese Schätzungen mit dem abrufbaren Cashflow (blaue Balken) verglichen. Der abrufbare Cashflow besteht aus Zahlungen, die in der Zukunft fällig sind und zum Zeitpunkt der Vorhersage bereits bekannt sind. Die Differenz zwischen beiden (rote Balken) ermöglicht es dem Management, den zukünftigen Cashflow auf eine datengesteuerte Weise zu antizipieren.
 

Nispera: Leistungsanalyse von Solarkraftwerken

Studenten: Marcus Lindberg, Lina Siegrist, Lisa Crowther
 
Die Erkennung von Verschmutzungsverlusten bei Photovoltaikanlagen und die Entscheidung, wann die Panels gereinigt werden müssen, ist ein wichtiges betriebswirtschaftliches Problem. Die Kosten für die Reinigung der Panels bei solchen Grossanlagen müssen gegen die Leistungsverluste abgewogen werden, die durch Verschmutzung entstehen.
 
Die Herausforderung bestand darin, die Leistungsverluste, die durch Verschmutzung entstehen, zu identifizieren, da es keine Sensordaten gibt, die die Verschmutzung quantifizieren würden. Lisa, Lina und Marcus entwickelten eine halbautomatische Pipeline zur Analyse der Leistung von Photovoltaikmodulen unter Verwendung von Leistungsdaten, um verschmutzungsbedingte Verluste innerhalb des Parkes zu erkennen und die Verschmutzung einzelner Modulstränge weiter zu analysieren, um Cluster der am stärksten verschmutzten Stränge zu identifizieren. Dies wird für Empfehlungen zur Reinigung und Wartung nützlich sein und ermöglicht die Erkennung von Verschmutzungen allein anhand von Leistungs-, Temperatur- und Einstrahlungsdaten.

Quantifizierung von Verschmutzungsverlusten
Modul Clustering Verschmutzung

Cencosud Scotibank: Analyse der Nutzerbewertungen

Studentin: Natalie Arias
 
Das Ziel von Natalies Projekt war es, Erkenntnisse aus Kundenrezensionen zur Verbesserung der Online-Banking-App der Cencosud Scotiabank zu gewinnen. Durch Web Scraping konnte sie Nutzerbewertungen von konkurrierenden Apps sammeln. Sie verwendete Natural Language Processing (NLP)-Techniken, um Schlüsselphrasen zu extrahieren und so die App-Bewertungen von Scotiabank mit denen der Konkurrenz zu vergleichen. Die Ergebnisse ermöglichen es Scotiabank zu verstehen, wie ihre Kunden ihren Service wahrnehmen und wie sie sich verbessern können, um mit ihren Kunden Schritt zu halten. 

Skala: Relevanteste Begriffe
 

Universitätsspital Lausanne: Patientenähnlichkeiten in der Onkologie

Student: Julien Dupont
 
Präzisionsbehandlung ist die Zukunft der Medizin, die die Identifizierung von Kohorten und den Abstand des Indexpatienten zum eigenen Cluster voraussetzt. Hartes Clustering auf der Basis von Domänenwissen ist immer noch der dominierende Ansatz, der von Ärzten verwendet wird, um die passende Behandlung zu verschreiben. In der Onkologie unterstützen bildgebende Verfahren, Laboranalysen und Vitalparameter die Klassifizierung von Patienten in Krebsarten und -stadien sowie in den Grad der Widerstandsfähigkeit gegenüber Behandlungen und deren Nebenwirkungen.

Das Precision Oncology Center des Universitätsspitals in Lausanne, stellte einen einzigartigen Datensatz mit über 80'000 Patienten zur Verfügung. Julien Dupont half beim Aufbau von Data-Sciences-Pipelines und gab den Anstoss für ein neues Forschungsthema am Klinikum. Sein Proof-of-Concept demonstriert die Relevanz dieses Ansatzes, zeigt das Potenzial der Methode auf und unterstützt die Akquise zukünftiger Fördermittel.

Langfristig zielt dieses Projekt darauf ab, datengetriebenes Wissen zur Unterstützung der Entscheidungsfindung hinzuzufügen. Unüberwachtes Lernen auf der Basis von demografischen Daten und Daten zur Patientenreise wird es uns ermöglichen, gemeinsame Patientenverläufe zu identifizieren und dadurch eine personalisierte Behandlung zu ermöglichen, die zu einer besseren Versorgung und besseren Ergebnissen in der Onkologie führt.

Möchtest du mehr über die Constructor Academy und technikbezogene Themen lesen? Dann finde hier weitere spannende Blogbeiträge.

Mehr Infos
Blog