Wie man ganz viel Zeit mit einer NAS verschwenden kann

Von Synology, QNAP, owncloud und nextcloud

[Update am 12.1.2019] Vor Jahren hatte mir Dropbox mal ein Buchprojekt gerettet. Mein damaliges MacBook machte plötzlich KlackKlackKlack, die Festplatte war hin. MacBook zugeklappt, iMac eingeschaltet, eine Minute gewartet, und schon war mein Text bis auf einen Satz auf den iMac synchronisiert. Ich konnte einfach weiterschreiben, weil die lokalen Daten ständig mit der Cloud synchronisiert wurden.

Warum um alles in der Welt sollte man sich zuhause einen Server hinstellen?

Die Datenmengen waren 2006 andere. Heute habe ich mehrere Terabytes an Daten, und nicht alle passen auf die SSD meines Rechners. Gleichzeitig ist keine Cloud der großen Anbieter vertrauenswürdig. Eine eigene Cloud wäre die Lösung (auch wenn diese Lösung auch keine komplette Datensicherheit bedeutet, dazu später mehr).

“Wie man ganz viel Zeit mit einer NAS verschwenden kann” weiterlesen

Weder schwarz noch weiß – Oder was die Zauberflöte heute noch zu sagen vermag

Vorab: Ich war ein großer Verehrer der Achim Freyer-Inszenierung der Zauberflöte an der Hamburgischen Staatsoper, die bei ihrer Premiere 1982 neben Applaus auch Buhrufe bekam. Diese Inszenierung war aufgrund ihrer Verspieltheit nach über 30 Jahren gefühlt immer noch modern, und ich habe sie bestimmt ein Dutzend Mal gesehen. Die Interpretation, dass Tamino alles geträumt haben könnte und sich deswegen zum Schluß selbst beobachten kann, fand ich zwar stets eigenwillig, aber die Bilder Freyers waren einfach wunderschön.

Die Zauberflöte hat für die Hamburgische Staatsoper vielleicht eine besondere Bedeutung, schließlich war sie das erste Stück, das 1955 nach dem Wiederaufbau des Opernhauses gegeben wurde. Zudem existiert eine DVD mit einer von Peter Ustinov in den 60er Jahren in Hamburg inszenierten Aufführung, die wahrscheinlich die Brücke zwischen der Wiedereröffnung und der Freyer-Inszenierung bildete.

“Weder schwarz noch weiß – Oder was die Zauberflöte heute noch zu sagen vermag” weiterlesen

Wann ist Schluss mit dem Hype um Data Science?

Jeder will Data Scientists haben. Hochschulen bieten Studiengänge an. Coursera & Co überschlagen sich mit Data Science-Angeboten. Daten sind das neue Öl. Ohne Daten und die sie zu Gold machenden Data Scientists sei die Zukunft düster, da sind sich alle einig. Selbst wenn man keine spannenden Daten hat, so kann ein Data Scientist vielleicht aus dem Wenigen schon Goldstaub zaubern. Also wird ein Bedarf an Data Scientists gemeldet, ohne überhaupt zu wissen, ob man sie überhaupt beschäftigen kann. Auf dem Hype Cycle sind wir immer noch nicht ganz oben angekommen, aber es wird nicht mehr lange dauern, bis es runter geht ins Tal der Ernüchterung (und dann zum Plateau der Produktivität. Schuld daran haben mehrere Missverständnisse.

Es gibt keine allgemeingültige Definition von Data Science

Somit kann sich jeder Data Scientist nennen, wer das gerne möchte.  Und man kann auch einen Kurs oder einen Studiengang danach betiteln, weil es gerade schick ist. Meiner Meinung nach passiert genau das momentan zu häufig.

Für mich ist Data Science das Zusammenspiel aus Data Mining, Statistik und Machine Learning. Und genau das biete ich in meinen Kursen an. Und damit wir uns gleich richtig verstehen: Ein Semester ist dafür viel zu wenig. Und deshalb nennen wir das auch nicht mal Data Science, sondern Data Analytics oder Ähnliches. Wir schnuppern rein in Data Science. Aber in den 60 Stunden im Semester entwickle ich keinen neuen Data Scientist.

Im Prinzip müsste man meiner Meinung nach erst einmal mindestens ein Semester Statistik unterrichten, bevor es weiter geht. Dann eine Programmiersprache richtig lernen, sei es R oder Python. Und dann würde man mit Machine Learning beginnen. Dazwischen immer mal wieder erklären, wie man mit Linux/Unix umgeht. Datenbanken. Cloud-Technologie. Damit kann man sicherlich ein ganzes Studium füllen.

Oft ist es aber nur eine Einführung in Python mit etwas scikit. Aber, wie oben schon beschrieben, das ist egal, denn der Begriff ist eh nicht geschützt. Und es merkt auch kaum jemand, denn wer soll das denn beurteilen?

Es gibt noch keine ausreichende Ausbildung

Vor kurzem habe ich mal in einen Data Science-Kurs auf Udemy reingeschnuppert (der übrigens immer nur noch wenige Stunden gerade mal ein paar Euro kostet). Der junge Mann in seinem Gamer-Stuhl konnte gut reden, aber in die Tiefe konnte er nicht gehen. Wobei, es kommt darauf an, wie man Tiefe definiert. Der inhaltliche Tiefpunkt war für mich erreicht, als er sagte, dass man gewisse Dinge mathematisch nicht verstehen muss, zum Beispiel ob man durch n oder durch n-1 teilt. Wow.

Dann habe ich auch schon mehrere Informatik- o.ä. Studierende von der Uni Hamburg etc bei mir gehabt. Abgesehen davon, dass ihnen grundlegende Kenntnisse fehlen (“Was ist eine CSV-Datei?”), haben sie zwar ein paar Techniken gelernt, die sie auch brav in die Bewerbung schreiben (“Erfahrung in ML”), aber richtig verstanden haben sie nicht, was sie da tun. So wird k-means gerne auf alles geballert, auch wenn es keine numerischen Daten sind (die kann man ja einfach umwandeln, dann sind sie ja numerisch). Dass das selten Sinn ergibt, wenn man euklidische Distanzen berechnet, nun ja. Wenn man nur einen Hammer hat, dann sieht alles aus wie ein Nagel.

Wenn aber die Ausbildung suboptimal ist, wie sollen die Data Scientists dann Gold aus Daten generieren? Für den wirklich krassen Kram wird eine solche Ausbildung nicht ausreichen. Und entweder wird dann Mist geliefert oder das Projekt geht nie zu Ende. Das erinnert mich ein bisschen an die New Economy als plötzlich jeder HTML-Seiten bauen konnte. Nur diejenigen, die mehr als HTML konnten, haben nach dem Crash noch Chancen auf einen Job gehabt. Und zu viele Läden gingen pleite, weil sie einfach nur schwach ausgebildete Leute eingestellt hatten.

Nicht jedes Problem benötigt einen Data Scientist

Ich behaupte mal ganz dreist, dass sich viele Probleme auch ohne einen Data Scientist nach meiner obigen Definition lösen lassen. Tatsächlich sind viele Methoden bereits in der Statistik gut behandelt worden, von der Regressionsanalyse bis zur Bayesian Inferenz. Auch Klassifikation und Clustering gab es lange vor Data Science. Support Vector Machines sind auch schon etwas älter. Das einzig Neue ist, dass es viel mehr Bibliotheken gibt, die jeder anwenden kann. Aber man muss nicht sofort an Data Science denken, wenn es um diese Themen geht. Denn da zahlt man gleich einen Hype-Bonus mit.

Was wenn nicht Data Science wird wichtig?

Natürlich wird die Arbeit mit Daten in Zukunft nicht weniger wichtig werden. Ganz im Gegenteil. Aber ich befürchte, dass der gegenwärtige Hype diesem neuen Gewächs nicht gut tut. Da es dort jede Menge Geld zu verdienen gibt, stürzen sich auch Talente darauf, deren bisheriger Fokus nicht unbedingt auf Mathematik-nahen Fächern lag. Einen Udemy-Kurs kann jeder irgendwie abschließen. Aber die Qualität ist nicht bei jedem Kurs gleich gut. Und dementsprechend ist diese Art der Ausbildung sowie auch das plumpe Lernen von Methoden an der Uni nicht hilfreich, Data Science nach vorne zu treiben. Dadurch wird Data Science eher enttäuschen und in das Tal der Enttäuschung abrutschen. Denn es werden nicht alle Erwartungen erfüllt werden können.

Wir benötigen zum einen eine Definition, was Data Science ist, und danach eine Definition dessen, was man als Data Scientist tatsächlich können muss. Ansonsten ist der Hype wegen Erfolglosigkeit bald wieder vorbei.

Logging von Google Analytics Requests via Google Chrome für sendBeacon/beforeUnload

Heute wirds mal etwas technischer. Über die Durchschnittliche Verweildauer in Google Analytics und anderen Webanalyse-Systemen habe ich schon viel geschrieben, sie stimmt in einer Standard-Installation nicht. In einem meiner Kurse sagte dann mal ein Teilnehmer, dass man doch einfach messen könne, wenn der Nutzer den Tab schließt, zum Beispiel mit onbeforeUnload. So ein Trigger ist schnell gebaut, hat aber auch Nachteile. Zunächst einmal ist das nicht zuverlässig, denn ein Benutzer kann auch einfach den Tab wechseln und nicht schließen, engagiert sich aber trotzdem nicht mit den Inhalten meiner Webseite, so dass die ermittelte Time on Site nicht richtig ist. Insbesondere auf mobilen Geräten sehe ich es eher selten, dass Nutzer ihre “Tabs” schließen. Aber darum geht es heute nicht, das ist mindestens einen weiteren Beitrag wert. In diesem Artikel geht es vor allem darum, wie wir überhaupt den Einsatz von onbeforeUnload messen debuggen können. “Logging von Google Analytics Requests via Google Chrome für sendBeacon/beforeUnload” weiterlesen

Warum Neue und Wiederkehrende Besucher in Google Analytics manchmal mit Vorsicht zu genießen sind

Google Analytics kann mitunter fies sein, denn manche Dimensionen gepaart mit Segmenten verhalten sich nicht so, wie man das zunächst denken mag. Dank Michael Janssens und Maik Bruns‘ Kommentare auf meine Frage in der von Maik gegründeten Analyse-Gruppe kann ich heute beruhigt schlafen gehen und bin wieder ein bisschen schlauer geworden.

Die Frage kam heute im Analytics-Kurs auf: Wie kann es sein, dass ich mehr Neue Nutzer als Transaktionen habe, wenn ich in dem Segment “Hat einen Kauf getätigt” bin? Den Link zum Bericht gibt es hier, die Annahme, die ich hatte, war die: Wenn ich ein Segment von Nutzern habe, die einen Kauf getätigt haben, und dieses Segment im Bericht “Neue vs. wiederkehrende Nutzer” verwende, dann gehe ich davon aus, dass ich in dem Bereich Neue Besucher + Haben einen Kauf getätigt nur die Nutzer sehe, die in ihrem ersten Besuch etwas gekauft haben. Allerdings sehen wir hier in diesem Bericht 691 Nutzer, aber nur 376 Transaktionen. Wenn meine Erwartungshaltung stimmen würde, dann müsste die Zahl hier gleich sein. Ist sie aber nicht. “Warum Neue und Wiederkehrende Besucher in Google Analytics manchmal mit Vorsicht zu genießen sind” weiterlesen

Datengetriebene Personas mit Assoziationsregeln

Über Personas habe ich mich ja schon an anderer Stelle ausgelassen, in diesem Artikel geht es um die datengetriebene Generierung von Personas. Ich halte mich an die Definition des Persona-Erfinders Cooper und sehe eine Persona als Prototyp für eine Gruppe von Nutzern. Dies kann auch fürs Marketing interessant sein, denn schließlich lässt dich damit eine bedürfnis- und erfahrungsorientierte Kommunikation zum Beispiel auf einer Webseite erstellen. Personas sind keine Zielgruppen, aber dazu an anderer Stelle mehr. “Datengetriebene Personas mit Assoziationsregeln” weiterlesen

Google Optimize hacken: Von Bayes, p-Werten, A/A-Tests und vergessenen Metriken

Google Optimize ist eines meiner Lieblings-Tools, denn es ermöglicht jedem schnell a/b-Tests zu bauen; in meinen Kursen staunen die Teilnehmer häufig, wie schnell so ein Test online sein kann. Natürlich ist die Vorarbeit, das saubere Erstellen einer Hypothese, nicht so schnell getan, aber es macht auch keinen Spaß, monatelang auf die Live-Schaltung eines Tests zu warten. Über die Vorzüge von Google Optimize will ich auch gar nicht weiter eingehen, sondern stattdessen auf drei Feinheiten hinweisen, die nicht so offensichtlich sind. “Google Optimize hacken: Von Bayes, p-Werten, A/A-Tests und vergessenen Metriken” weiterlesen

The Joy of Data

Alles geht auf Philiosophie zurück 🙂 Und das Internet wäre ohne die Briten nicht möglich gewesen. Erinnert mich etwas an den UK-Pavilion auf der Expo 2000, in dem der iMac ausgestellt wurde. Schließlich wurde auch dieser von einem Briten, Jonathan Ive, entworfen. Ansonsten eine absolut empfehlenswerte Dokumentation, hier auf der BBC-Seite zu sehen.

Ausschnitt:

Chris Howland und der Microwriter

Manchmal erinnert man sich an irgendwelche Sendungen, die vor Jahrzehnten im Fernsehen liefen, und in einer von diesen Sendungen war Chris Howland zu sehen, der die Funktionsweise eines Microwriters erläuterte. Wenn man nach <chris howland microwriter> googled, dann findet sich nichts, was ich nun mit diesem Beitrag ändere. Denn Chris Howland war sehr an Computern interessiert, und ein kleines Video habe ich dann doch noch gefunden, wenn auch nicht das uralte Video mit Chris Howland, aber ab Minute 7:19 erzählt der Moderator vom Microwriter und auch von Chris Howland: “Chris Howland und der Microwriter” weiterlesen