Null Island

Statistisch gesehen, war die Umgebung des Polizeireviers der gefhrlichste Ort von allen.

Auf der online verfgbaren Verbrechensbersicht des Los Angeles Police Departments konnte man sehen, dass zwischen Oktober 2008 und Mrz 2009 ber 1380 Eintrge aus der Umgebung des Polizeireviers stammten. Dies machte fast 4% aller aufgezeichneten Verbrechen der Stadt in diesem Zeitraum aus. Erst als die Los Angeles Times sich deswegen beschwerte, weil sie ihren Sitz ebenfalls in dem Viertel hat, ist dem Polizeirevier der Fehler im System aufgefallen. Doch was ist passiert?
Alle Polizeiberichte wurden hndisch verfasst und meist automatisch in die Datenbank eingespeist. Wurde der Ort des Verbrechens nicht erkannt, so wurde als Default-Wert einfach der Standort des Polizeireviers eingetragen, was zur Verflschung der Kriminalstatistik fhrte. Das Polizeirevier hatte den Fehler dahingehend bereinigt, dass es die fehlenden Ortsangaben mit "Null" (Angabe fr fehlenden Wert in der Informatik) korrigiert hat. Null-Angaben knnen aber Teile von Datenstze unbrauchbar machen, wenn sie fr bestimmte Visualisierungen oder Berechnungen bentigt werden. Man spricht deshalb auch von "Null Island - where bad data goes to die".

Die Geschichte zeigt, wie wichtig es ist Attribute von Tabellen und Datenbanken richtig zu bestimmen. besonders wenn diese auch fehlende Werte haben knnen. Setzt man bei fehlenden Werten einen fr Maschinen als logisch lesbaren Wert (wie z.B. Null als Kommentartext oder als Ortsangabe (0.0,0.0)) ein, so werden die Daten fehlinterpretiert und knnen Ergebnisse verflschen. Die Dokumentation solcher Ersatzwerte ist daher essenziell.

"When Good Data Turns Bad" aus dem Buch "Humble Pi: A Comedy of Maths Errors", Seite 253