In einem ausführlichen Artikel haben wir 2024 dargelegt, welche Fallstricke es beim Test von Wearables und insbesondere bei den Gesundheitsfunktionen gibt - und darauf hingewiesen, dass entsprechende Studien eben keine Geheimnisse darstellen, sondern öffentlich zugänglich sind. Solche Studien sind mal mehr, mal weniger verständlich für Laien, gewisse Grundbegriffe der Metrologie sollten Lesern aber zur richtigen Interpretation geläufig sein - was auch für eine nun veröffentlichte Studie von Apple gilt. Diese bezieht sich auf das Hypertension Notification Feature on Apple Watch. Apple bietet inzwischen ebenfalls eine mit dem Blutdruck im Zusammenhang stehende Messung und demnächst auch auf weiteren Smartwatches an. Dabei handelt es sich im Prinzip allerdings nicht um eine Messung, die nach Kalibrierung wie bei den Galaxy-Smartwatches oder durch eine quasi klassische Messung mit Luftpolster wie bei der Huawei Watch D2 (im Preisvergleich) konkrete Werte für den Blutdruck anzeigt. Stattdessen handelt es sich um ein Screening-Verfahren, welches Nutzer auf einen möglicherweise bestehenden Bluthochdruck hinweisen soll.
Training an tausenden Probanden und unzuverlässige Erkennung
Der Algorithmus wurde Apple zufolge an 3.216 Probanden trainiert, an 3.878 Personen validiert und dann mit 2.236 Personen getestet, beispielsweise Informationen über den Anteil der übergewichtigen Studienteilnehmer führt Apple wie üblich ebenfalls auf, es findet dementsprechend noch einmal eine Einteilung in Probandengruppen statt. Im Rahmen der Ergebnisse kommuniziert Apple die Sensitivität und die Spezifität. Mit der Sensitivität ist bei der Validierung von medizinischen Studien gemeint, wie viele tatsächlich erkrankte Personen mit einem (richtig durchgeführten), diagnostischem Verfahren als krank erkannt werden. Beim Bluthochdruck-Screening von Apple liegt die Sensitivität bei 41,2 Prozent*, dementsprechend werden weniger als die Hälfte der Hypertoniker auch erkannt. Die Spezifität liegt hingegen bei 92,3 Prozent*, was allerdings nicht unbedingt überrascht: So gibt die Spezifität nämlich an, wie viele Gesunde richtig als solche erkannt werden. Diese beiden Werte stehen natürlich in einem gewissen Zusammenhang - durch die Verschiebung der Entscheidungsgrenze (also beispielsweise, welcher Score im Rahmen einer Anamnese (PDF) oder von Untersuchungen durch einen Arzt für eine Verdachtsdiagnose ausreichend ist und/oder eine weitere Diagnostik indiziert) lassen sich die beiden Werte modifizieren.
Screening geht eigentlich anders
Wir wollen diese Ergebnisse zumindest in diesem Rahmen nicht ausführlich - insbesondere nicht in Bezug zu Konkurrenzprodukten - bewerten, allerdings darauf hinweisen, dass eine höhere Sensitivität bei einem solchem Screening-Verfahren im Prinzip auch unter Hinnahme einer signifikanten Verringerung der Spezifität eher förderlich erscheint. Dazu muss man den Kontext beachten: Eine falsch-positive Meldung führt im Falle einer Bluthochdruckwarnung eben nicht zu einer invasiven, mit Risiken behafteten und möglicherweise teuren Diagnostik, sondern nur zu einer völlig unproblematischen konventionellen Blutdruckmessung - die vielleicht sogar von Nutzern selbst mithilfe günstig erhältlicher Blutdruckmanschetten durchgeführt werden kann. Ob es bei der Bluthochdruck-Erkennung von Apple nun an einer Optimierung in Richtung Sensitivität oder schlicht technischen Unzulänglichen scheitert, können wir nicht einschätzen.
*Die jeweiligen Einzelwerte geben die Mitte des 95 %-Konfidenzintervalls an (37,2-45,3 %, 90,6-93,7 %), über alle Probandengruppen
Wir erweitern unser News & Magazin-Team und suchen Verstärkung im Bereich E-Mobility und Science.
Details

















