Coarse race data conceals disparities in clinical risk score performance

Movva, Rajiv; Shanmugam, Divya; Hou, Kaihua; Pathak, Priya; Guttag, John; Garg, Nikhil; Pierson, Emma

Computer Science > Computers and Society

arXiv:2304.09270 (cs)

[Submitted on 18 Apr 2023 (v1), last revised 24 Aug 2023 (this version, v2)]

Title:Coarse race data conceals disparities in clinical risk score performance

Authors:Rajiv Movva, Divya Shanmugam, Kaihua Hou, Priya Pathak, John Guttag, Nikhil Garg, Emma Pierson

View PDF

Abstract:Healthcare data in the United States often records only a patient's coarse race group: for example, both Indian and Chinese patients are typically coded as "Asian." It is unknown, however, whether this coarse coding conceals meaningful disparities in the performance of clinical risk scores across granular race groups. Here we show that it does. Using data from 418K emergency department visits, we assess clinical risk score performance disparities across 26 granular groups for three outcomes, five risk scores, and four performance metrics. Across outcomes and metrics, we show that the risk scores exhibit significant granular performance disparities within coarse race groups. In fact, variation in performance within coarse groups often *exceeds* the variation between coarse groups. We explore why these disparities arise, finding that outcome rates, feature distributions, and the relationships between features and outcomes all vary significantly across granular groups. Our results suggest that healthcare providers, hospital systems, and machine learning researchers should strive to collect, release, and use granular race data in place of coarse race data, and that existing analyses may significantly underestimate racial disparities in performance.

Comments:	Published at MLHC 2023. v2 includes minor changes from the camera-ready, such as a link to code. Code is available at this https URL
Subjects:	Computers and Society (cs.CY); Machine Learning (cs.LG); Applications (stat.AP)
ACM classes:	J.3; K.4.2
Cite as:	arXiv:2304.09270 [cs.CY]
	(or arXiv:2304.09270v2 [cs.CY] for this version)
	https://doi.org/10.48550/arXiv.2304.09270

Submission history

From: Rajiv Movva [view email]
[v1] Tue, 18 Apr 2023 20:17:08 UTC (2,280 KB)
[v2] Thu, 24 Aug 2023 20:01:16 UTC (2,952 KB)

Computer Science > Computers and Society

Title:Coarse race data conceals disparities in clinical risk score performance

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computers and Society

Title:Coarse race data conceals disparities in clinical risk score performance

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators