6. Sesgos Algorítmicos: El uso de Compas en el Sistemas de Justicia de EEUU#

Pregunta para reflexionar

¿Puede una máquina ser racista? ¿Puede un algoritmo ser injusto?

6.1. Introducción#

Los algoritmos de Inteligencia Artificial aprenden de datos creados por humanos. Si esos datos contienen sesgos históricos, sociales o culturales, la IA los aprenderá y los replicará, a veces amplificándolos {cite}`oneil2016weapons`. Un sesgo algorítmico ocurre cuando un sistema de IA produce resultados sistemáticamente injustos o discriminatorios hacia ciertos grupos de personas.

6.2. Tipos de Sesgos:#

  1. Sesgo en los datos de entrenamiento

    • Datos históricos que reflejan discriminación pasada

    • Falta de representación de ciertos grupos

  2. Sesgo en el diseño del algoritmo

    • Decisiones de programación que favorecen ciertos resultados

    • Métricas de éxito mal definidas

  3. Sesgo en la interpretación

    • Cómo se usan y se interpretan los resultados de la IA

6.3. Caso Histórico: COMPAS y el Sistema de Justicia en EE.UU.#

6.3.1. ¿Qué es COMPAS?#

COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) es un algoritmo usado en varios estados de EE.UU. para predecir si un acusado volverá a cometer un crimen (reincidencia).

Lo usa para:

  • Decidir fianzas

  • Determinar sentencias

  • Evaluar libertad condicional

6.3.2. El Problema Descubierto#

En 2016, una investigación de ProPublica reveló que COMPAS era racialmente sesgado [Angwin et al., 2016]:

Hallazgos claves:

  • Personas afroamericanas tenían casi el doble de probabilidad de ser incorrectamente clasificadas como “alto riesgo” de reincidencia

  • Personas blancas tenían más probabilidad de ser clasificadas como “bajo riesgo” incluso cuando sí reincidían

  • La precisión general era solo del 61% (similar a lanzar una moneda)

Precisión del algoritmo COMPAS

Fig. 6.1 Precisión del algoritmo COMPAS en la predicción de reincidencia: aproximadamente 60-70% de aciertos, similar a lanzar una moneda. Fuente: Northpointe Inc. [2017].#

Como se observa en la Fig. 6.1, la precisión del algoritmo COMPAS es sorprendentemente baja.

6.3.3. Datos Concretos:#

Table 6.1 Tasas de error de COMPAS por grupo étnico#

Grupo

Falsamente clasificados como “Alto Riesgo”

Falsamente clasificados como “Bajo Riesgo”

Afroamericanos

45%

23%

Blancos

23%

48%

Los datos de la Table 6.1 muestran claramente el sesgo racial del algoritmo [Angwin et al., 2016].

6.3.4. ¿Por qué ocurrió esto?#

El algoritmo fue entrenado con datos históricos del sistema de justicia de EE.UU., que tiene sesgos documentados {cite}`oneil2016weapons`:
  1. Arrestos desproporcionados de minorías

  2. Sentencias más duras para personas afroamericanas

  3. Mayor vigilancia en vecindarios de bajos recursos

La IA aprendió estos patrones y los perpetuó.

6.4. Otros Ejemplos de Sesgos Algorítmicos#

6.4.1. 1. Reconocimiento Facial#

Problema: Sistemas de reconocimiento facial son menos precisos con personas de piel oscura y mujeres [Buolamwini and Gebru, 2018].

Estudio del MIT (2018):

  • Error del 0.8% para hombres de piel clara

  • Error del 34.7% para mujeres de piel oscura

6.4.2. 2. Sistemas de Contratación#

Caso Amazon (2018) [Dastin, 2018]:

  • Amazon desarrolló un sistema de IA para filtrar CVs

  • El sistema aprendió a discriminar contra mujeres

  • Penalizaba CVs con la palabra “women” (ej: “women’s chess club”)

  • Fue descontinuado

6.4.3. 3. Predicción de Rendimiento Académico#

Problema: Algoritmos que predicen deserción escolar pueden estar sesgados contra:

  • Estudiantes de bajos recursos

  • Estudiantes de zonas rurales

  • Minorías étnicas

# Ejemplo: Simulación simple de sesgo en datos
import random

def evaluar_candidato(nombre, universidad):
    """Algoritmo sesgado que favorece ciertas universidades"""
    universidades_elite = ['Harvard', 'MIT', 'Stanford']
    
    puntaje_base = random.randint(50, 70)
    
    # SESGO: +30 puntos si viene de universidad "elite"
    if universidad in universidades_elite:
        puntaje_base += 30
    
    return puntaje_base

# Ejemplos
print(f"Juan (U. Chile): {evaluar_candidato('Juan', 'U. Chile')}")
print(f"María (Harvard): {evaluar_candidato('María', 'Harvard')}")
print(f"Pedro (U. Concepción): {evaluar_candidato('Pedro', 'U. Concepción')}")
print(f"Ana (MIT): {evaluar_candidato('Ana', 'MIT')}")

print("\n¿Notas el sesgo?")

6.4.4. Análisis del Código:#

El sesgo está en la línea:

if universidad in universidades_elite:
    puntaje_base += 30

Problemas:

  1. Asume que estudiantes de ciertas universidades son mejores

  2. No considera mérito individual

  3. Perpetúa desigualdades de acceso a educación “elite”

  4. Discrimina contra talento de universidades regionales

6.5. Cómo Combatir los Sesgos Algorítmicos#

6.5.1. 1. Datos Diversos y Representativos:#

Asegurarse de que los datos de entrenamiento incluyan:

  • Múltiples grupos demográficos

  • Contextos históricos diversos

  • Corrección de sesgos históricos

6.5.2. 2. Auditorías Independientes#

  • Revisión externa de algoritmos

  • Transparencia en cómo funcionan

  • Publicación de tasas de error por grupo

6.5.3. 3. Equipos Diversos#

  • Desarrolladores de diferentes orígenes

  • Perspectivas variadas en el diseño

  • Ética en el centro del desarrollo

6.5.4. 4. Regulación y Leyes#

  • Leyes que exijan transparencia algorítmica

  • Derecho a explicación de decisiones automatizadas

  • Responsabilidad por daños causados por IA

6.7. Actividad: Detecta el Sesgo - Ejercicio Práctico#

Escenario: Una universidad quiere usar IA para seleccionar estudiantes.

Datos disponibles:

  • Notas de enseñanza media

  • Colegio de origen (público/Subvencionado/privado)

  • Comuna o ciudad de residencia

  • Actividades extracurriculares

  • Puntaje PAES

  • Foto del estudiante

Preguntas:

  1. ¿Qué sesgos podrían existir en estos datos?

  2. ¿Qué grupos podrían ser discriminados?

  3. ¿Cómo mejorarías el sistema?

  4. ¿Qué datos NO deberían usarse?

La IA tiene el potencial de ser más justa que los humanos, pero solo si la diseñamos conscientemente para serlo. Debemos ser críticos y vigilantes sobre cómo se usa la tecnología en decisiones que afectan vidas humanas.

6.8. Recursos para Profundizar#

  • Libro: O'Neil [2016] - “Weapons of Math Destruction”

  • Documental: “Coded Bias” - Netflix

  • Artículo: Angwin et al. [2016] - ProPublica “Machine Bias”

  • Organización: Algorithmic Justice League


Próxima clase: Exploraremos la desinformación y los deepfakes en la era digital.

6.9. Referencias#

[1] (1,2,3)

Julia Angwin, Jeff Larson, Surya Mattu, and Lauren Kirchner. Machine bias: there's software used across the country to predict future criminals. and it's biased against blacks. ProPublica, mayo 2016. URL: https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing.

[2]

Andrés Bello. Discurso pronunciado en la instalación de la universidad de chile. Discurso inaugural, septiembre 1843. Discurso fundacional de la Universidad de Chile. URL: https://uchile.cl/presentacion/historia/discurso-inaugural.

[3]

Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O'Reilly Media, Sebastopol, CA, 2009. ISBN 978-0596516499. URL: https://www.nltk.org/book/.

[4]

Elisenda Blasi. La huella digital: qué es y cómo protegerla. 2020. Artículo sobre identidad digital y privacidad. URL: https://www.uoc.edu/portal/es/news/actualitat/2020/.

[5]

Joy Buolamwini and Timnit Gebru. Gender shades: intersectional accuracy disparities in commercial gender classification. In Proceedings of the 1st Conference on Fairness, Accountability and Transparency, 77–91. PMLR, 2018. URL: http://proceedings.mlr.press/v81/buolamwini18a.html.

[6]

Jeffrey Dastin. Amazon scraps secret ai recruiting tool that showed bias against women. Reuters, octubre 2018. URL: https://www.reuters.com/article/us-amazon-com-jobs-automation-insight-idUSKCN1MK08G.

[7]

Christopher Holdgraf, Wendy de Heer, Brian Pasley, and Robert Knight. Evidence for predictive coding in human auditory cortex. In International Conference on Auditory Cortex. Brisbane, Australia, 2014.

[8]

Zeev Maoz and Errol A. Henderson. The world religion dataset, 1945-2010: logic, estimates, and trends. International Interactions, 39(3):265–291, 2013. URL: https://correlatesofwar.org/data-sets/world-religion-data/, doi:10.1080/03050629.2013.782306.

[9]

Wes McKinney. Python for Data Analysis: Data Wrangling with pandas, NumPy, and Jupyter. O'Reilly Media, Sebastopol, CA, 3rd edition, 2022. ISBN 978-1098104030.

[10]

Cathy O'Neil. Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. Crown, New York, 2016. ISBN 978-0553418811.

[11]

Ronald Reagan. Inaugural address. Discurso de inauguración presidencial, enero 1981. Primer discurso inaugural de Ronald Reagan como presidente de Estados Unidos. URL: https://www.reaganlibrary.gov/archives/speech/inaugural-address-1981.

[12]

Anjana Susarla. The emergence of deepfake technology: a review. Technology Innovation Management Review, 9(11):39–52, 2019. URL: https://timreview.ca/article/1282.

[13]

Rob Toews. Deepfakes are going to wreak havoc on society. we are not prepared. Forbes, mayo 2022. URL: https://www.forbes.com/sites/robtoews/2020/05/25/deepfakes-are-going-to-wreak-havoc-on-society-we-are-not-prepared/.

[14]

Comparitech. Password statistics: the most common passwords. 2025. Estadísticas sobre contraseñas más comunes. URL: https://www.comparitech.com/blog/information-security/password-statistics/.

[15]

Congreso Nacional de Chile. Ley n° 19.628 sobre protección de la vida privada. 1999. Ley chilena sobre protección de datos personales. URL: https://www.bcn.cl/leychile/navegar?idNorma=141599.

[16]

Congreso Nacional de Chile. Proyecto de ley sobre inteligencia artificial. 2024. Boletín N° 15.153-19. URL: https://www.camara.cl/legislacion/ProyectosDeLey/tramitacion.aspx?prmID=15344.

[17]

Educarchile. Privacidad y seguridad digital para estudiantes. 2024. Recursos educativos sobre ciudadanía digital. URL: https://www.educarchile.cl/.

[18]

European Parliament and Council of the European Union. General data protection regulation (gdpr). Regulation (EU) 2016/679, 2018. Reglamento General de Protección de Datos de la Unión Europea. URL: https://eur-lex.europa.eu/eli/reg/2016/679/oj.

[19] (1,2)

European Parliament and Council of the European Union. Artificial intelligence act. Regulation (EU) 2024/1689, 2024. Reglamento de la Unión Europea sobre Inteligencia Artificial. URL: https://eur-lex.europa.eu/eli/reg/2024/1689/oj.

[20]

Experian. What is the dark web and how to access it safely. 2024. Información sobre la dark web y seguridad. URL: https://www.experian.com/blogs/ask-experian/what-is-the-dark-web/.

[21]

Facebook AI. Deepfake detection challenge. 2024. Iniciativa para detectar deepfakes. URL: https://ai.facebook.com/datasets/dfdc/.

[22]

LISA Institute. Deepfakes: guía completa sobre qué son y cómo detectarlos. 2024. Recurso educativo sobre deepfakes. URL: https://www.lisainstitute.com/blogs/blog/deepfakes-guia-completa.

[23]

Ministerio de Ciencia, Tecnología, Conocimiento e Innovación. Política nacional de inteligencia artificial. 2024. Estrategia de Chile para el desarrollo de la IA. URL: https://www.minciencia.gob.cl/politicaIA.

[24]

Northpointe Inc. Compas risk scales: demonstrating accuracy equity and predictive parity. Technical Report, Northpointe, 2017. URL: https://www.equivant.com/response-to-propublica-demonstrating-accuracy-equity-and-predictive-parity/.

[25]

pandas development team. Pandas documentation. 2024. Biblioteca de Python para análisis de datos. URL: https://pandas.pydata.org/docs/.

[26]

PyPDF2 Contributors. Pypdf2 documentation. 2024. Biblioteca Python para manipulación de archivos PDF. URL: https://pypdf2.readthedocs.io/.