La ética en los datos: privacidad y sesgo

Vivimos en una sociedad en la que los datos han sustituido al petróleo como elemento de mayor valor comercial.

La capacidad de aglutinar ingentes cantidades de éstos, permite a las grandes corporaciones tecnológicas crear nuevos modelos de negocio y protegerlos con fuertes barreras de entrada. A menor escala, el resto de empresas van a necesitar datos con el fin de poder hacer que sus productos y servicios tengan un mayor valor para sus clientes o un menor coste operacional. El manejo de esos datos necesitará considerar al menos dos casuísticas que van a tener mucha relevancia en la explotación de los mismos:
  • Privacidad, en el sentido más estricto de respeto a la información personal que los datos puedan acarrear y
  • Sesgo, o la no correspondencia entre el modelo matemático y la realidad, provocado por los datos utilizados para entrenar el modelo.

Privacidad

El respeto a la privacidad de las personas está fuertemente regulado, al menos en la Unión Europea, en la que se establecen unos niveles de ‘sensibilidad’ que tiene un dato en particular, y el tratamiento que debe aplicarse según ese nivel de sensibilidad.

Todos podemos asumir que no es igual de sensible conocer las ventas de un determinado comercial que conocer su estado civil o posibles problemas de salud.

Pero hay veces que esto no es tan evidente, o lleva aparejadas situaciones que fuera del contexto inicial afecten a la privacidad de las personas. En Estados Unidos se ha debatido la posibilidad de registrar los metadatos de todas las llamadas telefónicas que hicieran sus ciudadanos. Ojo, los metadatos, no la voz en sí. A simple vista, puede parecer que esto no aportaría información privada, pero estudios posteriores demostraron que era posible detectar cuándo una persona era infiel a su pareja, o cuándo había perdido su trabajo o cuándo tenía una enfermedad grave, simplemente con el uso de dichos metadatos. A veces es difícil imaginar hasta dónde se puede llegar de la manera más ‘inocente’.

Otro ejemplo. Las directrices europeas prohíben hacer un seguimiento de una persona ‘identificable’. ¿Qué ocurriría si nuestra empresa decidiera implantar dispositivos de seguimiento GPS a los vehículos de empresa con el objeto de mejorar la planificación y seguimiento de rutas de sus comerciales? Cuando el empleado use ese vehículo por algún motivo en su ámbito personal, estaríamos viendo también esa parcela de su vida. ¿Es legal? ¿Cómo se puede evitar caer en la ilegalidad?

En otros casos, sólo la técnica podrá solventar un dilema moral o legal. Imaginemos que queremos que nuestro hospital participe en un estudio clínico sobre la detección del cáncer con otros centros médicos de referencia. ¿Es posible hacerlo sin violar la privacidad de los datos médicos de nuestros pacientes? Esto se conoce como aprendizaje federado y es un caso resuelto, pero no siempre será así.

Se suele decir que cuando un servicio de Internet es gratuito, nosotros somos el dinero, o más bien, nuestros datos son ‘el pago’. Muy seguramente, gigantes como Google o Facebook conozcan más de una persona de lo que ésta sea capaz de imaginar, y esta información es utilizada para segmentar la información y la publicidad que nos llega.

Sesgo

Como hemos comentado antes, se dice que un modelo está sesgado cuando no refleja la realidad subyacente. Las consecuencias de este sesgo pueden ser muy elevadas, especialmente cuando éste involucra a factores que nuestra sociedad considera inmorales, como el sesgo por raza o condición sexual.

¿De dónde viene el sesgo? Hemos de entender que para entrenar un modelo son necesarios datos, muchos datos, pero que nunca serán ‘todos’ los datos. Por la forma en la que se recojan o se traten, puede aparecer el sesgo en el entrenamiento del modelo.

El sesgo puede ser accidental, por ejemplo, cuando los datos reportados por un sensor de temperatura son incorrectos por estar defectuosos. También puede estar ocasionado por una mala definición de la recogida de datos -como por ejemplo si entrenamos un modelo de reconocimiento facial usando fotos de una única zona geográfica-. Puede originarse por un erróneo tratamiento de los datos que haga el analista para prepararlos, ya sea eliminando un factor relevante (edad en el caso de enfermedades), o manteniendo uno inadecuado (raza en un scoring de crédito).

A tener en cuenta el caso de una doctora en EE.UU. que, usando el modelo de scoring médico implantado en su hospital, le denegaba la operación que ella misma consideraba la mejor opción para su paciente de color. Cuando cambió la raza de la paciente a blanca, el modelo recomendó la operación. Esto puso en evidencia la presencia de sesgo racial en los modelos usados, y fruto de ésto se hicieron estudios al respecto que lo demostraron.

Si bien las medidas para evitar el sesgo van a venir fundamentalmente de una definición y tratamiento muy cuidadosos de esa fase de recogida y tratamiento de datos, también es posible aplicar algunas medidas en la propia concepción del modelo. Por ejemplo, ‘ayudar’ al modelo a no sobrevalorar determinadas condiciones, imponiendo contrapesos en su objetivo (evitando el overfitting o sobre-entrenamiento, que se produce cuando entrenamos un modelo con un conjunto de datos insuficientemente representativo del escenario a analizar).

Como vemos, no es nada fácil el dilema que se le plantea a la empresa. Involucra temas legales, de procedimiento, técnicos e incluso, morales.

Si necesita ayuda en la definición y diseño de estos mecanismos, desde OGA podemos ayudarle.

No pierda la oportunidad de asistir el próximo 22 de abril, en el Tech Park de Málaga, al Primer Encuentro sobre ‘La ética en la inteligencia artificial’ donde, de la mano de APD, contaremos con la presencia de Carmen Artigas, Secretaria de Estado para la Digitalización e IA. Punto de encuentro donde tendremos la oportunidad de debatir, junto a destacados ponentes, de estos interesantes y cada vez más importantes aspectos de la transformación digital que la aplicación de la IA está generando en nuestra economía y en nuestra sociedad.

Acerca del autor

Autor
Jaime Nebrera oga
Jaime Nebrera
Big Data Consultant / Project Manager en oga

Consultor especializado en nuevas tecnologías y Big Data.

Pionero en España en la utilización de tecnologías tan de vanguardia como Apache Kafka y Druid, cuenta con un amplio bagaje en el diseño de productos tecnológicos innovadores.