El reconocimiento emocional es una forma de IA que está diseñada para analizar expresiones faciales e identificar emociones como felicidad, tristeza, disgusto, enojo, miedo y sorpresa. La tecnología utilizada es una combinación de visión por computadora y algoritmos de redes neuronales profundas convolucionales, para analizar imágenes o videos de los rostros de las personas e identificar patrones que corresponden a emociones específicas.
Es importante señalar que la tecnología de reconocimiento de emociones aún se encuentra en sus primeras etapas, y la industria lleva a cabo investigaciones continuas para mejorar su precisión.
Calidad de la imagen o video: La tecnología es más propensa a producir resultados precisos cuando las imágenes o videos que se analizan son de alta calidad, con rostros claros y bien iluminados. Factores como una resolución muy baja, mala iluminación o el ángulo de la cámara pueden dificultar que el algoritmo identifique emociones con precisión.
Algoritmo: Diferentes algoritmos tienen diferentes niveles de precisión. El presente algoritmo utiliza técnicas de aprendizaje profundo como redes neuronales convolucionales (CNN) y está entrenados en grandes conjuntos de datos. Este tipo de algoritmos se considera más preciso que los que utilizan técnicas de aprendizaje automático tradicionales.
Datos de entrenamiento: La precisión de la tecnología de reconocimiento facial de IA emocional también puede verse afectada por la calidad y diversidad de los datos de entrenamiento a los que ha estado expuesto el algoritmo. El presente algoritmo está entrenados en un conjunto de datos diverso de imágenes y videos de personas de diferentes edades, géneros y etnias. Es probable que sea más precisos que aquellos que están entrenados en un conjunto de datos más limitado.
Condiciones de iluminación: La interacción entre la luz y la piel, conocida como refracción de la luz, varía significativamente entre diferentes tonos de piel. Esta variación no es una cuestión de mejor o peor rendimiento, sino que depende del contexto: en condiciones de poca luz, la precisión del reconocimiento facial en tonos de piel más claros podría ser mayor, mientras que en entornos bien iluminados, los tonos de piel más oscuros pueden ser detectados con mayor precisión. Estas diferencias, atribuibles a la física de la interacción de la luz, pueden tener un impacto más sustancial en la precisión del reconocimiento que los sesgos mínimos que se han minimizado a través del entrenamiento de la IA utilizada en este sitio, con un conjunto de datos vasto y diverso.
Influencia del género, la etnicidad y la clase social: Existe un grado de sesgo en estas tecnologías, particularmente en lo que respecta a la raza, género y nivel socioeconómico. Como resultado, es importante ser consciente de estos sesgos y tomar medidas para mitigarlos.
En lo que respecta al sesgo, el estudio “Interseccionalidad en la señalización y reconocimiento de emociones: La influencia del género, la etnicidad y la clase social”, examinó cómo estos factores influyen en la señalización y reconocimiento de 34 estados en el comportamiento expresivo dinámico de cuerpo completo. Ciento cincuenta y cinco asiáticos, latinos y europeos americanos expresaron 34 estados emocionales con sus cuerpos completos. Luego se recopilaron 22,174 calificaciones individuales de estas expresiones. De acuerdo con estudios recientes, las personas pueden reconocer hasta 29 expresiones multimodales de emoción de cuerpo completo. Ni el género ni la etnicidad influyeron en la señalización o reconocimiento de la emoción, en contra de la hipótesis. Sin embargo, la clase social sí tuvo influencia. De acuerdo con estudios anteriores, los individuos de clase baja resultaron ser más confiables en la señalización de emociones y más confiables en el juicio de las expresiones emocionales de cuerpo completo. La discusión se centró en la interseccionalidad y la emoción.
Además, muchos estudios han demostrado que la tecnología de reconocimiento de emociones es más precisa para ciertas emociones (por ejemplo, felicidad, enojo) que para otras (por ejemplo, tristeza, sorpresa), y hay un grado de variabilidad entre diferentes algoritmos, lo que hace que sea un desafío dar un número general para la precisión de estas tecnologías.
A pesar de esto, la precisión actual de la predicción de emociones puede considerarse entre el 70% y el 80% para casi todos los algoritmos en el mercado, incluyendo el utilizado en este sitio (Morphcast).
Fuentes:
Dupré, D., Krumhuber, E., Küster, D., & McKeown, G. J. (2019, September 26). Emotion recognition in humans and machine using posed and spontaneous facial expression. https://doi.org/10.31234/osf.io/kzhds
Monroy, M., Cowen, A. S., & Keltner, D. (2022). Intersectionality in emotion signaling and recognition: The influence of gender, ethnicity, and social class. Emotion, 22(8), 1980–1988. https://doi.org/10.1037/emo0001082