Así es como científicos gringos hacen que la IA aprenda el lenguaje como lo hace un niño

Los resultados de este trabajo de investigadores de la Universidad de Nueva York ofrece información sobre cómo aprendemos palabras y conceptos y servirá para desarrollar sistemas de IA que usen el lenguaje de forma más parecida a la humana.

Por Agencia Sinc

Entre los seis y los nueve meses de edad, los niños aprenden sus primeras palabras y empiezan a relacionarlas con objetos y conceptos del mundo real. Cuando tienen entre 1,5 y dos años, la mayoría puede comprender una media de 300 palabras. Sin embargo, no se sabe bien cómo las adquieren y las relacionan con sus equivalentes visuales.

Comprender mejor este proceso podría servir de base a los sistemas de inteligencia artificial (IA) de nueva generación que desarrollan vínculos entre las palabras y las representaciones visuales.

Los actuales sistemas de IA, como Chat GPT-4, ya pueden aprender y utilizar el lenguaje humano, pero lo hacen a partir de cantidades astronómicas de datos lingüísticos, mucho más de lo que reciben los niños cuando aprenden a entender y hablar. Los mejores sistemas de IA se entrenan con textos que contienen billones de palabras, mientras que los niños solo reciben millones al año.

Debido a esta enorme laguna de datos, los investigadores se han mostrado escépticos ante la posibilidad de que los recientes avances de la IA puedan decirnos mucho sobre el aprendizaje y el desarrollo del lenguaje humano.

Para avanzar en este ámbito, un equipo de la Universidad de Nueva York (NYU, por sus siglas en inglés) decidió desarrollar un nuevo modelo de aprendizaje automático, no a partir de datos masivos, sino tomando como ejemplo la experiencia de cómo aprende a hablar un único niño, al que llamaron bebé S. Los resultados del estudio se publican ahora en Science.

Los autores diseñaron un experimento que consistió en entrenar un sistema de IA multimodal a través de los ojos y los oídos de bebé S. Para ello utilizaron grabaciones de vídeo de una cámara frontal que recogieron desde que tenía seis meses hasta su segundo cumpleaños. Y examinaron si el modelo podía aprender palabras y conceptos presentes en la experiencia cotidiana de un niño.

Wai Keen Vong, investigador de la universidad estadounidense y primer firmante del estudio, explica a SINC que en su ensayo utilizaron el conjunto de datos SAYCam, “un recurso muy rico e interesante que consiste en vídeos capturados con cámaras montadas en la cabeza en niños en desarrollo”.

“Nos centramos en un solo niño (bebé S) porque era el que tenía la mayor cantidad de datos del habla transcritos y esto nos facilitaba la tarea de modelarlo. Todo ser humano necesita aprender a hablar a partir de su propia información –y no de la de otros–, por lo que explorar si es posible adquirir aspectos del lenguaje con un modelo computacional, a partir de la información sensorial de un solo niño, es una forma única de abordar esta cuestión”, subraya este científico de datos y experto en IA.

Las conclusiones del estudio demuestran que el modelo, o red neuronal, puede aprender un número considerable de palabras y conceptos utilizando fragmentos limitados de la experiencia del niño. El coautor aclara que los vídeos solo captaron alrededor del 1 % de las horas de vigilia de bebé S, pero fue suficiente para nutrir su modelo.