Lo más difícil de hacer realidad el título de este artículo no es que el robot entienda lo que le pedimos. Es que sepa reconocer la taza. Que no la confunda con un vaso. O con un bote de mayonesa. Especialmente si está rodeado de otros recipientes y no lo puede ver bien. Los ordenadores actuales tienen dificultades para reconocer objetos. Necesitan comparar lo que ‘ven’ con las imágenes que han visto anteriormente. Si la orientación de la imagen no coincide, o si el objeto no es exactamente igual que la imagen de referencia, entonces el robot necesita un tiempo para calcular. Y se cometen todavía muchos errores. Tantos que hacen inviable la idea de contar con un asistente personal robótico para que nos ayude en la cocina.
Parte del problema se basa en que si hay varios objetos, como sería normal en una cocina, el robot necesita mirar desde varios ángulos y comparar cada uno de ellos entre sí y con la imagen previa de la base de datos. Supongamos un robot que tuviera que reconocer un objeto en un grupo de cuatro. Una tarea no muy complicada, a priori. Pero para estar seguro de que lo ha visto todo correctamente, el robot mira desde dos perspectivas. “Si solo tomas el resultado de mirar desde un punto de vista, hay muchos objetos que pueden no verse, o puede ser el ángulo de iluminación o algo que bloquea el objeto que causa un error sistemático en el detector. Una manera de evitarlo es tan solo moverse e ir a un punto de vista diferente”, explica el estudiante de ingeniería eléctrica y computación en el Instituto de Tecnología de Massachusetts (MIT), Lawson Wong. Desde una ve solo tres objetos. Desde la segunda ve los cuatro. Ahora, la tarea que tiene que realizar el robot es comparar las dos imágenes para ver cómo se corresponden y compararlas con la base de datos de imágenes.
¿Sencillo? En absoluto. Ahí empiezan los problemas. Incluso en un escenario tan simple, el robot tendría que realizar 304 comparaciones distintas antes de estar seguro de qué objeto es cada cual. Esto es porque el sistema necesita comparar sucesivamente todas las posibles combinaciones de una y otra imagen. Para acabar con el problema el equipo de investigadores del MIT que lidera Wong ha diseñado un nuevo algoritmo que permite reducir esos cálculos y acercar ese futuro en el que un ordenador doméstico pueda pasarnos la taza del desayuno. La solución la ha buscado Wong en simplificar. Realmente, si se trata de reconocer si una taza es una taza, el ordenador acierta la mayoría de la veces, así que no es necesario tener en cuenta todas las hipótesis posibles. Comparando un número X de opciones tomadas al azar es muy probable que si hay consenso en la mayoría de hipótesis la respuesta sea la correcta. Luego solo hay que pedir al sistema que compare los objetos de las dos imágenes individualmente y que si tiene dudas se tome un momento para volver a comparar y decidirse. Así, en lugar de 304 posibilidades el robot solo tiene que tener en cuenta 32. Mucho más rápido y eficiente.