RECAPTCHA, o cómo tradujimos millones de libros sin saberlo.

Si hoy la problemática gira en torno a la privacidad y el análisis de big data por parte de grandes compañías, para vendernos publicidad, hace un tiempo era el spam.

Hoy los algoritmos están ganando la guerra y lograron filtrarlo bastante, pero en los 2000 la cantidad de correos basura que intentaban venderte Viagra o aquellos que te anunciaban que eras el acreedor de una suma millonaria eran cosa de todos los días. Era un calvario.

Al menos hasta que nació el CAPTCHA, creado de la mano de investigadores de la Universidad de Carnegie Mellon, en Estados Unidos, liderados por el guatemalteco Luis von Ahn. El CAPTCHA, 
que significa en castellano "Prueba de Turing Completamente Automática y Pública para Diferenciar Ordenadores de Humanos", era un test donde se podía ver un texto borroneado que las computadoras no podían descifrar pero que los humanos sí. De esta manera se podía bloquear a los spambots que llenaban a la web de basura.

El tema es que los diseñadores no estaban contentos con este sistema porque había millones de personas que estaban traduciendo palabras todos los días solo demostrando que eran humanos. Sentían que ese tiempo perdido podía utilizarse para más. Por ese motivo von Ahn, intentando pensar un nuevo sistema, no paró de preguntarse qué podían crear para poder hacer algo útil con esas millones de traducciones. Así es como nació el reCAPTCHA.

El funcionamiento de este nuevo sistema era de lo más similar a la anterior versión, pero detrás había algo que demostraba que von Ahn era un genio. La tecnología pedía traducir palabras o números para poder verificar que eras un humano y no un bot, pero había algo más. Además de estar demostrando la humanidad, los usuarios estarían traduciendo palabras de textos reales.

Las personas debían traducir dos palabras. Una de esas era la que confirmaría que había un humano detrás y la otra era la que estaría en un texto de archivo en malas condiciones y difíciles de identificar para una computadora traductora. En principio esa tecnología fue usada para traducir los archivos del New York Times y tiempo después fue vendida a Google que la usó para traducir viejos libros.


Pero como sucede muchas veces, grandes desarrollos que sirvieron mucho en algunas épocas quedan obsoletos con el paso del tiempo. Eso pasó con el reCAPTCHA. Google hizo una investigación en 2014 y determinó que sistemas de inteligencia artificial podían descifrar las palabras de éstos sistemas en un 99.8%.

Y así es como nació el famoso "I'm not a robot", una nueva creación de Google llamada "No CAPTCHA reCAPTCHA" que no se encarga de evaluar la capacidad de un usuario para descifrar un texto sino en estudiar su comportamiento online. 


Mientras el usuario está en la página web, el algoritmo estudia cómo interactúa la persona con los contenidos que ve y en base a eso determina si es un robot o no. Después, para pasar la prueba, lo único que deberá hacer es tocar un botón que indica que no sos un robot. Si el algoritmo considera que su comportamiento es el de una persona, lo dejará pasar. Sino, le mostrará imágenes que tendrá que identificar para seguir adelante.


Está claro que la carrera entre los spambots y los desarrolladores no terminará acá, pero en el proceso, nosotros tradujimos millones de libros.

0 Comentarios