Principal Innovación Google AI Now permite a los usuarios traducir texto instantáneamente en 27 idiomas con cámaras telefónicas

Google AI Now permite a los usuarios traducir texto instantáneamente en 27 idiomas con cámaras telefónicas

¿Qué Película Ver?
 
(GIF: Google)

(GIF: Google)



Gracias a la inteligencia artificial, viajar al extranjero nunca ha sido más sencillo.

La aplicación Google Translate permite a los usuarios traducir texto al instante. En la aplicación, simplemente apunte su cámara al texto que desea traducir y verá cómo se transforma en el idioma deseado en vivo, justo ante sus ojos, sin necesidad de conexión a Internet ni datos de teléfono celular. Esta práctica función ha estado disponible durante algún tiempo, pero solo había sido compatible con siete idiomas. Ahora , gracias al aprendizaje automático, Google ha actualizado la aplicación para traducir instantáneamente 27 idiomas.

Entonces, la próxima vez que esté en Praga y no pueda leer un menú, lo respaldamos, escribió Otavio Good, ingeniero de software de Google, sobre la investigación de la empresa blog .

Google también usó IA para reducir a la mitad sus errores de reconocimiento de voz.

A partir de hoy, además de traducir entre inglés, francés, alemán, italiano, portugués, ruso y español, los siguientes 20 idiomas también se pueden traducir en tiempo real: búlgaro, catalán, croata, checo, danés, holandés, filipino, Finlandés, húngaro, indonesio, lituano, noruego, polaco, rumano, eslovaco, sueco, turco y ucraniano. Y si opta por tomar una foto en lugar de ver la traducción del texto en vivo, se admiten un total de 37 idiomas.

Entonces, ¿cómo pudo Google aumentar la cantidad de idiomas disponibles? Primero adquirieron Word Lens, anteriormente una aplicación de traducción de realidad aumentada, y utilizaron el aprendizaje automático y las redes neuronales convolucionales para mejorar las capacidades de la aplicación. Los avances en el reconocimiento de imágenes fueron clave.

Hace cinco años, si le daba a una computadora la imagen de un gato o un perro, tenía problemas para distinguir cuál era cuál. Gracias a las redes neuronales convolucionales, las computadoras no solo pueden distinguir entre gatos y perros, sino que incluso pueden reconocer diferentes razas de perros, dijo Good. Sí, sirven para algo más que arte trippy —Si está traduciendo un menú extranjero o firma con la última versión de la aplicación Traductor de Google, ahora está utilizando una red neuronal profunda.

Paso a paso

Primero , Translate debe eliminar el desorden de fondo y localizar el texto. Cuando localiza manchas de píxeles del mismo color, determina que son letras. Y cuando esas manchas están cerca unas de otras, entiende que es una línea continua para leer.

Próximo, la aplicación debe reconocer qué es cada letra individual. Aquí es donde entra el aprendizaje profundo.

Usamos una red neuronal convolucional, entrenándola con letras y no letras para que pueda aprender cómo se ven las diferentes letras, lee la publicación del blog.

Los investigadores tuvieron que entrenar el software utilizando no solo letras limpias, sino también sucias. Las letras en el mundo real están empañadas por reflejos, suciedad, manchas y todo tipo de rarezas, escribió Good. Así que construimos nuestro generador de letras para crear todo tipo de suciedad falsa para imitar de manera convincente el ruido del mundo real: reflejos falsos, manchas falsas, rarezas falsas por todas partes. Algunos de los

Algunas de las cartas sucias que se usan para entrenar. (Foto: Google)








La tercera El paso es buscar las letras reconocidas en un diccionario para obtener las traducciones. Y para un intento adicional de precisión, las búsquedas en el diccionario son aproximadas en caso de que una S se lea mal como un 5.

Finalmente, el texto traducido se representa sobre el original con el mismo estilo.

Podemos hacer esto porque ya hemos encontrado y leído las letras en la imagen, por lo que sabemos exactamente dónde están. Podemos mirar los colores que rodean las letras y usarlos para borrar las letras originales. Y luego podemos dibujar la traducción en la parte superior usando el color de primer plano original, dice la publicación del blog.

Para ser lo más eficiente posible y permitir que todos estos pasos se completen en tiempo real sin una conexión a Internet o de datos, el equipo de Google desarrolló una red neuronal muy pequeña con un límite superior en la densidad de información que puede manejar. Dado que estaban generando sus propios datos de entrenamiento, era importante incluir los datos correctos pero nada adicional para que la red neuronal no esté usando demasiada densidad de información en cosas sin importancia. Un ejemplo sería cómo necesita reconocer una letra con una ligera rotación, pero no demasiado.

Al final, los usuarios se quedan con 20 idiomas más pero con la misma velocidad.

VEA TAMBIÉN: El equipo de inteligencia artificial de Google nos dio la verdad sobre su investigación de aprendizaje automático

Artículos Que Le Pueden Gustar :