Para BlastingTalks - entrevistas exclusivas de Blasting News con líderes empresariales y culturales - entrevistamos a Manuel Herranz, CEO de Pangeanic, plataforma de traducción neuronal que utiliza tecnología inteligente diferenciándose de los traductores en línea por su precisión y calidad “casi” humana.
Blasting News: Pangeanic, es la empresa líder española en servicios de traducción que aparte del factor humano utiliza tecnología inteligente con calidad humana, ¿cómo surge esta idea?
Manuel Herranz: Surge escuchando las necesidades de nuestros clientes, partiendo de los días de la traducción humana, cuando casi todo nuestro trabajo se basaba en traducir manuales de instrucciones, nuestros clientes querían más, más rápido y más barato, estoy hablando del año 2007-2008… Ya entonces estábamos interesados en acumular datos y las relaciones entre idiomas, y comenzamos a colaborar con la Politécnica y el ITI en Valencia, iniciamos unos programas de investigación y desarrollo de cómo la estadística podía calcular las posibilidades de que ciertas palabras sucediesen cuando ocurrían otras tantas en un idioma.
Ahora nos parece un juego de niños, pero en aquellos momentos era absolutamente rompedor. Tuvimos una colaboración de 2 años con Toshiba para hibridar su tecnología basada en reglas con nuestros algoritmos probabilísticos y publicamos varios artículos académicos.
En 2017 iniciamos nuestro camino con las redes neuronales y ahí sí dimos el gran salto en calidad “casi humana” en muchos idiomas, y en otras áreas del procesamiento del lenguaje natural.
La plataforma de traducción neuronal puede aprender el vocabulario de diferentes países con la facilidad con la que aprende un niño, consiguiendo unos resultados increíbles ¿Cómo funciona este sistema y cuánto tarda en dar resultados?
Lo que hace nuestra tecnología Deep Adaptive es priorizar la terminología del usuario, es decir, si un usuario de nuestra plataforma tiene unas preferencias muy especiales porque trata documentos financieros, es posible que emplee términos como “aprovisionamientos” que no tienen nada que ver con el hecho de acumular pertrechos o comida, o que el concepto de “Haber y Debe” o “Entradas” o “Salidas” no tenga una traducción literal de “haber” o de “salida”, porque se refieren a activos y pagos, respectivamente.
Un motor gratuito y generalista, como los que todos conocemos, nos ofrece una traducción que puede ser bastante buena, pero fuera de contexto puede resultar graciosa, y cuando se trata de comprender profesionalmente lo que te están diciendo o presentar informes, no hay humor que valga. Esas preferencias de los usuarios son material que nosotros aprovechamos para que nuestras máquinas aprendan el estilo periodístico, el estilo jurídico, financiero, de diálogos en películas, etc.
Un Google o un Bing, en línea, no te pueden ofrecer ese tipo de personalización.
Lo mejor de todo: si el cliente tiene datos paralelos, listas de terminología, etc., se tardan minutos en que nuestras máquinas aprendan el estilo que queremos que adopten.
¿Esperaba el éxito que ha cosechado Pangeanic, en tan poco tiempo, ganando proyectos para la Comisión Europea como NTEU, NEC-TM o iADAATPA?
Cada proyecto ha sido un paso hacia la construcción y mejora de tecnologías que en la actualidad están disfrutando clientes como la Agencia Tributaria, la agencia EFE y empresas en EEUU, España, Japón, etc.
Ganar nuestro primer proyecto europeo, que la Comisión Europea nos dijese “sí, creemos en lo que podéis hacer y podéis construir con vuestra traducción automática” fue todo un espaldarazo, desde entonces no hemos echado la vista atrás y cada año desarrollamos nuevas funcionalidades que ya no están relacionadas con la traducción.
Por ejemplo, la anonimización, el proyecto MAPA va a servir para que un sinfín de administraciones públicas europeas anonimicen datos para poder cumplir con dos mandatos: datos abiertos y transparencia por una parte y la anonimización para respetar los derechos de los ciudadanos en cumplimiento con la RGPD.
¿Qué ventajas tiene Pangeanic comparado con cualquier otro traductor gratuito de los que hay por la red como Google Translate?
¡Muchas! Desde la privacidad (nuestros clientes quieren adaptar los motores como he explicado anteriormente) para que los motores funcionen en la nube privada del cliente o su infraestructura, hasta la capacidad de adaptación y de clonación de motores, de reentrenamiento.
Además, nuestra plataforma ECO no solo traduce, anonimiza, clasifica datos según el campo al que pertenecen. Imaginemos miles de documentos escaneados en diversos idiomas que tenemos que clasificar entre pólizas de seguros, contratos, informes médicos. O dentro de un hospital, informes de pacientes, material que entra de terceras partes.
Reducir lo que hace Pangeanic a la traducción automática es simplificar mucho las cosas. La traducción o la detección de idioma juega un papel muy importante, pero algunos de nuestros usuarios solo quieren anonimizar textos en su idioma.
Un punto muy a favor de Pangeanic es la confidencialidad de los datos introducidos, ¿La privacidad suele ser importante para las empresas que contratan traducciones o es un punto que muchas veces no se tiene en cuenta?
Cada día tiene más importancia, va creciendo la comprensión de que tal vez no seamos dueños de muchas cosas, pero que lo que se conoce como “soberanía de datos” tiene un papel muy relevante en la protección por parte de los gobiernos de los datos de los ciudadanos, y las empresas también; la privacidad de datos no tiene porqué ser cara.
Este concepto es el que nos llevó a ganar otro proyecto europeo: MAPA, para crear un anonimizador de datos para las administraciones públicas como los ombudsman europeos, la propia Comisión que lo están considerando como servicio a sus instituciones, etc.
¿Cómo ha afectado el Coronavirus a Pangeanic a nivel empresa y a nivel humano?
Bueno, obviamente no trabajamos igual. De casi los 40 trabajadores que somos, solo unos 8 van al despacho a diario, han optado por ello. El resto ha preferido quedarse en casa a trabajar, lo cual es muy comprensible.
Es cierto que se interacciona menos con los compañeros y pierdes un poco ese sentimiento de pertenecer a un grupo, casi toda la comunicación tiene lugar a través de Slack, videollamadas, etc.
Pero también es así con los clientes.
Vender es más complicado porque nadie te recibe y has de organizar webinarios informativos donde explicar lo que haces, lo que tienes, cómo lo haces y cómo vas a ahorrar.
La web se ha convertido en un elemento clave para diseminar información tanto dentro como fuera de la empresa, a externos y al personal interno.
El volumen de trabajo, ¿ha aumentado o disminuido con el COVID-19?
Aumentó de hecho, tuvimos previsión y movimos todas nuestras operaciones a casa el jueves antes del famoso sábado. El 60% de nuestro negocio está en EEUU y todavía pensaban que el COVID era algo que pasaba en China y en Europa, un poco lo que nos pasó a los europeos con China y a los españoles con Italia.
Así que durante meses, estuvimos trabajando como locos en proyectos de creación de datos para alimentar sistemas de inteligencia artificial, no paramos, de hecho crecimos un 40%.
¿De qué trata el proyecto NTEU (Neural Translation for the EU)?
Hemos creado, junto a dos socios europeos, la primera granja de motores basados en redes neuronales que no pivota por el inglés. Los motores están diseñados para su uso en las administraciones públicas y ya hay algunas que han demostrado su interés entre los 27.
Hemos adquirido mucha experiencia en la industrialización de procesos y en el “ajuste fino” de lenguas dispares, además de crear unos procesos de adquisición de datos muy muy muy sofisticados que nos permiten crear motores de traducción en prácticamente cualquier combinación lingüística que necesiten nuestros clientes.
¿Qué planes de futuro tiene Pangeanic?
Acabamos de absorber una oficina en Tokio para expandirnos allí, sobre todo en tecnologías de Procesamiento del Lenguaje Natural (PLN): anonimización, traducción automática, etc. Hemos incrementado nuestra fuerza de ventas en EEUU y haremos lo propio en Europa, el plan es triplicar nuestra facturación en los próximos 3 años con una mezcla de ventas basadas en suscripciones a nuestra plataforma y adquisiciones.
¿Cómo cree que será el futuro en lo referente al servicio de traducción de textos?
Para parafrasear a Chris Wendt, recientemente jubilado y creador del traductor de Microsoft, Bing Translator, digamos que no es una carrera que le recomendaría a mis hijos.
Ahora bien, hay muchas aplicaciones relacionadas con la lingüística que sí tienen un enorme futuro como ciencias de datos, como ajuste fino de motores lingüísticos de todo tipo. Es el toque humano precisamente, el poder de decisión, la adaptación cultural lo que dará valor a muchos textos, no simplemente el hecho de traducir.
Algunos traductores suelen enrocarse e insistir en el valor del humano, y lo hay, pero es cuestión de tiempo, datos y adaptación. Fíjate lo bien que salen los vídeos deep fake con Lola Flores o Dalí, e incluso imitan sus voces y su deje; pues ese es nuestro trabajo como empresa tecnológica de PLN: enseñar a las máquinas a entender, procesar y redactar como humanos.