Inicio Articulos. Guía práctica del reconocimiento de voz. 2a. parte

Guía práctica del reconocimiento de voz. 2a. parte

Guía práctica del reconocimiento de voz. 2a. parte
Utilice el reconocimiento de voz para abatir sus costos y aumentar sus ingresos

Por Donna M.Fluss*

Obstáculos que frenan la penetración en el mercado

Existen tres obstáculos principales que frenan la penetración de los sistemas de reconocimiento de voz en ambientes de servicio: lenguajes de programación propietarios, dificultad para desarrollar interfaces que funcionen bien, y el costo y tiempo necesarios para desarrollar aplicaciones de voz.

El primero de estos desafíos, los lenguajes de programación cerrados y propietarios, está siendo abordado mediante VoiceXML. Introducido a finales de 1998, VoiceXML es un estándar de desarrollo abierto, no propietario para aplicaciones de voz que está cambiando la percepción de la dificultad de programar aplicaciones de voz. Los cuatro principales proveedores de soluciones de voz –Nuance,SpeechWorks, IBM y Philips– apoyan los estándares VoiceXML y participan en comités de la industria que buscan mejorar este lenguaje. VoiceXML aún se encuentra en proceso de maduración, por lo que aún faltan de 3 a 5 años para que sea lo suficientemente flexible y completo para manejar las aplicaciones de voz más sofisticadas. Los desarrolladores todavía necesitan utilizar lenguajes de desarrollo cerrados y propietarios para programar aplicaciones avanzadas de voz, pero VoiceXML es muy adecuado cuando se trata de funcionalidad básica.

El segundo gran obstáculo radica en la dificultad para diseñar guiones e interfaces de usuario eficaces, es decir, cómo el sistema de reconocimiento de voz se comunica e interactúa con los usuarios (clientes internos o externos) y distingue entre aceptación del cliente y rechazo de una aplicación de voz. La falta de auténticos expertos en el tema de elaboración de guiones y diseño de interfaces (científicos de voz) está exacerbando este problema, al igual que las empresas que afirman tener experiencia en este terreno cuando a todas luces no la tienen. Muchos revendedores y compañías de consultoría en sistemas de reconocimiento de voz aseguran contar con los recursos para diseñar aplicaciones de reconocimiento de voz fáciles de usar, pero la experiencia continúa orillando a prospectos y usuarios una vez más hacia los proveedores primarios cuyos experimentados científicos de voz han diseñado más de cinco sistemas. Si necesita contratar expertos externos en elaboración de guiones e interfaces de usuario, evite salidas en falso verificando primero que la empresa con la que está trabajando tenga programadores, guionistas y científicos de voz experimentados. Recurra a gente que haya desarrollado por lo menos cinco aplicaciones y esté familiarizada con su industria.

El tercer impedimento que frena las inversiones en tecnologías de reconocimiento de voz es la percepción de que es muy costoso desarrollar aplicaciones de voz (ver nota 1) y que las inversiones en otras tecnologías y aplicaciones reditúan más y con mayor rapidez. A los gerentes les cuesta trabajo justificar inversiones en tecnologías de voz, aún cuando el tiempo para recuperar la inversión en un ambiente de servicio puede ser tan corto como seis a nueve meses, incluso para una aplicación complicada. Una aplicación de administración de respuestas a correo electrónico implementada con los procedimientos y procesos adecuados podría tener un mayor ROI, y es probable que, una vez que el software analítico de CRM cumpla su promesa de incrementar los ingresos, también tenga un ROI más alto. Pero hay pocas probabilidades de que esto se dé pronto, por lo que, en el futuro previsible, el reconocimiento de voz parece ser el claro vencedor.

Si el reconocimiento de voz sigue una trayectoria parecida al mercado de IVR, la tecnología en tendrá una aceptación generalizada en las empresas hasta en tanto éstas puedan ser propietarias de sus recursos de desarrollo e interfaces. (Debido a que estas aplicaciones cambian frecuentemente, en ocasiones a diario, es importante estar cerca de los recursos). VoiceXML aborda la cuestión de la programación pero no el reto de la elaboración de guiones e interfaces. Los verdaderos expertos en elaboración de guiones e interfaces de cliente para reconocimiento de voz son escasos, muchos tienen doctorados en habla y campos afines y son sumamente caros. Al ritmo actual pasarán de 3 a 5 años antes de que exista un mercado de científicos de voz calificados.

Factores que determinan la aceptación y adopción de esta tecnología

Cuando la economía empiece a recuperarse, el reconocimiento de voz tendrá gran demanda en Centros de Contacto para automatizar el manejo de las llamadas y facultar al cliente para que pueda atenderse a si mismo. Los ambientes de servicio podrán hacer “más con menos”, utilizando menos agentes nuevos para manejar el creciente volumen de llamadas. Sin embargo, el éxito con el reconocimiento de voz sólo se dará si la implementación se facilita a través de herramientas de desarrollo más simples y estandarizadas (VoiceXML), así como de mejores recursos para la elaboración de guiones e interfaces de usuario.

Hay dos tendencias que podrían acelerar la aceptación de aplicaciones de voz en ambientes de servicio: el uso cada vez más generalizado de tecnologías de voz para muchas funciones, desde teléfonos celulares a manos libres hasta automóviles parlantes, y los proveedores de servicios de aplicación (ASPs) y proveedores de aplicaciones empaquetadas.

Los proveedores de aplicaciones empaquetadas y ASPs de voz (ver nota 2) están tratando de abordar las limitaciones actuales de reconocimiento de voz con sistemas verticalizados, listos para usarse sin mucho trabajo de adaptación. Desafortunadamente, muchas de las empresas que buscan atajos para incursionar en el mercado de voz no estén dispuestas a sacrificar sus factores de diferenciación en el servicio; es decir, no quieren usar la misma aplicación que sus competidores.

Los ASPs de voz y proveedores de soluciones empaquetadas van por buen camino al ofrecer aplicaciones verticalizadas, pero necesitan modificar sus modelos de negocios. Las aplicaciones genéricas constituyen un buen punto de partida, pero los ASPs de voz necesitan proveer además servicios de desarrollo de aplicaciones e interfaces de cliente a precios razonables.

La creciente demanda de aplicaciones de reconocimiento de voz fuera del Call Center

Hasta el año 2000, el uso predominante del reconocimiento de voz en call centers era en combinación con aplicaciones IVR. Dado que el habla sigue siendo la forma más ubicua de comunicación y es poco probable que sea reemplazada por la web en los próximos cinco años, se ha presentado una creciente demanda de aplicaciones habilitadas para voz en muchas industrias que buscan abatir costos y mejorar al mismo tiempo la calidad del servicio. Que aquí algunas aplicaciones:

• Contenido
Cotizaciones del mercado bursátil, deportes, noticias, clima, horóscopos;
• Venta al menudeo
Colocación de pedidos, verificación de precios y disponibilidad de artículos en inventario, ubicación de tiendas y direcciones;
• Telecomunicaciones
Marcación activada por voz, portales de información, lectores de e-mail a través del teléfono; asistencia de directorio — consulta de números telefónicos habilitada por voz para sustituir a las operadoras explotadas y a menudo groseras que no deberían estar atendiendo al público;
• Publicidad
Publicidad a base de permisos para aprovechar el tiempo que el cliente espera a que le atienda un representante;
• Gobierno
Solicitud de créditos, verificación del status de trámites, ubicación de las oficinas de correos más cercanas, instrucciones sobre cómo llegar;
• Transporte
Proporcionar itinerarios de ferrocarril y aerolíneas, hacer reservaciones, modificar o cancelar reservaciones, consultar tarifas y disponibilidad de hoteles, consulta de saldos en programas de lealtad;
• Servicio en campo
Verificación del estatus de piezas de repuesto, programación de visitas de servicio, colocación de pedidos para reparaciones y partes;
• Entretenimiento
Identificar la ubicación de películas o espectáculos, reservaciones restaurantes, compra de boletos, instrucciones sobre cómo llegar;
• Tarjetas de crédito
Autenticar la identidad del cliente, consultar saldos y crédito disponible, hacer pagos y transferencias de fondos, solicitud de copias de estados de cuenta, activación de cuentas, reporte por robo o extravío, nuevas promociones de mercadotecnia;
• Call Center
Información sobre productos y servicios, pagos, pedidos, consulta de estatus de pedidos, actualización de información personal, solicitudes de crédito, solicitud de empleo, ubicación de tiendas, pago de recibos, información de precios, promociones de mercadotecnia;
• Servicios de mensajería
Solicitud de recolección de paquetes, consulta del estatus de paquetes, ubicación de oficinas e instrucciones para llegar, cálculos de tarifas;
• Automotriz
Instrucciones básicas sobre el uso o características del automóvil;
• Energía
Monitoreo de medidores, reporte de fugas de gas, pagos, consulta de fecha límite de pago.

La tecnología subyacente que hace posible el reconocimiento de voz está madurando, abriendo nuevas oportunidades y ampliando sus usos potenciales en todas las industrias. Por ejemplo, ya se encuentran en desarrollo tecnologías de conversión de voz a texto (Speech-to-Text o STT) independientes del hablante que podrían ser viables en los próximos 3 a 5 años. Las aplicaciones STT independientes del hablante tienen un enorme potencial en los mercados de CRM y call center, pues abren la posibilidad de llevar a cabo un análisis temático de las conversaciones con el cliente, lo que le permitirá a las empresas minar estas interacciones en busca de nuevas oportunidades de generación de ingresos (siempre que se dé la debida consideración al tema de la privacidad).

Las organizaciones de mercadotecnia están ansiosas por capturar y aprovechar la información compartida libremente por el cliente a través del call center pero aún no cuentan con las herramientas automatizadas para entender plenamente las intenciones del cliente. La tecnología STT independiente del hablante pone a su alcance esas herramientas.

Figura 1: Tecnologías de voz

Continuará…