Inicio Articulos. Cómo implantar correctamente aplicaciones de reconocimiento de voz. 1ª. de 2 partes

Cómo implantar correctamente aplicaciones de reconocimiento de voz. 1ª. de 2 partes

Por

julio 1, 2006

Revista Mundo-Contact

En el presente documento presentamos seis claves para el éxito de las soluciones de autoservicio basadas en reconocimiento de voz. Estas claves encapsulan los factores que deben ser tomados en cuenta desde la óptica de negocios, funcional, técnica y organizacional al momento de implantar aplicaciones de autoservicio con reconocimiento de voz. Estos consejos pueden ayudarle a lograr una mayor aceptación por parte del cliente y mejorar su ROI a través de una implantación adecuada.

Cómo implantar correctamente aplicaciones de reconocimiento de voz. 1ª. de 2 partes

Seis claves para mejorar los índices de aceptación por parte del cliente y el ROI

Mike Ashe y Amber Fain*

Introducción

El autoservicio con reconocimiento de voz es una tecnología estable que ha estado presente desde hace muchos años y se ha venido desarrollando a partir de usos especializados hacia aplicaciones más genéricas en todas las áreas de atención. Muchas empresas ya han implantado soluciones de autoservicio que emplean reconocimiento de voz. Muchas otras están en proceso de evaluar su potencial. La meta de estas compañías no sólo es abatir costos, sino también mejorar el servicio al cliente. Alentadas por el éxito del autoservicio vía Web, estas empresas ven el potencial de poder aplicar los mismos principios fundamentales del autoservicio en Web al autoservicio con reconocimiento de voz, que incluyen un abanico más amplio de servicios, contenido más rico y búsquedas controladas por el usuario.

¿A qué se debe entonces que las compañías se sigan mostrando renuentes a ofrecer un portafolio bien surtido de opciones de autoservicio con reconocimiento de voz? Tal vez es temor a que las tasas de aceptación y éxito sean muy bajas. A menudo se menciona la falta de aceptación por parte del cliente y los índices de éxito inferiores a lo pronosticado cuando el autoservicio con reconocimiento de voz no está funcionando correctamente. El efecto directo para algunas empresas ha sido un retorno de la inversión (ROI) menor al esperado, y otras incluso han descontinuado sus aplicaciones de voz. Este riesgo lleva a muchos a plantear la pregunta: ¿cómo hacer que funcione el reconocimiento de voz en mi empresa?

La buena noticia es que las empresas ya no tienen que correr el riesgo de enfurecer al cliente y conformarse con un ROI bajo al adoptar soluciones de autoservicio con reconocimiento de voz. De hecho, hemos observado que la mayoría de estos problemas se deben al hecho de que la mayor parte de las aplicaciones de voz están siendo desarrolladas como aplicaciones autónomas, como si fuesen aplicaciones para Web. Sin embargo, cuando un cliente se comunica porque requiere atención, espera (o, mejor dicho, exige) una experiencia uniforme y consistente independientemente del canal. Las empresas que logran situarse a la altura de esta expectativa cosechan grandes beneficios.

Figura 1: Claves para una mayor aceptación por parte del cliente y un mejor ROI en el proceso de implantación de aplicaciones de reconocimiento de voz

Para una discusión más técnica sobre la implantación de aplicaciones de reconocimiento de voz, favor de consultar el documento Speech Recognition Redefines Self-Service, disponible en www.eLoyalty.com.

Clave #1:
Utilice un ROI de “inmersión profunda” para impulsar sus requerimientos

Supongamos que desear adoptar autoservicio con reconocimiento de voz en su empresa. Eso implica que se requerirán inversiones si aún no cuenta con el hardware, software o recursos humanos necesarios para implantar aplicaciones de este tipo. Tal vez también necesite invertir en recursos externos especializados que le ayuden a definir y desarrollar la aplicación. A fin de convencer a su empresa de invertir en autoservicio con reconocimiento de voz, necesita un ROI sólido y convincente*.

*Si aún no ha decidido si adoptar o no tecnología de reconocimiento de voz para sus aplicaciones de autoservicio, un análisis de ROI también puede ser muy útil al momento de tomar la decisión.

Si usted está en condiciones de estimar con exactitud el ROI, podrá decidir cómo extraer el máximo valor de su inversión en autoservicio de voz. Pero para poder hacer un buen cálculo del ROI con este tipo de aplicaciones, es necesario ir a profundidad. No se puede simplemente utilizar el número de llamadas entrantes por una tasa de éxito “sacada de la manga”. Un ROI confiable deberá estar basado en los siguientes datos:

Los tipos/motivos de llamada más comunes. El tiempo promedio de atención (AHT) para cada tipo de llamada. La composición del AHT para cada tipo de llamada. La proporción estimada de terminación / contención* con su sistema de audio respuesta (IVR) a base de tonos. La proporción estimada de terminación / contención con reconocimiento de voz, basado en el análisis detallado de tipos de entrada, complejidad de transacciones y disponibilidad de datos. La reducción estimada del tiempo en el manejo de llamadas similares en donde el cliente optó por salir del autoservicio.

*El punto clave para interpretar este punto es el siguiente: completion se refiere a las llamadas en donde el cliente completa o termina su llamada (esto puede requerir ser transferido a un Call Center para completar su servicio). Contención se refiere a las llamadas que se resuelven en el IVR… y por lo tanto no son transferidas a un call center para asistencia personal (ej. es un muro de contención), también le llaman retensión. Por ejemplo, en un Banco se espera que el IVR tenga una proporción de retensión al menos del 70%, esto es, que el 70% de las llamadas terminen en el IVR y solo el 30% se transfiera al Call Center. Obviamente lo que queda volando es si terminaron por que el cliente se frustró o por que satisfizo su requerimiento. Por lo regular se abusa de anglicismos, y quedaría completa “completación”/contención, pero entendiendo la idea tal vez puedan encontrar el mejor español para definirlo aunque se ocupen mas palabras (ej. llamadas transferidas al call center / llamadas terminadas en el autoservicio)

La capacidad para recabar y estimar estos datos en forma completa y correcta es fundamental para la solidez del ROI y para elevar los niveles de satisfacción del cliente. No exageramos cuando insistimos en lo valioso que es este cálculo. Hemos visto empresas que comienzan el proceso de implementación sin contar con datos sólidos como base para el cálculo. Una consecuencia es que se subestima el retorno, pues pasan por alto áreas clave que podrían generar rendimientos. Con un cálculo bien sustentado del ROI, estas compañías se habrían ahorrado muchos dolores de cabeza a lo largo del proceso y habrían tenido en la mira una meta más redituable para el proyecto.

Tipos y motivos de llamada más comunes

La mayoría de los centros de contacto han definido tipos (o motivos) de llamada, y generan reportes conforme a ellos en forma consistente. Los centros que en la actualidad no cuentan con reportes sofisticados pueden empezar por pedir a sus agentes que lleven una hoja de control a fin de comenzar a entender qué tipos de llamadas atienden. Es importante llegar a un cierto nivel de granularidad en el detalle. Por ejemplo, “pagos” puede resultar demasiado general como tipo de llamada. Sería mejor usar “historial de pagos”, “pago por teléfono” y “fecha de próximo pago” como tipos de llamadas.

Tiempo promedio de atención para cada tipo de llamada

Dependiendo de cuántos tipos de llamadas se reporten y de cómo estén integrados el sistema de CRM y de manejo de casos con el distribuidor automático de llamadas (ACD), resulta muy fácil reportar el tiempo promedio de atención. Para este cálculo es necesario tomar en cuenta tanto la duración de la llamada en sí como el trabajo posterior. Es importante evitar utilizar un tiempo de atención “promedio combinado” para todas las llamadas. Muchas llamadas, como por ejemplo las de consulta, son relativamente rápidas, mientras que otras, por ejemplo transacciones complejas, requieren mucho más tiempo. eLoyalty recomienda aplicar la siguiente fórmula para calcular el tiempo promedio de atención:

AHT = TT + HT + ACW
(Tiempo promedio de atención = Tiempo de conversación + Tiempo de espera + Tiempo de trabajo post llamada)

Composición del tiempo promedio de atención para cada tipo de llamada

De ser posible, se debe medir la composición del tiempo promedio de atención para cada tipo de llamada. Esto permite un cálculo más preciso del ROI. La composición típica de la llamada –es decir, el flujo que sigue la conversación– podría ser la siguiente en la mayoría de los tipos de llamada, ya sea que alguien desee consultar su saldo o que requiera llevar a cabo una función más compleja relacionada con un pedido, o incluso hacer una reservación:

Saludo
¿Cuánto tiempo toma saludar al cliente? Identificación
¿Cuánto tiempo se requiere para identificar al cliente que está llamando? ¿Cuenta con un sistema de identificación automática de número (ANI)? Motivo de la llamada
¿Cuánto tiempo se requiere para determinar el motivo que origina la llamada? Verificación
Algunos movimientos pueden requerir distintos niveles de verificación y autorización de la cuenta Recabar información con el cliente
¿Cuánto tiempo se requiere para recabar con el cliente la información necesaria para realizar el movimiento? Investigar información o realizar el movimiento
Se refiere al tiempo que lleva investigar en el sistema correspondiente cualquier otra información necesaria para realizar la operación. Es importante incluir en este cálculo, en su caso, el tiempo de espera y el motivo. Informar el resultado al cliente
¿Cuánto tiempo se requiere para reportarle al cliente los resultados de la operación? Cierre
Tiempo necesario para agradecer al cliente y despedirse.

Estos datos no siempre están disponibles en los Centros de Contacto, por lo que quizá necesite evaluar este punto antes de lanzarse a hacer el cálculo del ROI.

Estimación de la proporción estimada de terminación / contención con reconocimiento de voz.

Haga un estimado de la tasa de contención o llamadas completadas con voz para ver qué tanto se reducirán las llamadas al utilizar autoservicio con reconocimiento de voz. Si ya utiliza un sistema IVR tradicional a base de tonos como autoservicio, el índice de llamadas completadas con ese sistema le dará una buena idea para estimar esta cifra. Desde luego, la estimación depende de la capacidad funcional de la aplicación de voz (es decir, qué tipos de llamadas podrán ser atendidos dentro de la aplicación de voz). También es necesario considerar que, entre mayor sea la calidad de la aplicación, mayor será la aceptación (y utilización) por parte del cliente. Este es un punto importante en el que el ROI determina los requerimientos de la aplicación.

Un diagnóstico de 10 puntos para predecir la tasa de contención se realizará analizando factores tales como:

¿Cuántos datos se requieren? ¿Son datos numéricos, alfanuméricos o verbales? ¿Qué tan fácil sería desarrollar una “gramática”? ¿Cómo se realizan operaciones similares vía Web en la actualidad?

Reducción estimada en el tiempo de atención para las llamadas en las que el cliente prefiera abandonar el autoservicio

Hemos visto que la mayoría de las empresas subestima la disminución en el tiempo de atención para aquellas llamadas en las cuales el cliente prefiere abandonar el autoservicio para hablar con un representante. Otras simplemente no la consideran en sus cálculos. Una aplicación de reconocimiento de voz correctamente diseñada puede recabar mucha información. Esto es especialmente cierto si la aplicación está incorporada a su sistema de CRM mediante integración telefonía-cómputo (CTI). Un beneficio de esta integración es la capacidad para transferir al cliente con un representante junto con toda la información ya capturada y los pasos realizados hasta ese momento en el sistema IVR. Esto puede acortar considerablemente el tiempo de atención de estas llamadas, pues el agente puede continuar la llamada a partir del punto en que terminó el autoservicio. También mejora la experiencia del cliente, quien no sentirá que la porción autoservicio de su llamada fue una pérdida de tiempo. Cuando hablemos de la clave número 5 abundaremos un poco sobre este tema.

Clave #2:
Diseñe su aplicación para ser utilizada en el mundo real

Cada año, durante el encuentro de la industria llamado SpeechTek, los proveedores de aplicaciones de voz compiten desarrollando aplicaciones desde cero en cuestión de cuatro a seis horas. Este es posible gracias a que las plataformas de aplicación contienen funcionalidad estándar y reglas gramaticales prefabricadas que el usuario puede aprovechar. Sin embargo, diseñar y fabricar una buena aplicación de reconocimiento de voz que satisfaga las necesidades específicas de su negocio y sea ampliamente utilizada por sus clientes requiere mucho más esfuerzo y planificación.

Un buen diseño en una aplicación de voz es una mezcla bien balanceada de lingüística, arte y ciencia que preparará su aplicación para ser utilizada en el mundo real con una alta aceptación por parte del cliente.

Lingüística

Antes que nada, hay que utilizar instrucciones y preguntas que el cliente pueda entender fácil y rápidamente a fin de poder responder. No entender cabalmente la importancia del aspecto lingüístico en el diseño de una aplicación de reconocimiento de voz puede conducir a problemas de diseño como el que se muestra en el siguiente ejemplo:

Aplicación de voz: “¿Qué departamento desea?”
Cliente: “Óptica”
Aplicación de voz: “Me parece que dijo ‘Óptica’. Si no es correcto, diga ‘No’”
Cliente: “Sí”
Aplicación de voz: “Operación cancelada”
Aplicación de voz: “¿Qué departamento desea?”

Figura 2: directorio de servicios mediante reconocimiento de voz para un almacén departamental

Los sistemas de reconocimiento de voz pueden identificar la palabra "no" y sus variantes mejor que las respuestas afirmativas, por ejemplo “sí”. Los diseñadores en este ejemplo estructuraron la aplicación pensando en la tecnología, más que en el usuario. En consecuencia, cometieron un error al redactar la pregunta de verificación (vea la frase subrayada en el ejemplo), planteándola en forma de una doble negación para forzar al usuario a responder “no”. Esto hace que la instrucción resulte innecesariamente complicada de entender. La pregunta se elaboró sobre el supuesto de que cualquier cosa que no fuera silencio implicaba un “no” o una respuesta negativa, dando como resultado la cancelación de la elección previamente hecha por el usuario.

Al diseñar una aplicación de reconocimiento de voz considerando la perspectiva lingüística, concéntrese en redactar instrucciones que sean intuitivas y piense en todas las respuestas naturales que la gente podría dar.

CUESTIÓN DE TIMING
También tenga en cuenta que el cliente podría responder “sí” o “no” de inmediato y quizá no espere a oír la instrucción “Diga sí o no”. Por lo tanto, la aplicación debe incorporar funcionalidad que permita al cliente “interrumpir” (“barge in”) a fin de poder captar estas respuestas.

TEXTO A VOZ
Otro punto que hay que tener en cuenta al diseñar la aplicación es el uso correcto de frases e instrucciones grabadas en vez de texto convertido a voz. Los paquetes de reconocimiento de voz de alta gama en la actualidad son muy buenos para leer texto preparado. Por lo general esto es menos costoso que contratar profesionales de voz para grabar frases e instrucciones, además de ser más rápido, lo que permite incorporar nuevas instrucciones. Sin embargo, hay ocasiones en que es preferible utilizar instrucciones pregrabadas y contratar voces profesionales para sus aplicaciones. Un ejemplo sería cuando existe el riesgo de que el sistema de conversión texto-voz no lea correctamente ciertos términos complicados.

Arte
La implementación de una aplicación de reconocimiento de voz también es un arte, algo con lo que quizá no se haya topado en sus aplicaciones de CRM o web. Por lo tanto, es muy conveniente cerciorarse de que tiene gente capaz trabajando para usted para diseñar una aplicación de voz inteligente. Busque maneras “creativas” de recabar los datos o de adivinar correctamente los resultados. Su aplicación de voz puede, a menudo, “deducir” la información más probable con base en información común o datos del sistema CRM alimentados al sistema. Por ejemplo, “Austin” y “Boston” son palabras que a la mayoría de los sistemas de reconocimiento de voz les suenan muy parecidas. Si el cliente ha viajado a Austin anteriormente o si Austin es un vuelo más frecuente, un sistema de reservaciones de aerolínea que utilice reconocimiento de voz integrado inferiría, correctamente, que la persona quiso decir “Austin”. Es probable que el sistema no siempre acierte, pero es más conveniente para la persona no repetir siempre sus respuestas. En caso de que la respuesta que el sistema dedujo no sea la correcta, el cliente puede hacer la corrección necesaria mediante un paso de verificación. Diseñar una aplicación de reconocimiento de voz es como diseñar una página web para invidentes. Los diseñadores de interfaces de voz necesitan tener muy presente que la única información de que dispone el usuario está contenida en las palabras que le dice la aplicación.

¿CÓMO SUENA SU MARCA?
Las aplicaciones de voz le brindarán a usted la oportunidad de reforzar la identidad de su marca. Usted puede influir en la apariencia que proyecta su empresa escogiendo entre una voz masculina y una femenina, entre una voz joven y una madura, entre una voz súper entusiasta o una más templada, entre lenguaje formal e informal.

Ciencia
En el diseño de aplicaciones de voz también interviene un aspecto científico, pues hay que contemplar todos los escenarios posibles. El árbol de decisiones no sólo debe estar completo –sin ramas que lleven a callejones sin salida–, sino además necesita tomar en consideración todas las opciones de respuesta.

Aunque los sistemas de reconocimiento de voz funcionan cada vez mejor, algunos datos son muy difíciles de recabar mediante aplicaciones de voz. Por ejemplo, al tratar de ingresar la dirección de correo electrónico “[email protected]”, no sería extraño que se presentase el siguiente diálogo: “M” — “Dijo ‘M’?” — “Sí” — “I” — “Dijo ‘I’?” — “Sí” y así sucesivamente.

También se debe diseñar el flujo de la llamada tomando en cuenta sus aplicaciones de diálogo dirigido. Sabiendo, por ejemplo, que sólo cuenta con seis aplicaciones de diálogo dirigido automatizadas, debería evitar las preguntas abiertas y limitar sus instrucciones al cliente a fin de canalizarlo únicamente a esas seis aplicaciones.

Si usted toma en cuenta estas consideraciones al diseñar sus aplicaciones, sus clientes utilizarán con mayor frecuencia su opción de autoservicio con reconocimiento de voz, simplemente porque se darán cuenta de que hacerlo les puede ahorrar tiempo y, si todo va bien, brindarles además una experiencia agradable.

Clave #3: Utilice las normas VXML o SALT

A medida que fue madurando la tecnología de autoservicio de voz en los últimos años, hemos presenciado el surgimiento y la evolución de normas tales como VXML y SALT, lo que ha marcado la pauta en la programación de aplicaciones de voz. El resultado es que ahora es más fácil que nunca desarrollar e implementar aplicaciones de reconocimiento de voz. Este fenómeno podría compararse a lo que sucedió con la Web a principios de la década de los noventa. Una vez que se contó con herramientas y tecnologías estandarizadas (por ejemplo, protocolo HTML, navegadores de Internet estándar), presenciamos una explosión en el crecimiento de la Web como un canal alterno de bajo costo para todos los aspectos de la atención al cliente (ventas, servicio mercadotecnia). Además, muchos proveedores ahora comercializan aplicaciones preconfiguradas para funciones específicas y usos en mercados verticales muy bien definidos.

Estas normas también están orientadas a proteger la inversión, pues el uso de una arquitectura de servicios tipo Internet ofrece una vía modular y económica para el crecimiento y la posibilidad de aprovechar herramientas de desarrollo y opciones de otros proveedores. De esta manera, las inversiones en aplicaciones e interacciones con el host muchas veces pueden migrar entre plataformas y entre proveedores sin necesidad de reprogramar todo ni arrancar de raíz las mejoras realizadas con anterioridad.

Comparación entre VXML e IVR tradicional

Continuará…

Cómo implantar correctamente aplicaciones de reconocimiento de voz. 1ª. de 2 partes

Acervo de noticias sobre Inteligencia Artificial

La IA ahorra tiempo al 98% de profesionales de atención al...

El innovador enfoque de Palantir para impulsar las ventas en medio...

4 factores tecnológicos que impactarán los hábitos de consumo en 2024

IA, de enemigo a aliado en el sector educativo

Integran IA en Juegos Olímpicos para mejorar rendimiento de atletas

Lo más popular en MC

América Móvil invertirá 7,800 mdd en Brasil

Humanizar las ventas por chat aumenta la eficiencia y el éxito

Meta presenta su nuevo chatbot de IA con Llama 3

La IA ahorra tiempo al 98% de profesionales de atención al...

El innovador enfoque de Palantir para impulsar las ventas en medio...