Mundo-ContactRecolección de Datos de Clientes 2ª parte
José Emilio Gondar Nores*
Datos de Clientes, Privacidad y DM
No importa cuál es la estructura interna de datos de cliente o cómo se obtienen los datos de fuentes externas, lo importante es la privacidad del cliente. La privacidad es algo que está ahí, pero que adquiere relevancia a medida que el sistema de CRM se vuelve más poderoso y empieza a utilizar un motor de DM. La privacidad va ganando importancia en la sociedad actual, donde los comerciantes, las aseguradoras y los organismos gubernamentales disponen de grandes almacenes de datos personales. Las suspicacias que la gente tiene acerca de la recolección de estos datos se empiezan a extender, como era de esperar, hacia los tratamientos analíticos de los mismos. Los usuarios de DM tienen que pensar sobre cómo los asuntos relacionados con la privacidad va a afectar esta tecnología.
Además de la privacidad, a medida que DM empieza a ganar importancia en los asuntos empresariales, surgirán muchas cuestiones legales que merecen la máxima atención. ¿Qué pasaría si un modelo destinado a decidir a quién se le envía una oferta de crédito se basará en características como raza o sexo? ¿Qué tipo de responsabilidad habría en estas circunstancias? El analista tiene que tener claro que tendrá que enfrentarse a estos asuntos si se utiliza el DM para tomar decisiones de carácter delicado.
1. Privacidad y DM
En febrero de 1998 en los EE.UU., estalló un escándalo sobre la empresa farmacéutica CVS y su colaboración con Elensys, una empresa de marketing directo de Massachusetts que enviaba a los clientes de CVS avisos de que no habían renovado sus prescripciones. Al ser criticada por lo que se consideró una violación de privacidad de registros médicos de sus clientes, CVS rescindió el contrato con Elensys. Aunque DM no se mencionó públicamente durante la controversia, se sabe que en los debates sobre la privacidad médica que hubo al respecto en el Senado de los EE.UU. se habló de Elensys y el uso de DM en actividades de marketing. Puede que no sea lejano el día en el que se impongan limitaciones legales sobre el uso de la tecnología de DM.
Y sólo es la punta del iceberg. Los EE.UU. tienen un enfoque mucho más relajado sobre la privacidad que el resto del mundo. En contra, la UE promulgó en octubre de 1998 una directiva muy restrictiva sobre la Protección de Datos que, probablemente, sea el primer contratiempo de los muchos que afectarán la tecnología de DM.
Esta directiva europea, por ejemplo, prohíbe la transferencia de datos personales a los países que no disponen de suficientes leyes sobre la privacidad de datos. Además, posee muchos requisitos para las empresas que manejan datos privados, incluyendo el derecho de una persona a acceder, restringir y eliminar la información personal que sobre la misma posee una empresa.
La industria estadounidense afirma que el control voluntario en vigor en los EE.UU. es suficiente. Los abogados especializados opinan que cualquier control debe apoyarse en la legislación. Los recientes comentarios de los representantes del gobierno estadounidense fueron críticos con el enfoque voluntario. Consideran imprescindible el consentimiento de consumidor informado: el cliente tiene que estar informado acerca del uso que se les va da a los datos sobre él recogidos y si serán o no revelados a terceros. Y recomiendan proporcionar a los clientes tres niveles de elección para cualquier dato recogido:
No permitir DM de los datos de clientes. Permitir DM sólo para el uso interno. Permitir DM tanto para el uso interno como externo.
Estos encontronazos entre el DM y la privacidad sólo son el comienzo. En los próximos años aumentará el control sobre el DM en relación con su impacto en la privacidad. La enorme cantidad de datos que se recoge sobre los individuos, unida a las poderosas nuevas tecnologías como DM, despertarán muchas suspicacias por parte de clientes que, seguramente, empezarán a emprender acciones legales contra el uso indebido de tecnología de DM.
2. Directrices para Privacidad
En cualquier caso, existen algunas pautas generales para la construcción del sistema de DM para CRM que, aunque no infalibles, ayudarán a reducir problemas futuros. Por supuesto, estas directrices se basan en la experiencia dentro del marco de leyes y límites tecnológicos habituales. Como se puede ver en el ejemplo de Elensys, incluso si las leyes no están claras y se toman precauciones, una empresa puede tener verdaderos problemas si sus clientes tienen la impresión de que la política de la privacidad de la empresa no es la adecuada.
2.1. Información Anónima y No Anónima
En general, hay que distinguir entre la información que contiene la identidad del cliente y la que no la contiene. Un ejemplo obvio puede ser el nombre completo y los ingresos. Pero incluso el segundo apellido o los apellidos junto con la dirección podrían ser suficientes para identificar al individuo. Hay que intentar, siempre que sea posible, que el sistema de DM trabaje con datos anónimos y resumir el concepto del cliente como individuo en un único identificador codificado. Por ejemplo, un número de diez dígitos que sólo el analista puede traducir en el nombre y dirección de un cliente individual.
No es difícil generar un identificador anónimo. Sólo tiene que ser único y, con fines promocionales, hay que tener una tabla donde se guarde el identificador junto con el nombre y la dirección del individuo. Por supuesto, el identificador no puede ser una simple permutación del Número de Identificación Fiscal. Debería asignarse al azar y ser completamente independiente de cualquier información descriptiva, promocional o transaccional disponibles sobre el cliente.
2.2. Datos Detallados y Datos Agregados
Aun si los datos sobre el cliente están anonimizados, pero todavía son detallados (individuales), hay riesgo que alguien pueda ser identificado. Por ejemplo, si se sabe el código postal, la edad y el modelo del coche de una persona, se puede averiguar quién es esta persona.
Una de las maneras de asegurar un mayor nivel de privacidad para los clientes es trabajar sólo con datos agregados. Por ejemplo, se puede tratar de realizar las acciones de marketing basándose sólo en la edad y el sexo de los clientes. Suponiendo que la base de datos tiene un millón de clientes y agrupándolos en 240 grupos distintos (unas 120 edades y 2 sexos), se tiene de promedio algo más de 4.000 clientes por grupo. El fichero resultante de esta segmentación es todavía útil para realizar DM, mediciones de marketing y determinaciones del público objetivo, pero un individuo y su información están (casi) protegidos.
Aun así, hay que tener cuidado al utilizar los datos agregados porque algunos grupos resultantes del proceso pueden contener unos pocos clientes o incluso a un solo cliente. Por ejemplo, el segmento de edad de 120 años puede, si es que contiene a alguien, contener a un solo cliente. Por lo tanto, algunos clientes no pueden preservar su anonimato, incluso siendo uno entre un millón, si son muy viejos. La mejor forma de prevenir estos problemas es realizar una inspección manual de los tamaños de los segmentos y fusionar los segmentos poco poblados entre sí. Ésto también es importante para los sistemas OLAP, que utilizan datos agregados y, además, disponen de herramientas para poder desmenuzar los grupos resultantes según gran variedad de características.
2.3. Información para Objetivo o para Medición
Otro momento importante es determinar qué uso se les va a dar a los datos del cliente: se utilizarán para determinar el público objetivo o sólo para medir. Los clientes se preocupan menos si creen que la empresa utiliza la información recogida para conocer lo que hacen y medir sus respuestas a una promoción que cuando creen que la empresa utiliza la información para emprender acciones agresivas de marketing.
Puede ser inquietante recibir por correo promociones con ocasión de acontecimientos de la vida personal (el nacimiento del niño) o información personal (una nueva medicina que trata una enfermedad específica del cliente).
En realidad, todas las mediciones se realizan con el fin de determinar el público objetivo, pues la única razón para realizarlas es la de modificar las acciones basándose en lo aprendido. Se puede decir que la diferencia entre medir y determinar el objetivo no está muy clara. Aun así, desde el punto de vista práctico, medir es siempre una estrategia más segura.
2.4. Fuentes Combinadas
Una cuestión más que afecta a la privacidad del cliente es la utilización de distintas fuentes de datos. Esta cuestión es relativamente reciente, porque habitualmente era bastante complicado recoger datos sobre un cliente fuera de las estructuras de la empresa. Actualmente, gracias a los avances de las tecnologías de información (ordenadores, bases de datos, etc), es mucho más fácil combinar datos procedentes de diferentes fuentes y formar una visión más completa del cliente. Suele ser información sobre el comportamiento y preferencias de un cliente referente a mercados y productos que no son propios de la empresa (por ejemplo, la compra de la base de datos de un revista).
2.5. Esquema de Anonimato
Si bien no es posible garantizar la privacidad del cliente debido a las diferencias entre las reglamentaciones legales en distintos países, hay una manera de estructurar el sistema de DM que puede ayudar. La configuración presentada en la Figura 4 proporciona un cortafuegos (firewall) entre la información que identifica al cliente y toda la demás información sobre él. Por supuesto, este esquema no garantiza la privacidad, pero permite realizar el análisis de DM de forma anónima, mientras conserva la posibilidad de medir e identificar el público objetivo a nivel individual. Este esquema unido a un estrecho seguimiento de las leyes sobre la privacidad, permitirá a la empresa mantenerse fuera de las primeras páginas de la prensa local. También proporcionará a los clientes de la empresa una sensación de privacidad y seguridad sobre la forma de tratar sus datos.
Figura 4 – La arquitectura anónima que protege la privacidad del cliente
3. Asuntos Legales Asociados con DM
Cada decisión que toma una empresa implica repercusiones legales: a quién dar el crédito, qué transacciones pueden ser fraudulentas, qué clientes merecen recibir una oferta hipotecaria especial, son asuntos delicados. Si la decisión incorpora una característica que no está permitida por la ley pueden surgir problemas. En los EE.UU. durante los últimos diez años algunas empresas de servicios financieros fueron multadas a causa de una aplicación impropia de las técnicas para marketing de tarjetas de crédito y otros tipos de préstamos. Un ejemplo típico de las prácticas ilegales sería la exclusión de la gente que vive en un barrio determinado de una ciudad de las promociones de créditos u otros servicios financieros. Estas exclusiones ocurrían a menudo a causa de carácter racial de los vecinos excluidos. Ahora, cuando los procesos de selección se realizan automáticamente mediante DM, hay que asegurarse de que los patrones descubiertos por DM no contengan las exclusiones prohibidas.
En DM, las decisiones se ocultan detrás de funciones matemáticas y criterios de selección complicados. Los algoritmos estadísticos y de aprendizaje incrustados en la herramienta de DM no distinguen entre variables conflictivas (raza, sexo, edad, etc.) y cualquier otra característica a la hora de tomar una decisión. Para estos algoritmos un campo de datos es un campo de datos y, realmente, poco importa qué esta detrás de un número. Por ello, es importante asegurarse de que las variables «incorrectas» no participan en el modelo.
Un problema más surge debido a que DM permite un desarrollo muy rápido de modelos predictivos, basándose en el análisis de grandes cantidades de datos, habitualmente, todos los datos que se encuentran en un DW (almacén de datos). Ésto supone menos tiempo para revisiones de los datos a analizar, es decir, menos tiempo para la participación humana en el proceso.
También hay que tener en cuenta las variables que contienen información codificada sobre otras variables como, por ejemplo, la variable embarazo que lleva implícita la información sobre el sexo.
La clave para reducir los problemas es revisar directamente los datos antes de hacer cualquier análisis mediante el DM. Cualquier parte cuestionable de los datos debería evaluarse para determinar si su inclusión en el modelo es legal y/o deseable. Incluso si un tipo determinado de datos no está prohibido, el hecho de poder usar esta variable no necesariamente implica que sea aconsejable usarla. En la sociedad actual puede ser mejor pecar de prudente.
Por supuesto, sería aconsejable realizar un análisis post-mining para determinar si alguno de los patrones encontrados por el sistema de DM afecta desproporcionadamente a alguna clase protegida. Un perfilado estadístico relativamente simple de cada clase protegida permitiría evaluar si el modelo predictivo ha excluido algún grupo (protegido). En EE.UU., las empresas de servicios financieros que prestan créditos personales están obligadas a evaluar cada etapa de decisión de sus campañas de marketing para determinar si contiene alguna discriminación implícita. Lógicamente, ésto ha incrementado significativamente la complejidad de los esfuerzos de marketing.
Finalmente, un abogado legal competente debería revisar cualquier duda sobre el uso de datos cuestionables en un modelo predictivo.
*José Emilio Gondar Nores DATA MINING INSTITUTE, S.L.
[email protected]