Los mitos del data mining
16 de Abril de 2003¿Qué es el data mining? ¿Para qué sirve? Este artículo escrito por José Garcés, Director Comercial de Teradata, división de NCR, explica qué es lo que hay que tener en cuenta a la hora de ofrecer una solución de este tipo
Por José Garcés, Director Comercial de Teradata, división de NCR
Muchas compañías exitosas han descubierto que los mitos que se han creado en torno al data mining son simplemente eso: mitos. En lugar de caer víctimas de ellos, los visionarios han adquirido una enorme ventaja competitiva usando el data mining para resolver complejos problemas de negocios y esforzarse por conseguir rentabilidad.
De hecho, fue la sofisticada tecnología de data mining la que convenció a los Wal-Marts rurales de abastecerse de una versión especial de Spam para la temporada de caza. Adelante. Ríase. Pero Spamouflage-Spam en latas camufladas ha sido un inmenso éxito. Mucho más que una idea divertida, Spamouflage ha ayudado a Wal-Mart a generar ingresos adicionales con los clientes existentes y es emblemático de con cuánta profundidad Wal-Mart entiende a las personas a las que brinda servicio.
¿Qué es data mining?
Data mining es una poderosa herramienta de análisis que permite a los ejecutivos de negocios progresar de la descripción del comportamiento histórico de los clientes a la predicción del futuro. Encuentra patrones que revelan los misterios del comportamiento de los clientes. Estos hallazgos pueden usarse parar aumentar los ingresos, reducir los gastos e identificar las oportunidades de negocios, ofreciendo nuevas ventajas competitivas.
Parte de la razón por la cual se han desarrollado mitos en torno al data mining es que la gente está confundida acerca de lo que es. En esencia, el data mining se define como un conjunto de complejas técnicas matemáticas que se usan para descubrir e interpretar patrones previamente desconocidos en datos detallados. Desde mediados de la década de 1980, cuando el data mining extendió su uso fuera del mundo de la investigación académica, médica y científica, se ha aplicado en forma muy eficaz en el comercio minorista, la banca, las telecomunicaciones, los seguros, los viajes y la industria de la hospitalidad.
Debido a que el data mining es considerado como una herramienta analítica, con frecuencia se lo confunde con el procesamiento analítico en línea (OLAP - on-line analytic processing). OLAP resulta una valiosa técnica analítica cuando se usa para analizar operaciones de negocios con el objeto de adquirir una perspectiva histórica de algo que sucedió. Por ejemplo, un gerente de mercadeo quiere entender por qué cayeron las ventas en una región en particular. Las herramientas OLAP le permiten formular preguntas a través de múltiples dimensiones, tales como ventas por tienda, ventas por productos y ventas en el tiempo. Al visualizar los datos históricos desde vistas diferentes podrá analizar los factores (tienda, producto o tiempo) que tuvieron algún impacto sobre las ventas.
Data mining aborda una clase diferente de problemas. Puede usarse para predecir eventos futuros, como las ventas en el próximo mes sobre la base de promociones o cuál tipo de cliente responderá con más probabilidad a una promoción.
La forma en que varias compañías ya lo están usando disipa los cinco mitos principales sobre el data mining.
Mito número uno: El data mining proporciona predicciones instantáneas, como una bola de cristal
El data mining no es ni una bola de cristal ni una tecnología en la que las respuestas aparecen por arte de magia con pulsar un solo botón. Es un proceso con múltiples pasos que incluye: definir el problema de negocios, explorar y preparar los datos, desarrollar el modelo y aplicar el conocimiento adquirido. En una situación típica, las compañías destinan la mayor parte de su tiempo al procesamiento previo y la preparación de los datos, a fin de garantizar que estén limpios, sean congruentes y se combinen correctamente para suministrar una inteligencia de negocios en la que puedan confiar. Data mining no se trata más que de datos: para hacer data mining con éxito se requieren datos que reflejen el negocio con exactitud.
Las compañías deben comprender dónde reside el poderío del data mining: en abordar desafíos de negocios específicos que son de naturaleza predictiva o descriptiva. Entre éstos pueden incluirse los siguientes:
- Segmentación de clientes
- Predicción de la propensión a comprar de los clientes
- Detección de fraude
- Optimización de los canales de abastecimiento y distribución
Las compañías que comprenden el proceso están viendo resultados concretos. Una empresa prestadora de servicios de atención en salud de la región del oeste medio identifica a los pacientes de alto riesgo y responde con programas de gestión puntual que permiten mantener la calidad de la atención y manejar el riesgo del caso. Una firma de telecomunicaciones sudamericana anticipa y previene la pérdida de clientes de alto valor identificando los patrones que conducen al desgaste de los clientes analizando el consumo telefónico, los servicios contratados y las calificaciones de calidad de servicio. Una compañía de seguros con oficinas en los Estados Unidos confía en los tiempos indicados por su solución de data mining para anticipar y detectar fraudes con rapidez y luego tomar medidas inmediatas para minimizar los costos.
Mito número dos: El data mining no es viable todavía para las aplicaciones de negocios
El data mining es una tecnología viable y muy apreciada por sus resultados en los negocios. El mito tiende a ser consumado por quienes necesitan explicar por qué no están usando el proceso todavía y gira en torno a dos afirmaciones relacionadas. La primera dice: "No se puede hacer minería eficaz de las bases de datos grandes". La segunda dice: "No puede hacerse data mining en el motor del data warehouse". Ambas afirmaciones en algún momento fueron ciertas; también fue cierto alguna vez que los aviones no podían despegar del suelo.
Ocupémonos de las dos afirmaciones juntas. Como las bases de datos actuales son tan grandes, a las compañías les inquieta que la arquitectura informática adicional que se necesita para los proyectos de data mining sume costos enormes y que el procesamiento de los datos para cada proyecto lleve sencillamente demasiado tiempo. Pero algunas de las bases de datos actuales usan tecnología paralela, que permite hacer minería dentro de la base de datos. Al trabajar dentro de la base de datos, las compañías pueden eliminar el movimiento de los datos, potenciar el rendimiento del procesamiento paralelo, minimizar la redundancia de datos y eliminar el costo de crear y mantener una base de datos completamente nueva y redundante dedicada a data mining. La minería dentro de la base de datos efectuada mediante el procesamiento paralelo se traduce en tecnología de data mining viable.
Por ejemplo, una compañía que se dedica a la fabricación de productos envasados utilizó el data mining para mantener un programa de lealtad de clientes que empleó para brindar asistencia a sus socios minoristas en el monitoreo de la eficacia de las promociones y para hacer un análisis de la canasta de compra de sus compradores. Al inicio, este análisis fue un medio eficaz de alentar a los socios a hacer promoción de sus productos. Sin embargo, el volumen de datos que debían procesarse creció tanto que este servicio se tornó demasiado costoso como para ofrecerlo a los socios minoristas. Si bien el análisis se hacía en un servidor poderoso, las cinco aplicaciones analíticas necesitaban más de 312 horas para procesar los datos.
Antes de terminar con este valioso servicio, la compañía exploró técnicas de data mining dentro de la base de datos. Cargaron los datos en un data warehouse centralizado, luego convirtieron los cinco análisis en un programa SQL (Standard Query Language - lenguaje de consulta estándar) que corría en la base de datos, potenciando su poder de procesamiento paralelo. Al hacer la conversión a data mining dentro de la base de datos pudieron reducir el tiempo de ejecución de más de 312 horas a 12 horas, salvando el programa de lealtad de clientes.
Mito número tres: El data mining requiere una base de datos dedicada y separada
Los proveedores de data mining habitualmente aducen que lo que usted necesita es una base de datos costosa y dedicada, un data mart o un servidor analítico para minar los datos por la necesidad de extraerlos en un formato propietario para lograr un procesamiento eficiente. Estos data marts no sólo son de costosa adquisición y mantenimiento sino que, además, implican extraer datos para cada proyecto individual de data mining, un proceso oneroso y que significa una gran pérdida de tiempo.
En la actualidad, los avances en la tecnología de bases de datos hacen que el data mining ya no se realice más en un data mart separado. De hecho, un data mining efectivo requiere un data warehouse para toda la empresa, el cual tiene un costo total de inversión considerablemente menor que emplear data marts separados.
Veamos por qué. A medida que las compañías implementan proyectos de data mining a través de la empresa, el número de usuarios que aprovechan los modelos de data mining crecen en forma continuada junto con la necesidad de acceder a grandes infraestructuras de datos. Un data warehouse empresarial de avanzada no sólo almacena los datos con eficiencia y elimina la necesidad de contar con la mayoría de los demás data marts o warehouses, sino que además provee de un cimiento ideal para proyectos de data mining. Este cimiento es un único repositorio para toda la empresa que ofrezca una visión coherente y actualizada del cliente. Y con la incorporación de extensiones de data mining dentro del data warehouse, las compañías puede reducir los costos de dos maneras más. Primero, no hay necesidad de comprar ni mantener hardware adicional dedicado exclusivamente para data mining. Y segundo, las compañías minimizan la necesidad de mover los datos dentro y fuera del warehouse en proyectos de data mining, lo cual, como ya se indicó, es un proceso intensivo en el uso de mano de obra y recursos.
Mito número cuatro: Sólo los doctores pueden hacer data mining
Algunas personas consideran que el data mining es tan complejo que hay que tener tres Ph.D. como mínimo para lograr que funcione: uno en estadística o métodos cuantitativos, uno en negocios con comprensión de los clientes y uno en ciencias de la computación.
La verdad es que los proyectos exitosos se completaron sin ningún Ph.D. a la vista. Por ejemplo, Teradata recientemente finalizó un proyecto con una compañía de telecomunicaciones sudamericana donde se logró hacer con éxito un seguimiento de los cambios en el comportamiento de los clientes que le sirvió a la compañía para retener el 98 por ciento de sus clientes de alto valor durante el proceso de desregulación. Trabajando en colaboración, un equipo multidisciplinario concretó la iniciativa con éxito.
El data mining representa un esfuerzo de colaboración entre personal capacitado en todas estas tres áreas. Las personas de negocios deben guiar el proyecto creando un conjunto de preguntas específicas de negocios y luego deben interpretar los patrones emergentes. Los modeladores analíticos, que conocen de técnicas, estadísticas y herramientas de data mining, deben construir un modelo confiable. El personal de sistemas aporta su conocimiento del procesamiento e interpretación de los datos, además de proporcionar el respaldo técnico clave.
Mito número cinco: El data mining es para compañías grandes con muchos datos sobre los clientes
La verdad es que si una compañía, grande o pequeña, tiene datos que reflejan con exactitud el negocio o sus clientes puede desarrollar modelos contra dichos datos que den información sobre los desafíos de negocios importantes. La cantidad de datos sobre los clientes que una compañía posee nunca ha sido la cuestión.
Por ejemplo, Midwest Card Services (MCS) brinda servicios de telemarketing, administración de cajeros automáticos, tarjetas de débito y servicios financieros especializados a unos 200.000 clientes. La compañía recurrió al uso de una base de datos centralizada para entender mejor su base de clientes, para segmentar a los clientes de manera eficaz y para comprender sus patrones y preferencias. Esto le permitió a MCS mejorar su propia cobertura y ofrecer a sus clientes informes integrales sobre sus carteras.
Vivir al día
Y aquí tenemos el resultado final: el data mining ya no es más ni lento ni costoso ni demasiado complicado de trabajar. La tecnología y el know-how de negocios existen como para poner en marcha un proceso eficiente y efectivo en costos. Son de diversos tamaños las compañías que están poniendo a prueba los viejos mitos y demostrando que el data mining es esencial para prosperar en el mundo de negocios actual, tan competitivo y centrado en el cliente.
Teradata
división de NCR
5411 4 379 0200
Más información: www.teradata.com.