Artículo de Daniel Hand, CTO de campo en Cloudera
Las organizaciones enfrentan numerosos desafíos al administrar y obtener información de los datos. Dado que los datos se crean y almacenan cada vez más en múltiples ubicaciones, adoptar una estrategia de datos híbridos adaptable se vuelve esencial para administrar y orquestar conjuntos de datos dispares.
Si bien la tecnología por sí sola no resolverá los desafíos que se describen a continuación, es un elemento crítico de la solución que las organizaciones deben aprovechar junto con los principios rectores y las políticas para enfrentarlos.
El primer desafío se centra en apoyar la innovación y la agilidad empresarial. Esto incluye cómo podemos democratizar el acceso a los datos y los activos de datos. Posteriormente, esto ayuda a las organizaciones a hacer un mejor uso de los datos que tienen y hacerlo sin tener que pasar innecesariamente por los guardianes de datos.
Otro elemento de innovación es ayudar a las organizaciones a expandirse rápidamente y proporcionar productos y servicios de datos a nuevos mercados. Si esto requiere establecer un nuevo clúster analítico en un centro de datos, especialmente en un nuevo país, a menudo requiere un tiempo de preparación más largo. La gestión de datos y la ejecución de análisis en la nube pública pueden acelerar significativamente el tiempo de obtención de valor, pero es necesario gestionar el riesgo y la complejidad operativa.
Existen claras diferencias entre obtener información casi en tiempo genuine y los enfoques analíticos por lotes tradicionales. El valor de la información de los datos disminuye con la edad, por lo que las organizaciones necesitan cada vez más aumentar el análisis por lotes con procesamiento de flujo casi en tiempo actual.
Gestión de riesgos operativos
El próximo desafío se enfoca en administrar el riesgo operativo, que incluye cómo las organizaciones pueden garantizar que las políticas y los controles de seguridad se apliquen de manera consistente y confiable en cada entorno appropriate.
Otra variación de esto es la necesidad de capturar el linaje y la procedencia de los datos a lo largo de todo el ciclo de vida de los datos. El valor de la información derivada de los datos se cut down si las organizaciones carecen de visibilidad sobre el origen de los datos y quién o qué ha tenido acceso a ellos para transformarlos durante su vida útil.
A medida que la cantidad de datos que se capturan aumenta exponencialmente, existe una necesidad cada vez mayor de perfilar automáticamente los datos, clasificarlos y aplicar los controles adecuados. Por ejemplo, ¿un nuevo conjunto de datos contiene información confidencial de identificación personal (PII)? También existe el desafío asociado de cómo administrar y analizar de manera eficiente los datos a una escala de varios petabytes.
Las organizaciones también necesitan mover datos y aplicaciones de manera segura y eficiente entre entornos, posiblemente en respuesta a cambios en la regulación y la gobernanza. No se trata solo de la repatriación potencial de la nube a las instalaciones, sino también entre proveedores de nube pública si un regulador considera que una plataforma proporciona controles insuficientes en respuesta a cambios en la política.
Gestión de la complejidad operativa
El último desafío se centra en la gestión de la complejidad operativa de conjuntos de datos dispares y cargas de trabajo analíticas. La adopción de diferentes soluciones en cada plataforma de nube pública y regional supondrá una carga significativa en los gastos operativos y en el mantenimiento de un equipo equipado con las habilidades adecuadas. En conjunto, estos factores generarán y aumentarán el riesgo operativo y la agilidad del impacto.
Con base en los tres desafíos presentados anteriormente, aquí hay algunos principios rectores y políticas para ayudar a las organizaciones a superar los obstáculos a medida que construyen una estrategia de datos sólida. Al considerar la tecnología, las organizaciones deben tener en cuenta los beneficios de admitir infraestructuras híbridas de múltiples nubes y ecosistemas abiertos de motores de procesamiento al tiempo que brindan opciones para adoptar conjuntos integrados de servicios analíticos en todo el ciclo de vida de los datos y definen políticas y controles de seguridad que pueden ser consistentemente se aplican en cada entorno appropriate.
Idealmente, la tecnología debería ser escalable para admitir no solo las necesidades actuales de administración y análisis de datos, sino también aquellas que se pueden predecir dentro de los próximos años, y debe estar diseñada para que la nube permita que el cómputo y el almacenamiento se escalen de manera independiente.
La estrategia de datos híbridos
La capacidad de admitir arquitecturas de datos modernas, como la estructura de datos, el lago de datos y la malla de datos, continúa influyendo en las soluciones que se ofrecen a las empresas en la actualidad. Una plataforma que sea capaz de administrar conjuntos de datos dispares de manera consistente en múltiples entornos combinados con la unificación del lago de datos y el almacén de datos, junto con los datos de soporte como un producto, la propiedad del dominio y el autoservicio abordan las recomendaciones. La capacidad de hacer esto de manera consistente a lo largo de todo el ciclo de vida de los datos en nubes públicas y privadas con el respaldo de un tejido de seguridad y gobierno compartido diferencia una plataforma de datos híbrida de otras soluciones de plataforma de datos empresariales. Esta capacidad también ha sido elementary para ayudar a las organizaciones más grandes del mundo a visualizar e implementar una estrategia de datos versatile.
Las opiniones en el artículo son las del autor y pueden no reflejar las opiniones de esta publicación.