Ocurre una gran cantidad de datos. La gran cantidad de sistemas de TI modernos que ejecutan aplicaciones empresariales con servicios de datos que abarcan todas las redes de nube del planeta significa que, según algunas medidas, el crecimiento de los datos está posiblemente fuera de command. Aunque tenemos 'mecanismos de afrontamiento' en forma de lagos de datos (recursos de información diseñados para contener flujos de datos no estructurados que inicialmente no podemos procesar o utilizar en un grado funcional extenso) y almacenes de datos (donde hemos podido aplicar cierto grado de orden a nuestro almacenamiento), todavía existimos en un mundo de exceso de datos.
Con la proliferación de modelos de lenguajes grandes (LLM) para satisfacer las necesidades de la inteligencia artificial generativa, muchos coinciden en que la situación de sobrecarga de datos se amplificará aún más. Gracias a las políticas de almacenamiento y protección de datos, las transmisiones de vídeo, los juegos en línea, and so forth., los volúmenes de datos se han disparado en los últimos años. Si bien los servicios de almacenamiento basados en la nube junto con los almacenes de datos locales son ahora comparativamente baratos, los centros de datos necesitan espacio físico y mucha energía.
¿Es hora de una dieta de datos?
El proveedor de protección y recuperación de datos Cohesity se encuentra entre los que destacan la true sobreabundancia de datos. La compañía ha recopilado datos de la industria que resaltan los problemas con la energía de los centros de datos y sugieren que la eficiencia no sigue el ritmo del crecimiento de los datos, lo que en sí mismo tiene implicaciones directas a menos que las organizaciones comiencen a perder datos. ¿Perder algunos de sus datos? Sí… tal vez sea el momento de perder algunos kilos y seguir una dieta basada en datos.
La Oficina Internacional de Pesas y Medidas es la institución científica internacional más antigua del mundo. Desde su fundación en 1875, la organización ha tenido la tarea de promover un sistema de unidades estandarizado a nivel mundial. En su última conferencia cuatrienal (se reúnen cada cuatro años, este no es un lugar para soluciones rápidas o decisiones precipitadas) con representantes de 62 estados miembros, el comité afirmó que en vista del rápido aumento del volumen de datos, debería introducir dos nuevos unidades de datos por primera vez desde 1991: ronnabytes, quettabytes y ronnabytes.
Un ronnabyte tiene 27 ceros, un quettabyte incluso tiene 30. Escrito, este último se ve así: 1.000.000.000.000.000.000.000.000.000.000.
Si quisiéramos almacenar un quettabyte en un teléfono inteligente moderno, necesitaríamos tantos dispositivos que tendrían alrededor de 93 millones de millas de largo cuando estuvieran alineados de un extremo a otro. Esto, señala Cohesity, corresponde aproximadamente a la distancia entre la Tierra y el Sol. La compañía nos recuerda que la razón de las gigantescas nuevas entidades de datos es el rápido crecimiento de los volúmenes de datos globales. Si bien en 2010 personas de todo el mundo generaron poco menos de dos zettabytes de datos, en 2022 esta cifra había aumentado a casi 104 zettabytes.
Impacto medioambiental
«Lo que todo esto indica es un 'gran plato' de datos, de ahí la sugerencia de una dieta de datos», dijo Mark Molyneux, director de tecnología para EMEA en Cohesity. “Con este término (ciertamente algo descarado), queremos decir que las empresas deben utilizar técnicas contemporáneas de clasificación de datos y análisis de aplicaciones para distinguir más directamente los datos de misión crítica de otros flujos de información residual que, aunque todavía están sujetos a niveles apropiados de seguridad y cumplimiento, pueden ser eliminado del flujo de ingestión al que se abre una empresa. Utilizando procesos de gestión de datos potenciados por modernos motores de Inteligencia Artificial (IA), podemos actuar ahora antes de que nuestra columna vertebral de datos deba considerar algo parecido a una cirugía de bypass gástrico cuando la situación haya empeorado”.
Molyneux habla de una «situación que empeora» y, por ahora, el impacto de la dispersión de datos en el medio ambiente sigue siendo limitado, al menos por ahora. Según la Agencia Internacional de Energía, los volúmenes de datos en los centros de datos se triplicaron con creces entre 2015 y 2021. Sin embargo, el consumo de energía de los centros de datos se ha mantenido prácticamente constante. Esto se debe principalmente a importantes mejoras en la eficiencia y a un cambio hacia centros de datos de hiperescala más modernos.
«Los centros de datos se han vuelto más eficientes, pero casi han alcanzado el nivel óptimo de eficiencia que pueden alcanzar», advierte Molyneux de Cohesity. «Solo quedan ganancias marginales de eficiencia. Las estimaciones sugieren que se espera que el conjunto genuine de centros de datos del planeta produzca en conjunto 496 millones de toneladas de dióxido de carbono en 2030 con las formas actuales de generación de energía. Eso sería más de lo que Francia emitió en total en 2021. «
La IA es un gran complemento
Siguiendo con la analogía del conteo de calorías de la compañía, ciertamente podemos esperar que la IA agregue muchos datos adicionales al consumo. Un estudio de 2019 del Instituto Tecnológico de Massachusetts (MIT) concluyó que el entrenamiento de redes neuronales create tanto dióxido de carbono como cinco automóviles con motor de combustión durante todo su ciclo de vida. Un estudio de 2021 realizado por Google y la Universidad de Berkeley propuso que entrenar GPT-3, el modelo de IA detrás de la versión authentic de ChatGPT, consumía 1287 gigavatios hora y, por lo tanto, emitía 502 toneladas de dióxido de carbono. Esto equivaldría al consumo de electricidad de 120 hogares estadounidenses en un año.
«Apenas gestionamos nuestra huella electronic», insiste Molyneux. “Las empresas a menudo se encuentran sobre una enorme montaña de datos 'oscuros' y ya no los necesitan, pero aun así no los eliminan. Esto suele deberse a la falta de clasificación de los datos. Las empresas a menudo ni siquiera saben qué datos hay todavía en sus servidores. La noción de dieta de datos explain un cambio de actitud que las organizaciones pueden adoptar para reducir el volumen typical de datos que buscan almacenar. Este cambio hace que las empresas adopten un enfoque más proactivo en la forma en que indexan, clasifican y acumulan datos a lo largo del ciclo de vida de la gestión de datos. También significa tomar medidas positivas para consolidar las cargas de trabajo del almacén de datos de una organización en una única plataforma común”.
Aunque aquí no se ofrece ninguna metodología de la Dieta Atkins, el equipo de Cohesity señala algunas prácticas comprobadas que, según ellos, pueden aligerar la dieta de datos de la que se alimentan las organizaciones empresariales, de forma diaria, semanal y, de hecho, anual.
¿Atkins para obtener datos?
El proceso antes mencionado de indexar datos con la mayor precisión posible a través de una plataforma de gestión de datos puede ayudar a las empresas a identificar flujos de datos que se han vuelto obsoletos, redundantes, huérfanos o simplemente desactualizados. En línea con esta actividad, el uso de herramientas de deduplicación aplicadas a nivel de plataforma de datos puede ayudar a reducir las cargas de almacenamiento de datos en una cantidad sorprendentemente grande, es decir, dependiendo del «tipo» de datos en cuestión, hasta en un 97 por ciento, aunque esa cifra puede estar abierto al debate.
“Aquí existe una oportunidad clave de eficiencia que las organizaciones de todos los sectores deben aprovechar. Al limpiar el almacén de datos de una organización, la empresa obtiene beneficios que abarcan cuatro grupos principales de «alimentos». Se puede decir que este enfoque a) decrease la huella de carbono de una organización en virtud del uso de un nivel más preciso de recursos en la nube b) cut down el riesgo de litigios relacionados con información de identificación personal (PII) obsoleta que reside en la capa de datos de la empresa yc ) garantizar que el enfoque de la empresa hacia la IA se base en una foundation de los recursos de información más eficientes y precisos que abarquen la propia organización y d) probablemente ayude al equipo de TI a perder peso a medida que se vuelven más ágiles y menos sobrecargados por las compilaciones de datos nocturnas impulsadas en pizza para llevar”, concluyó Molyneux de Cohesity.
La dieta de datos podría ser una linda plan diseñada simplemente para hacernos pensar en la racionalización y gestión de la información de nuevas maneras y sí, es un concepto propuesto por un proveedor de protección y recuperación de datos, así que con una pizca de sal. Ahora que lo pienso, no lo tomes con más sal, tu consumo de sodio ya es bastante alto y debemos tener más cuidado con nuestra placa de datos.
Pasa el condimento sin sal por favor.
Sígueme en Gorjeo o LinkedIn.