Las grandes tecnológicas están buscando en Internet nuevas fuentes de datos para entrenar sus modelos de IA.
Gilnature/Getty Photos

  • OpenAI, Meta, Google y otras grandes empresas tecnológicas entrenan sus modelos de IA utilizando datos en línea.
  • Pero los modelos de IA aprenden tan rápido que todos esos datos podrían agotarse en 2026.
  • Entonces, ¿cómo seguirán aprendiendo los sistemas de IA? Large Tech tiene algunas suggestions interesantes.

Más es más cuando se trata de IA. Cuantos más datos se entrenen los sistemas de IA, más poderosos serán.

Pero a medida que la carrera armamentista de la IA se intensifica, gigantes tecnológicos como Meta, Google y OpenAI enfrentan un problema: se están quedando sin datos para entrenar sus modelos.

Muchos sistemas de inteligencia synthetic líderes se han entrenado con la gran cantidad de datos en línea. Pero para 2026, todos los datos de alta calidad podrían agotarse, según Epoch, un instituto de investigación de IA.

Por eso, las principales empresas de tecnología están buscando nuevas fuentes de datos para que sus sistemas sigan aprendiendo. A continuación se muestran algunas de las opciones más creativas que las empresas de tecnología están considerando.

Google consideró aprovechar los datos de los consumidores disponibles en Google Docs, Sheets y Slides.

Google consideró utilizar datos de Google Docs, Sheets y Slides para entrenar sus sistemas de inteligencia synthetic.
Shutterstock

El verano pasado, el departamento lawful de Google comenzó a pedir a los empleados que ampliaran el lenguaje sobre el uso de datos de los consumidores, informó el Moments. A algunos empleados se les informó que la empresa quería utilizar datos de las versiones gratuitas para consumidores de Google Docs, Google Sheets, Google Slides e incluso las reseñas de restaurantes en Google Maps.

Si bien Google actualizó su política de privacidad en julio de 2023, la compañía dice que no amplió los tipos de datos que utiliza para entrenar modelos de IA.

Derrochando en la editorial Simon & Schuster.

Sede de Simon & Schuster en la ciudad de Nueva York en 2016.
Robert Alexander/Getty Pictures

En Meta, la disminución del suministro de datos utilizables preocupó tanto a los ejecutivos que se reunieron casi a diario en marzo y abril del año pasado para pensar en alternativas, informó el Situations.

Una thought que surgió en estas reuniones fue la de comprar Simon & Schuster. La famosa editorial ha trabajado con autores como Stephen King y Jennifer Weiner y fue comprada por la firma de funds privado KKR por 1.620 millones de dólares el año pasado.

Otros asistentes sugirieron una opción más económica: pagar 10 dólares por libro para obtener todos los derechos de licencia de los nuevos títulos.

Generando datos sintéticos

OpenAI está explorando datos sintéticos para entrenar sus sistemas.
RICHARD JONES/BIBLIOTECA DE FOTOS DE CIENCIA/Getty Pictures

Los datos sintéticos son datos generados por sistemas de inteligencia synthetic y OpenAI los ha considerado una opción para sus modelos.

«Mientras se pueda superar el horizonte de eventos de datos sintéticos, donde el modelo es lo suficientemente inteligente como para generar buenos datos sintéticos, todo estará bien», dijo el CEO de OpenAI, Sam Altman, en una conferencia tecnológica en mayo pasado, según el Situations.

El problema de entrenar sistemas de IA con datos sintéticos es que puede reforzar algunos de los errores y limitaciones de la IA, informó el Situations. OpenAI está trabajando en un proceso para abordar este problema en el que un sistema de IA make datos y otro sistema de IA los juzga.

El 28 de febrero, Axel Springer, la empresa matriz de Company Insider, se unió a otros 31 grupos de medios y presentó una demanda por 2.300 millones de dólares contra Google en un tribunal holandés, alegando pérdidas sufridas debido a las prácticas publicitarias de la empresa.

Axel Springer, la empresa matriz de Business enterprise Insider, tiene un acuerdo global para permitir a OpenAI entrenar sus modelos en los informes de sus marcas de medios.

Share.
Leave A Reply