Actualidad

NYT: OpenAI transcribió más de un millón de horas en YouTube para entrenar GPT-4

Publicado: 8 abr 2024 18:52 GMT

La compañía desarrolló una herramienta de reconocimiento de voz que le permitió transcribir el sonido de los videos, según el periódico.

NYT: OpenAI transcribió más de un millón de horas en YouTube para entrenar GPT-4 — Rafael Henrique / SOPA Images / LightRocket / Gettyimages.ru

OpenAI transcribió más de un millón de horas de los videos en YouTube para entrenar su modelo de inteligencia artificial GPT-4, considerado uno de los más potentes del mundo, y el propio Greg Brockman, presidente de la compañía, ayudó personalmente con la recopilación de los videos de la popular plataforma, de acuerdo con fuentes de The New York Times.

Los textos fueron extraídos con la herramienta de reconocimiento de voz desarrollada por los investigadores de OpenAI que les permitió saltarse la prohibición de YouTube de utilizar sus videos para aplicaciones "independientes" y acceder a ellos mediante "cualesquiera medios automatizados (como robots, botnets o 'scrapers')".

Seis fuentes del periódico confirmaron que la herramienta, bautizada internamente como Whisper ('susurro', en español), facilitó la transcripción de los videos y podcasts de YouTube en un momento en que la empresa estaba desesperada por conseguir más datos para entrenar su GPT-4. Dos fuentes afirmaron que Brockman ayudó a recopilar los videos de la plataforma y meterlos en el sistema.

Musk: podría haber un 20 % de posibilidades de que la IA destruya a la humanidad

Los empleados de OpenAI, además, sabían que estaban entrando en un área gris en términos de la legalidad, pero creían que el entrenamiento de la inteligencia artificial con los videos era un uso justo de los materiales ajenos. De hecho, parte del personal incluso discutió cómo ese paso podría violar las normas de YouTube.

Algunos empleados de Google estaban al tanto de que OpenAI había utilizado los videos de YouTube para extraer datos, pero no hicieron nada para impedirlo porque Google también usó las transcripciones de los videos publicados en la plataforma para entrenar sus propios modelos de inteligencia artificial, incurriendo en una práctica que podría haber violado los derechos de los creadores de contenidos. Por lo tanto, la compañía optó por mantenerse callada para no llamar la atención del público hacia sus propios métodos de trabajo.

comentarios

RT en Español en vivo - TELEVISIÓN GRATIS 24/7

NYT: OpenAI transcribió más de un millón de horas en YouTube para entrenar GPT-4

Lo más popular

Acerca de RT

Aplicación móvil