- Parece que OpenAI está cambiando de estrategia. Hasta ahora, la desarrolladora de ChatGPT supuestamente había optado por recopilar sin consentimiento la información publicada en internet para entrenar sus modelos de inteligencia artificial.
- Sin embargo, ahora está llegando a acuerdos contractuales para poder utilizar esa misma información de forma legítima. Así se puede constatar en el último acuerdo que ha firmado con Reddit, uno de los mayores foros online del mundo.
De un tiempo a esta parte, algunos expertos en inteligencia artificial han acusado a las principales compañías de este nuevo sector de la industria tecnológica de haber recopilado de forma ilícita información publicada en internet para poder entrenar con ella sus grandes modelos lingüísticos (LLM, por sus siglas en inglés).
«Han escaneado internet, se han nutrido de la información volcada por todos«, denunció hace ya más de un año el programador y experto en ciberseguridad, Marc Almeida, en entrevista para Business Insider España.
Almeida se refería en esto términos a la forma en la que las empresas de IA como OpenAI, la desarrolladora de ChatGPT, habían utilizado «un paradigma de acción yanqui» para entrenar sus LLM: «Move fast and break things, que la traducción al castellano sería: ‘Más vale pedir perdón que permiso‘».
En cambio, en los últimos meses esta situación ha cambiado notablemente.
Quizá la aprobación de ciertas normativas para tratar de legislar esta cuestión, como el Reglamento de Inteligencia Artificial de la Unión Europea (que se espera que entre en vigor en algún momento de aquí a 2026), haya cambiado la forma de pensar de las compañías, pero lo cierto es que están adoptando otro tipo de enfoque a la hora de entrenar a sus modelos de IA.
Sin ir más lejos, OpenAI ha firmado varios contratos en las últimas semanas para poder utilizar ciertas fuentes de información con las que poder entrenar sus LLM, entre ellas, medios de comunicación como Le Monde o grupos mediáticos como Axel Springer, la editora a nivel internacional de Business Insider.
Este mismo jueves se ha anunciado otro acuerdo de estas características. Tal y como ha informado TechCrunch, en esta ocasión, la desarrolladora de ChatGPT ha publicado en su blog de relaciones con la prensa que ha llegado a un acuerdo con Reddit para poder entrenar sus modelos de inteligencia artificial con los datos de la mayor red de foros online del mundo.
OpenAI ha asegurado que su asociación con Reddit le va a proporcionar acceso a «contenido único, estructurado y en tiempo real», como, por ejemplo, las publicaciones y las respuestas de los foros online, lo que permitirá a sus herramientas y modelos «comprender y representar mejor» ese tipo de contenido.
Según ha publicado el medio especializado en tecnología, el contenido de Reddit se incorporará así a ChatGPT y ambas empresas colaborarán para ofrecer nuevas «funciones impulsadas por IA» —que no han sido especificadas— tanto a los usuarios de los foros como a los moderadores de Reddit.
«Reddit se basará en la plataforma de modelos de inteligencia artificial de OpenAI para dar vida a su poderosa visión», ha afirmado la desarrolladora de ChatGPT, quizá queriendo dar a entender que se trata de un acuerdo del que se van a beneficiar ambas partes. «El uso de LLM, ML [aprendizaje automático] e IA permite a Reddit mejorar la experiencia del usuario para todos».
Desde TechCrunch han señalado que este acuerdo podría generar cierta suspicacia, ya que Sam Altman, CEO de OpenAI, tiene una participación del 8,7% en Reddit, lo que le convierte en el tercer mayor accionista de la compañía, además de haber sido miembro con anterioridad del consejo de administración de la organización.
Sin embargo, desde la desarrolladora de ChatGPT han querido desestimar las posibles dudas apuntando que, si bien Altman sigue siendo accionista de Reddit, la consecución del acuerdo ha sido coordinada por «el director de operaciones de OpenAI [Brad Lightcap]» y «aprobada por el consejo de administración independiente [de OpenAI]».
Fuente Business Insider