La venta de Reddit de datos de usuario para entrenamiento de IA genera una investigación de la FTC

La plataforma dice que ganará más de 200 millones de dólares en los próximos años gracias a Google y otras empresas que quieren que los comentarios de los usuarios alimenten proyectos de inteligencia artificial.  Los reguladores tienen preguntas.

 Reddit dijo antes de su oferta pública inicial la próxima semana que otorgar licencias de publicaciones de usuarios a Google y otros para proyectos de inteligencia artificial podría generar 203 millones de dólares en ingresos en los próximos años.  La plataforma impulsada por la comunidad se vio obligada a revelar el viernes que los reguladores estadounidenses ya tienen preguntas sobre esa nueva línea de negocio.

 En una presentación regulatoria, Reddit dijo que recibió una carta de la Comisión Federal de Comercio de EE. UU. el jueves preguntando sobre "nuestra venta, concesión de licencias o intercambio de contenido generado por usuarios con terceros para entrenar modelos de IA".

 La FTC, el principal regulador antimonopolio del gobierno de Estados Unidos, tiene el poder de sancionar a las empresas que incurran en prácticas comerciales desleales o engañosas.  La idea de otorgar licencias de contenido generado por usuarios para proyectos de inteligencia artificial ha generado preguntas de legisladores y grupos de derechos humanos sobre los riesgos de privacidad, la equidad y los derechos de autor.

 Reddit no es el único que intenta ganar dinero con los datos de licencias, incluidos los generados por los usuarios, para la IA.  El sitio de preguntas y respuestas sobre programación Stack Overflow firmó un acuerdo con Google, Associated Press firmó uno con OpenAI y el propietario de Tumblr, Automattic, dijo que está trabajando "con empresas de IA seleccionadas", pero permitirá a los usuarios optar por no compartir sus datos.  Ninguno de los licenciantes respondió de inmediato a las solicitudes de comentarios.  Reddit tampoco es la única empresa que recibe una carta de la FTC sobre licencias de datos, informó Axios el viernes, citando a un exfuncionario de la agencia anónimo.

 No está claro si la carta a Reddit está directamente relacionada con la revisión de otras empresas.

 Reddit dijo en la divulgación del viernes que no cree haber participado en prácticas injustas o engañosas, pero advirtió que abordar cualquier investigación gubernamental puede ser costoso y llevar mucho tiempo.  "La carta indicaba que el personal de la FTC estaba interesado en reunirse con nosotros para conocer más sobre nuestros planes y que la FTC tenía la intención de solicitarnos información y documentos a medida que continúa su investigación", dice el documento.  Reddit dijo que la carta de la FTC describía el escrutinio como relacionado con "una investigación no pública".

 Reddit, cuyos 17 mil millones de publicaciones y comentarios son considerados valiosos por los expertos en inteligencia artificial para entrenar chatbots en el arte de la conversación, anunció un acuerdo el mes pasado para licenciar el contenido a Google.  Reddit y Google no respondieron de inmediato a las solicitudes de comentarios.  La FTC se negó a hacer comentarios.  (Advance Magazine Publishers, matriz de la editorial de WIRED, Condé Nast, posee una participación en Reddit).

 Los chatbots de IA como ChatGPT de OpenAI y Gemini de Google se consideran una amenaza competitiva para Reddit, los editores y otras empresas impulsadas por contenido y con publicidad.  El año pasado, la perspectiva de otorgar licencias de datos a desarrolladores de IA surgió como una posible ventaja de la IA generativa para algunas empresas.

 Pero el uso de datos recopilados en línea para entrenar modelos de IA ha planteado una serie de preguntas en las salas de juntas, los tribunales y el Congreso.  Para Reddit y otros cuyos datos son generados por los usuarios, esas preguntas incluyen quién es realmente el propietario del contenido y si es justo otorgarle licencia sin darle una parte al creador.  Los investigadores de seguridad han descubierto que los modelos de IA pueden filtrar datos personales incluidos en el material utilizado para crearlos.  Y algunos críticos han sugerido que los acuerdos podrían hacer que las empresas poderosas sean aún más dominantes.

 El acuerdo con Google fue uno de un “pequeño número” de licencias de datos que Reddit ha estado presentando a los inversores mientras busca generar interés por las acciones que se venderán en su IPO.  El director ejecutivo de Reddit, Steve Huffman, en la presentación para inversores, describió los datos de la empresa como invaluables.  "Esperamos que nuestra ventaja en materia de datos y nuestra propiedad intelectual sigan siendo un elemento clave en la formación de los futuros" sistemas de IA, escribió.

 En una publicación de blog del mes pasado sobre el acuerdo de Reddit AI, el vicepresidente de Google, Rajan Patel, dijo que aprovechar los datos del servicio proporcionaría información nueva y valiosa, sin ser específico sobre sus usos.  "Google ahora tendrá acceso eficiente y estructurado a información más reciente, así como señales mejoradas que nos ayudarán a comprender mejor el contenido de Reddit y a mostrarlo, capacitarlo y utilizarlo de la manera más precisa y relevante", escribió Patel.

 La FTC había mostrado anteriormente su preocupación por cómo se transmiten los datos en el mercado de la IA.  En enero, la agencia anunció que estaba solicitando información a Microsoft y a su socio y desarrollador de ChatGPT, OpenAI, sobre su relación multimillonaria.  Amazon, Google y el fabricante de chatbots de IA Anthropic también fueron cuestionados sobre sus propias asociaciones, dijo la FTC.  La presidenta de la agencia, Lina Khan, expresó su preocupación sobre si las asociaciones entre grandes empresas y nuevas empresas conducirían a una competencia desleal.

 Reddit ha estado otorgando licencias de datos a otras empresas durante varios años, principalmente para ayudarlas a comprender lo que la gente dice sobre ellas en línea.  Los investigadores y desarrolladores de software han utilizado los datos de Reddit para estudiar el comportamiento en línea y crear complementos para la plataforma.  Más recientemente, Reddit ha contemplado vender datos para ayudar a los operadores algorítmicos que buscan una ventaja en Wall Street.

 La concesión de licencias para fines relacionados con la IA es una línea de negocio más nueva, que Reddit lanzó después de que quedó claro que las conversaciones que organiza ayudaron a entrenar los modelos de IA detrás de los chatbots, incluidos ChatGPT y Gemini.  En julio pasado, Reddit introdujo tarifas para el acceso a gran escala a las publicaciones y comentarios de los usuarios, diciendo que su contenido no debería ser saqueado de forma gratuita.

 Esa medida tuvo la consecuencia de cerrar un ecosistema de aplicaciones gratuitas y complementos para leer o mejorar Reddit.  Algunos usuarios organizaron una rebelión y cerraron partes de Reddit durante días.  La posibilidad de que se produjeran más protestas de los usuarios había sido uno de los principales riesgos que la empresa reveló a los inversores potenciales antes de su debut comercial previsto para el próximo jueves, hasta que llegó la carta de la FTC.