Reddit Redobla sus Esfuerzos Para Proteger los Datos de la IA
Junio 28, 2024
1 min 36 s de lectura
Reddit está dificultando el acceso de la IA a sus datos.
El popular sitio web de noticias sociales está tomando medidas proactivas para impedir que la IA acceda a sus datos. Si, como Reddit, utilizas archivos robot.txt para impedir que tu contenido sea "raspado", quizá sea una buena idea encontrar una forma más estricta de controlar tus datos. Reddit dice que los archivos robot.txt no son suficientes.
Muchos rastreadores ignoran o los archivos robot.txt, lo que permite a algunas empresas (en particular las
startups de IA) hacerse con publicaciones de Reddit para alimentar sus herramientas de IA y entrenarlas con contenidos robados.
Reddit dice que comenzará a "actualizar una norma web utilizada por la plataforma para detener el raspado automatizado de datos de su sitio web." Esto se produce tras los informes de que las
startups de IA se saltan la norma para recopilar contenidos para sus sistemas. La medida de Reddit llega tras una gran polémica sobre empresas de inteligencia artificial que copian contenidos y plagian para crear resúmenes generados por IA sin dar crédito, pedir permiso o pagar por el contenido robado.
Reddit dice que
mantendrá la limitación de velocidad, que controla el número de peticiones de cualquier entidad y "bloqueará bots y rastreadores desconocidos para que no puedan rascar datos".
La batalla contra la IA y el plagio se ha recrudecido a medida que la IA sigue robando contenidos y las empresas lo utilizan en su beneficio. A principios de este mes, Forbes acusó a Perplexity, una empresa de búsqueda de IA, de plagiar sus historias y utilizarlas en sus sistemas de IA generativa sin dar crédito. Ahora Perplexity está en apuros, ya que una investigación determina que eludieron los esfuerzos de Forbes para bloquear a los ladrones de IA.
Pero este caso es solo uno de los muchos que se están analizando a medida que más y más empresas intentan que la IA haga todo el trabajo pesado sin pagar por contenidos que, en esencia, se "levantan" de Internet y se utilizan sin pago ni crédito.
La conclusión es que el protocolo aceptado actualmente no es suficiente para proteger el contenido, y las medidas proactivas de Reddit permiten a los propietarios de sitios web adoptar una postura contra el plagio y el robo de datos de IA. Reddit está dando un paso adelante, y es hora de que otros hagan lo mismo.
¿Deseas leer esto en inglés?
Versión en inglés >>