Saltar al contenido →

El Documentalista Enredado Entradas

Documentarse en tiempos de IA

Dos estudiantes de Massachussets (EEUU) fueron descubiertos utilizando una Inteligencia Artificial para la generación de textos en un trabajo escolar y sancionados. Hay que aclarar que no fueron sancionados por usar una IA per se, puesto que estaba permitido su uso para documentarse y buscar fuentes, sino por copiar y pegar textos de forma literal que, para su mala fortuna, la IA se había inventado (aunque es un caso frecuente). Esta noticia sorprende por las consecuencias que puede acarrear a los dos estudiantes, ya que es posible que no puedan acceder a estudios universitarios.

Además, con cierta perspectiva, se nos hace más difícil imaginar un uso cotidiano en el que no se pueda aplicar el uso de las Inteligencias Artificiales Generativas como ChatGPT. Las grandes empresas tecnológicas se encuentran en una carrera hacia el despliegue y la implementación de este tipo de soluciones en el día a día como el próximo The next big thingtecnológico. Microsoft, Apple, Samsung o Google se afanan en integrarlas dentro de sus dispositivos para su utilización de forma masiva, lo que las popularizará aún más. Por lo que se producirán más situaciones de uso que puede ser considerado dentro de ciertos ámbitos como no lícito o inadecuado.

No hace tanto tiempo que, para documentarse, el usuario debía realizar una tarea de filtrado exhaustiva. Saltando de ficha en ficha en formato de cartulina, almacenadas en grandes archivadores de madera y recorriendo estanterías hasta localizar el libro a consultar que debía abrir, leer (aunque fuese un capítulo específico) y determinar aquello que consideraba más interesante para hacer referencia en su trabajo de investigación. Era un trabajo de síntesis intenso y en ocasiones inabarcable, que fue haciéndose más cómodo, pero no por ello más sencillo. Como otras tareas, las referencias bibliográficas se fueron digitalizando y volcando en bases de datos para localizar de forma más rápida la información que se encontraba todavía en soporte papel. El proceso no acabó ahí, ya que la digitalización fue imparable y prácticamente todo el conocimiento se fue trasladando a bits para hacerlo en buena medida accesible en cualquier parte y a cualquier hora.

Google llegó con una misión ambiciosa, hacer todo el conocimiento accesible para todo el mundo y se convirtió en el buscador de referencia para los internautas. Ya no se salta de referencia bibliográfica a referencia bibliográfica, más bien de enlace a enlace para extraer aquello que nos parece más significativo de una página web o de un documento que se quiera consultar.

A pesar de esta nueva accesibilidad a una mayor de información, no había olvidar que en cualquier supuesto hay que tener presente qué se debe de considerar una fuente de información fiable y qué no. Lamentablemente, parece que los automatismos de las IAs nos hacen bajar la guardia como nos sucede en las redes sociales, condenados en una vida de consumo digital acelerado. Olvidamos que las IAs son solo herramientas a nuestro servicio. Su capacidad de consultar distintas fuentes, de extraer la información y estructurarla nos pueden llevar a la conclusión de que lo que nos exponen de forma tan razonada puede ser cierto, pero olvidamos que nosotros somos el último filtro. Debemos ser capaces de evaluar qué fuentes de información son mejores y en qué grado debemos confiar la información que nos exponen. Para ello, sólo deberíamos confiar en aquellas que hacen referencia a fuentes que puedan ser consultadas y que podamos comprobar.

Las IAs hacen un trabajo que antes podría llevarnos meses y tienen un potencial inmenso para ayudar al ser humano en la generación de conocimiento. Pero debe ser el ser humano el que evalúe esa información, el que la entienda y, por supuesto, que la supervise. De lo contrario, estaremos delegando y dando por bueno un sistema que está diseñado para satisfacer nuestras necesidades, olvidando que nunca admitirá “no lo sé”, “no tengo acceso” o “no lo he encontrado” (en algunos casos) y nos hará caer en la trampa de la desinformación que justo tratamos de evitar.

Deja un comentario

Refinando el nuevo petróleo: el poder de los datos

Data is the new oil. Like oil, data is valuable, but if unrefined it cannot really be used. It has to be changed into gas, plastic, chemicals, etc. to create a valuable entity that drives profitable activity. so, must data be broken down, analysed for it to have value.*

Clive Humby, 2006

Las personas nos hemos convertido en unas nuevas fuentes de información inagotable para las empresas. No es necesario ni siquiera que estemos interactuando con dispositivos electrónicos, sólo llevando uno en nuestro bolsillo, ya puede estar compartiendo información sobre nosotros de forma ininterrumpida.

Los datos que vamos dejando de forma inconsciente según la economía se digitaliza más y más conforman nuestra huella digital. Al contrario que el petróleo pero de forma similar, nuestros datos son finitos, sí, pero pueden ser refinados en infinitas formas, con distintos objetivos y usos. Tienen un valor económico intrínseco, ya que pueden mostrar patrones y modos de comportamiento de los que ni nosotros somos conscientes y que puede que no puedan ser explotados hoy, pero sí en el futuro. En definitiva, esos datos dicen mucho más de nosotros que nosotros mismos. Por supuesto que sucede lo mismo con la información de las empresas, que van dejando datos según desarrollan sus propias actividades.

La industria de los datos avanza muy rápido, más allá de legislaciones y acuerdos tácitos entre empresas. Sólo hay que comprobar la polémica entre empresas editoras y las empresas que desarrollan las inteligencias artificiales puesto que consideran que las últimas han cometido abusos sobre los datos compartidos en Internet que no se han utilizado con el fin con el que fueron publicados en un inicio.

Este punto incide sobre lo más importante del uso de los datos. No es importante acaparar los datos, conservarlos, extraerlos; si no lo especialmente relevante es cómo se usan esos datos. Como documentalistas, debemos saber establecer unas pautas de esa explotación del dato: de dónde viene el dato, qué se permite hacer con el dato y qué no; y cómo se pasa de un dato a un dato útil.

  • Origen del dato. No todos los datos son fiables. Algunos de ellos tienen sesgos, otros son falsos, otros erróneos… Es relevante saber de dónde proviene el dato, de dónde se extrae para valor la utilidad del mismo.
  • Privacidad del dato. Si hablamos de datos de personas o de cualquier índole, es importante saber con qué medio, con qué finalidad se ha extraído el dato y su finalidad de uso. Esto deviene a la capacidad de poder explotarlos y sobre todo según la legislación madura y avanza, es importante tenerlo presente.
  • Protección del dato. La privacidad es una manera de proteger el dato, otro es cómo asegurar que siempre está disponible cuando es necesario y se va a usar. Hay que tener presente que cuanto más importante sea la disponibilidad de los datos para la empresa, mayor será el impacto de la no disponibilidad de los mismos.
  • Preparación del dato. El dato en crudo no es útil, necesita ser refinado (preparación del dato, limpieza de los dato). Tener una estrategia para la preparación del dato es esencial.

Deja un comentario

La teoría de la internet muerta, ¿hay algún humano aquí dentro?

En los dos posts anteriores de este blog (12), trazaba los cambios y evoluciones de la Web a lo largo del tiempo. Además, incidía en cómo el contenido generado a través de las herramientas de inteligencia artificial iba a convertirse en un desafío para el medio que se suponía que iba a democratizar el acceso a la información y la comunicación. Sin entrar en el debate de la caza de los clics y de la atención de los usuarios con ofertas imposibles y de noticias impactantes que merecerían un texto a parte, la discusión sobre la Dead Internet theory incide en la pérdida de la creatividad y la diversidad que sufre actualmente la Red debido a la evolución de los últimos años. Además de que nos invita a hacer una reflexión sobre el estado de la Web actual.

La teoría de la internet muerta, que comenzó a plantearse dentro de los foros 4Chan a finales de los 2010, parte de dos premisas principales. La primera, la actividad humana dentro de Internet se ha visto desplazada por bots y algoritmos. Esto es algo que se puede comprobar de forma sencilla y ya ha habido grandes empresas que ofrecen datos sobre ello, ya que casi la mitad del tráfico se genera por máquinas. La segunda parte, más cerca de las teorías de la conspiración aunque podría fundamentarse en el comportamiento de algunas empresas, que todo ese tráfico autogenerado está gestionado por los gobiernos para controlar la información y manipular la opinión pública.

Como señalaba, no hace falta indagar en exceso de dónde viene esa teoría sobre el «control» de los usuarios reales de Internet. Hay estrategias muy bien definidas para generar tracción en internet tanto a nivel de marketing o comercial o político. Por ejemplo, es bien conocido que en las redes sociales se genera mucho contenido basado en textos e imágenes realizados con inteligencia artificial con idea de mover votos en unas elecciones y generar viralización (clics, comentarios, re-publicaciones, likes), pero además ese mensaje se refuerza con bots en forma de usuarios que tratan de aumentar el volumen de impacto para saltarse los algoritmos y aumentar la visibilidad hacia personas reales. En resumen, contenido generado por bots y aupado por bots de forma artificial para que impacte a los usuarios de la red social.

Nos encontraríamos con información falsa que intenta conseguir un hype (fuerte expectación) verdadero. Este comportamiento y la falta de control y mitigación del mismo apunta directamente a las grandes tecnológicas convertidas en guardianas (gatekeepers) del contenido que se consume masivamente en internet. Estas empresas son prisioneras de su propio modelo de negocio basado en la publicidad y que justifican la inversión a sus clientes (anunciantes) por las interacciones en ellas de sus usuarios (contados en cientos de millones).

Por tanto, es un producto que puede llegar a ser considerado perverso. Los algoritmos desplegados por estas empresas generan un producto atractivo en el que se consume masivamente información que puede llegar a generar burbujas virtuales de información de las que es difícil salir y ahí entra la pérdida del acceso a la información contrastada y del debate.

La web abierta, uno de los sueños a los que hacíamos referencia en textos anteriores, se va descomponiendo, a medida que las grandes empresas comienzan a controlar en mayor medida los datos que los usuarios generan y cambian sus términos y condiciones para utilizarlos en la forma que considere. Una evolución a la que es difícil ponerle coto por la gran dispersión de legislaciones e intereses empresariales y que consolida la idea de que la Web como la conocimos desaparece lentamente, convirtiéndose en una Web sintética donde el contenido se genera de forma automática y rápidamente buscando la viralización y el impacto, que muchas ocasiones no puede ser verificado.

Deja un comentario

Una web que se devora asimisma (y 2)

[Sigue del texto anterior]

La Wikipedia ha sido un referente en la Web respecto a lugar confiable a la hora de consultar información. Si bien es cierto que permitir la edición de forma abierta, siempre ha sido uno de los desafíos de los bibliotecarios de la Wikipedia, la influencia de esta web ha provocado distintas Guerra de Ediciones. Actualmente, los responsables de la calidad de la Wikipedia tratan de lidiar de un fenómeno relativamente nuevo, la web ha comenzado a ser editada mediante IAs, lo que genera un problema de confiabilidad de los contenidos de la enciclopedia online y por lo que se ha creado un grupo específico, Wikiproject IA Cleanup, para tratar de atajar el problema. Este equipo trata de revisar el contenido falso o equívoco creado por la inteligencia artificial y actualmente está compuesto por unas 80 personas.

De momento, es sencillo detectar estas inexactitudes determinado por distintos patrones a la hora de redactar los textos por parte de la inteligencia artificial o con las imágenes porque las versiones actuales tienen ciertos problemas a la hora de generar manos y dedos (algo que se está corrigiendo de forma acelerada, también habría que indicarlo). En el caso del texto, muchos bots siguen un mismo estilo a la hora de generar los textos, por lo que un ojo experimentado puede detectarlo.

Por ejemplo, en el caso anglosajón, se ha comprobado que la palabra «delve (ahondar)» ha incrementado su uso en la Web de forma exponencial según la inteligencia artificial se hacía más popular. Además, en el caso de la Wikipedia, la tendencia a generar citas incorrectas o directamente inventadas genera enlaces que no van a ninguna parte o son erróneos, lo que permite al mismo tiempo, determinar qué tipo de textos han estado generados por una IA.

Aunque lo que está sucediendo en la Wikipedia es ilustrativo en cuanto a la lucha que mantenemos los seres humanos respecto a esos generadores autónomos de contenido, la IA está cubriéndolo todo generando polémicas en distintos ámbitos como la fotografía, los diseñadores gráficos, la literatura, la música… pero también otros ámbitos profesionales como los artículos científicos o el periodismo con ciertas consecuencias todo sea dicho.

En el ámbito de la Web, la situación es aún podría considerarse peor. Cada día se generan de forma autónoma una cantidad ingente de contenidos desvirtuando los resultados de los buscadores (si es que les quedaba algo de verosimilitud a la hora de devolver los mejores resultados). El problema más allá de ese contenido es que los modelos se entrenan con una gran cantidad de información de forma abierta y esa información está desapareciendo a marchas forzadas. En un artículo de la revista Nature, se recogía que los modelos IA colapsaban cuando se entrenaban de forma recurrente con contenidos generados por IAs. Es decir, que los modelos generaban contenido basura sin ningún tipo de sentido.

Además de la necesidad de reducir su exposición a demandas por violación de las condiciones de uso de las principales editoriales, OpenAI está tratando de asegurarse el acceso al contenido de buena calidad, tratando de limitar este daño colateral firmando acuerdos con las principales empresas editoras tanto de noticias como de contenido científico para de esta manera que sus algoritmos no sufran por la cantidad de información que se autogenera e inunda poco a poco la Red.

Un comentario

Una Web que se devora asimisma (1)

En la década de los 90, cuando se echaba mano del socorrido símil autopistas de la información para entender qué es lo que podría aportar a futuro la World Wide Web (que acabó reducida a Web o Red), se nos prometió un El Dorado donde el acceso a la información será universal y barato. Sin embargo, ese paraíso futurible donde todavía el acceso era caro y con unas necesidades tecnológicas aún lejanas para la inmensa mayoría de la población pronto mutó hacia otra cosa mientras el dinero comenzó a fluir hacia un entorno que lo redefiniría todo.

En una primera fase, la recopilación de enlaces de sitios interesantes en forma de directorios fue sencillo de mantener. Pero pronto esa curación humana se tornaría inmanejable dando espacio a otro tipo de tecnologías como la de En una segunda, Google que acudió a salvarnos frente aquella intoxicación, haciendo racional y sencillo la categorización de la información mediante algoritmia y una serie de rankings que fueron cambiando a lo largo del tiempo. Esta clasificación automática tuvo que ir adaptándose a la realidad de una web que crecía y se bifurcaba hacia todo tipo de contenidos e intereses según se democratizaba la generación de contenido (Web 2.0) y el acceso sencillo e inmediato en cualquier punto (teléfonos móviles).

Cada nueva evolución tecnológica significaba un cambio del paradigma anterior, pero la Web supo pudiendo ofrecer soluciones de información a todo tipo de sensibilidades y de esperanzas. Hubo un momento que la Web era un foro abierto en que cualquier persona tenía una oportunidad para promocionarse, opinar de forma transparente y mostrar sus conocimientos. Con suerte, hasta poder construir una comunidad propia, pero el modelo se fue retorciendo según se añadían capas y capas nuevas al algoritmo y el ecosistema móvil se posicionaba como una nueva gallina de los huevos de oro, según las marcas buscaban llegar a consumidores jóvenes y no tanto. Por supuesto que los mensajes y la capacidad de influir a la opinión pública también cambiaba; trasladándose desde los medios de comunicación y hacia Facebook y, en menor medida, a Twitter entonces y ahora X.

Por si la situación no fuese compleja, y con las redes sociales ya siendo sometidas a escrutinio y control debido a su alcance a la población en general, otra capa de complejidad se añade apoyándose en todo lo anterior. La Inteligencia Artificial viene a incorporar un poco más de confusión a todas esas vías de acceso de información a los usuarios. Ya se trate mediante texto o imagen (en la mayor brevedad vídeo), las IAs se posicionan como grandes generadores de textos que de forma barata son capaces de sobrepasar al resto de generadores de contenidos ya sean medios de comunicación como referentes de la opinión pública individuales.

[Continúa]

Un comentario

Mombies, esos zombies tecnológicos modernos

El hombre me miró extrañado y confuso, mientras me veía hablar animadamente. No llegó a entender lo que estaba sucediendo, comprobó que llevaba unos auriculares, sí, pero no llegaba a comprender qué sucedía mientras lanzaba palabras hacia nada y hacia nadie. Pasó de largo y no me dijo nada, qué podría decir ante tan sólo una persona con un comportamiento extravagante pero no punible, aunque sí confuso, su confusión. Su extrañeza hubiese quedado en nada si no hubiese tenido tiempo de cruzarse con mi padre y decirle para su sorpresa ese tío está loco, sin conocernos a ninguno de los dos, por supuesto.

Aquel hombre consideraba que estaba hablando solo, lo que le generó su sorpresa. Aunque, como se podrá imaginar, realmente estaba hablando por teléfono móvil y tan sólo estaba usando unos auriculares con micrófono que me permitía hablar sin que el hombre viese que estaba usando un aparato. Visto en perspectiva, me hubiese gustado haberle trasladado desde aquellos años, cuando se estaban popularizando los teléfonos móviles, a un día cualquiera en el metro de cualquier urbe. Es posible que se hubiese sorprendido por el avance tecnológico o simplemente hubiese pensado que una epidemia ha arrasado con la especie humana. Una epidemia que nos tiene enganchados y mirando constantemente a un rectángulo que genera colores.

Me gusta llamarlos, o llamarnos porque yo también lo soy, MOMBIES. Los encontráis fácilmente. Se trata de esas personas con la mirada perdida, que te miran pero no te ven, que aparentemente hablan hacia ninguna parte, generando confusión y desasosiego a sus contrapartes porque no sabes si te están hablando a ti (en ocasiones) o están enfrascados en alguna otra parte. Mombies, construida con las palabras móviles y zombies, que tienes que esquivarlos en los andenes del metro o directamente en las calles porque andan trabajosamente, mientras tratan de contestar WhatsApps (u otra aplicación de mensajería popular) o que están pasando pantallas de vídeos de Instagram o TikTok. También puedes verlos sosteniéndolos de forma perpendicular a sus orejas, escuchando algún mensaje o algún vídeo, con la mirada perdida y en una pose un tanto caricaturesca, aunque no parece importarles demasiado.

Siendo justo, a veces me sorprendo totalmente aislado, leyendo en el Metro el teléfono móvil algún periódico o mi lector de RSS (una de las mayores pérdidas de las redes sociales) enfrascado y con unos auriculares con cancelación de ruido. Me decepciono conmigo mismo porque soy de aquellos que piensa que lo mejor que puedes hacer cuando visitas una ciudad de visita es meterte en el metro o en el tren para conocerla. La vida está en un vagón de metro, me digo, pero también soy consciente de que con un teléfono en la mano, me percato que la vida pasa delante de mí sin que me dé cuenta.

Los zombies son personas muertas resucitados por medios mágicos por un hechicero para convertirlo en su esclavo. Los mombies no están muertos, pero sí que hay un hechicero que los convierte en sus esclavos para arrancarles un hálito de su vida. Puede que sean diez minutos o una hora vital de su vida al día, porque la vida no se encuentra en una pantalla.

Deja un comentario

El meme denuncia desplaza a la fotografía

«Que las fotografías sean a menudo elogiadas por su veracidad, su honradez, indica que la mayor parte de las fotografías, desde luego, no son veraces»

Susan Sontag

Antes de aprender escribir, la Humanidad aprendió a dibujar. Cuando la Humanidad necesitaba contar historias, recurría a la oración reforzada con pinturas y pictogramas. El refrán «una imagen vale más que 1000 palabras» transmite esa idea. Una sola imagen puede transmitir ideas complejas de una forma más efectiva que una descripción verbal o mediante un texto.

Muchas imágenes se han quedado fijas en el imaginario colectivo. Algunas simplemente por el mero gusto contemplativo, mientras que otras se han utilizado para denunciar un conflicto y las injusticias de una guerra. El fotógrafo Nick Ut consiguió remover conciencias a nivel mundial en junio de 1972 cuando inmortalizó a unos niños huyendo de un bombardeo a su aldea durante la guerra de Vietnam. La fotografía de una niña abrasada por el napalm estadounidense dio la vuelta al mundo y para remover conciencias de un mundo adormilado de años de conflicto. El fotógrafo que tomó la imagen en 1972 estaba convencido que la fotografía podía mejorar el mundo. En este caso, lo hizo.

50 años más tarde, la conciencia del mundo parece haberse transformado. Los grandes medios de comunicación apenas pueden modular el estado de una opinión pública más centrada en sus necesidades individuales y en sus sesgos de confirmación. La transmisión de la información se desborda a través del transmedia, los puntos de emisión son tanto los medios de comunicación de masas, las redes de dispersión social como otro tipo de plataformas más íntimas como la mensajería personal. Las imágenes siguen siendo más importantes que las palabras, pero esas imágenes ya no tienen porqué haber sido grabadas de forma consciente e intencionada por un ser humano allí donde sucede el hecho.

All eyes on Rafah (Todos los ojos en Rafah) ha sido la primera imagen generada por Inteligencia Artificial que se ha hecho viral para denunciar una situación de conflicto. Compartida por más de más de 46 millones de cuentas solo en Instagram, es una de las imágenes que invitan a mirar la situación sobre una zona geográfica con fuertes tensiones que no muestra la realidad del hecho que trata de denunciar.

Esto puede llegar a mostrar un cambio de paradigma sobre el periodismo. A pesar de las imágenes que los fotoperiodistas y los video-reporteros tratan de compartir a riesgo de sus vidas como llevan haciendo desde generaciones, el valor de la representación de la verdad ha perdido parte de su significado. Ya no son capaces de generar opinión pública (y no por falta de imágenes crudas) sino porque las vías de distribución de las mismas se encuentran bloqueadas y restringidas por una suerte de política de restricción de «contenido gráfico.» Sólo una imagen dulcificada, prácticamente blanca, generada por una inteligencia artificial consigue hacerse viral, porque el mundo ha olvidado cómo remover conciencias degradando el valor de la imagen o, peor, esta vez sí, que sólo pueda mirar hacia otro lado.

Deja un comentario