Saltar al contenido →

Etiqueta: Buscadores Web

Una Web que se devora asimisma (1)

En la década de los 90, cuando se echaba mano del socorrido símil autopistas de la información para entender qué es lo que podría aportar a futuro la World Wide Web (que acabó reducida a Web o Red), se nos prometió un El Dorado donde el acceso a la información será universal y barato. Sin embargo, ese paraíso futurible donde todavía el acceso era caro y con unas necesidades tecnológicas aún lejanas para la inmensa mayoría de la población pronto mutó hacia otra cosa mientras el dinero comenzó a fluir hacia un entorno que lo redefiniría todo.

En una primera fase, la recopilación de enlaces de sitios interesantes en forma de directorios fue sencillo de mantener. Pero pronto esa curación humana se tornaría inmanejable dando espacio a otro tipo de tecnologías como la de En una segunda, Google que acudió a salvarnos frente aquella intoxicación, haciendo racional y sencillo la categorización de la información mediante algoritmia y una serie de rankings que fueron cambiando a lo largo del tiempo. Esta clasificación automática tuvo que ir adaptándose a la realidad de una web que crecía y se bifurcaba hacia todo tipo de contenidos e intereses según se democratizaba la generación de contenido (Web 2.0) y el acceso sencillo e inmediato en cualquier punto (teléfonos móviles).

Cada nueva evolución tecnológica significaba un cambio del paradigma anterior, pero la Web supo pudiendo ofrecer soluciones de información a todo tipo de sensibilidades y de esperanzas. Hubo un momento que la Web era un foro abierto en que cualquier persona tenía una oportunidad para promocionarse, opinar de forma transparente y mostrar sus conocimientos. Con suerte, hasta poder construir una comunidad propia, pero el modelo se fue retorciendo según se añadían capas y capas nuevas al algoritmo y el ecosistema móvil se posicionaba como una nueva gallina de los huevos de oro, según las marcas buscaban llegar a consumidores jóvenes y no tanto. Por supuesto que los mensajes y la capacidad de influir a la opinión pública también cambiaba; trasladándose desde los medios de comunicación y hacia Facebook y, en menor medida, a Twitter entonces y ahora X.

Por si la situación no fuese compleja, y con las redes sociales ya siendo sometidas a escrutinio y control debido a su alcance a la población en general, otra capa de complejidad se añade apoyándose en todo lo anterior. La Inteligencia Artificial viene a incorporar un poco más de confusión a todas esas vías de acceso de información a los usuarios. Ya se trate mediante texto o imagen (en la mayor brevedad vídeo), las IAs se posicionan como grandes generadores de textos que de forma barata son capaces de sobrepasar al resto de generadores de contenidos ya sean medios de comunicación como referentes de la opinión pública individuales.

[Continúa]

Un comentario

Cuando Goliat (Google) se encontró con David (ChatGPT)

La rápida tasa de adopción de ChatGPT de OpenIA será digno de estudio en las escuelas de negocio en un breve espacio de tiempo. Desde que se permitió el acceso al gran público en noviembre de 2022, ha fascinado a todos los que se han aventurado a probarlo ofreciendo una calidad en las respuestas y en los resultados que no han podido poner en cuestión el producto en sí. Un producto que recordemos que se encuentra en fase de prototipo y que ya ha puesto a la defensiva a las grandes tecnológicas como Google, Meta (Facebook) y Apple.

ChatGPT (Generative Pre-Trained Transformer) posee la interfaz de un chatbot. La interacción con el producto es lanzando preguntas a las que el sistema genera respuestas a través de toda la información con la que se ha entrenado (570 gigabytes de información textual). Su éxito se debe a que comprende bien las instrucciones y proporciona respuestas mediante el procesamiento del lenguaje natural. Cada pregunta puede tener contestaciones similares pero no iguales, puesto que se generan automáticamente y a cada interacción por lo que puede ampliar o reducir el alcance de la respuesta a cada momento. Sin embargo, y es un punto en su contra, no aporta información sobre sus fuentes de información por lo que puede generar dudas sobre las respuestas si el usuario no es un experto en la materia que se está consultando.

En definitiva, la interfaz es similar a la de Google y muy sencilla, una caja de texto (en este caso de interacción) en la que se pueden solicitar definiciones, que detalle conceptos complejos de forma sencilla, que trace planes estratégicos para las empresas, recomendaciones de lugares que visitar en vacaciones, resúmenes de textos ya sean artículos o libros o ayudar a programar en código. Una herramienta muy potente y diversa en casos de uso que puede llegar a amenazar a Google en la mayoría de las búsquedas de internet y cuyo uso ha comenzado a generalizarse tanto en el ámbito de la educación, académico y empresarial.

Google es el gigante de internet más allá de su buscador, también posee YouTube y el sistema operativo para móviles Android, además de infinitos productos pensados para ser utilizados en Cloud. En cuanto a las búsquedas, actualmente el 92.58% del mercado de las búsquedas a nivel global y el 80% de sus ingresos provienen del mercado publicitario en Internet. Posee acuerdos marco tanto con Apple (Safari) como con Mozilla (Firefox) para que su buscador sea la opción por defecto en sus respectivos navegadores. Sin embargo, el producto de la empresa OpenIA participada por Microsoft parece dispuesta a arrebatarle el trono de las búsquedas en Internet y en otros muchos ámbitos según evolucionen los casos de uso donde aplicarse la tecnología desarrollada por la empresa.

Puede parecer que a Google el desarrollo la haya cogido con el pie cambiado, pero lleva años trabajando en aplicaciones de inteligencia artificial como ChatGPT. De hecho, la tecnología que representa el corazón del producto de OpenIA fue desarrollada por ingenieros de Google. Sin embargo, Google no había decido apostar claramente por estos interfaces porque generaría un problema con su modelo de negocio. Una estrategia que se ha demostrado errónea en cuanto el mercado se ha puesto patas arriba con ChatGPT, y la gran G se ha apresurado a lanzar su propio chat denominado Bard, aunque no estaba tan depurado como el primero.

Microsoft no ha perdido el tiempo en cuanto el producto ha obtenido tracción e interés en el mercado. Ha ampliado su inversión en la empresa OpenIA a pesar de las dudas del modelo de negocio de la empresa, ha integrado ChatGPT en su buscador Bing (a mi parecer que unos resultados más pobres, aunque sí que referencia las fuentes de información) y ha comenzado su implementación en su sistema operativo Windows y en la suite Office (Microsoft Copilot) . Una apuesta absoluta a un desarrollo tecnológico que va a hacer que cambiemos no sólo cómo buscamos en internet, si no también cómo interactuamos con nuestras aplicaciones en el ordenador.

Deja un comentario

EdgeRank vs PageRank o cómo consumimos información en Internet

Es cierto. Hablar hoy en día sobre cómo interactuamos con el contenido en la Red basándonos en los algoritmos de Google (PageRank) y Facebook (EdgeRank), sólo nos puede ilustrar respecto a los filtros a los que nos vemos sometidos para acceder a la información que estamos consumiendo. Hace mucho tiempo que Google trata de ocultar la puntuación de Pagerank en los sitios web animando a los desarrolladores a que se centren más en el SEO, mientras que Facebook dejó de utilizar su algoritmo EdgeRank en 2011 siendo sustituido por una inteligencia artificial en 2013 que tiene presentes 100.000 factores distintos. Sin embargo, es necesario retroceder al nacimiento de estos dos algoritmos, para entender cómo consumimos la información hoy en día y cómo las grandes empresas recaban información sobre nuestros comportamientos para tratar de mostrarnos la mejor información posible.

Google se basó en conceptos bibliométricos para desbancar a su competencia a finales del siglo XX. Realmente, cuando buscabas cualquier término en el buscador de Mountain View los resultados eran relevantes y parecía que su motor de búsqueda se encontrase a gran distancia de su competencia más inmediata. Tanto es así que Google estuvo mucho tiempo relacionado con el concepto de «buscar en Internet» porque funcionaba realmente bien. Sencillamente, el algoritmo PageRank consideraba los enlaces del hipertexto como votos. Si una página web recibía muchos enlaces era como citarla, por lo que había muchos autores que referenciaban a esa página web como interesante dentro de un campo. Además, PageRank también tenía presente el contenido de la página, si un término aparecía en el título o al principio del texto es que esa página abordaba esa temática de forma relevante.

Sin embargo, PageRank en sus inicios sólo consideraba que el contenido era relevante gracias a los productores de contenido, por ejemplo, los periodistas, los bloggers… Pero no por los usuarios finales de ese contenido, es decir, los internautas que eran los que finalmente los consumían. ¿Cómo afinar los contenidos teniendo presente los intereses de un usuario?

Facebook se enfrentó a su problema desde un principio. A medida que su red social se incrementaba, los usuarios necesitaban de esa priorización. ¿Cómo podía saber Facebook en sus inicios qué contenidos tenía que destacar en la página principal de un usuario? EdgeRank fundamentaba la relevancia no por el contenido en sí mismo, sino por la interacción entre usuarios y tenía presente tres variables:

  • La puntuación de afinidad entre usuarios. Cuantos más usuarios compartiesen dos «amigos» significaba que tenían vínculos sociales más fuertes entre ellos dos. Además, también podía identificarse esa afinidad mediante los mensajes que se enviasen, la visualización de sus respectivos perfiles y otro tipo de interacciones dentro de la red social.
  • Asignación de pesos a las interacciones. El algoritmo tenía presente que un mensaje o un comentario tenía más peso en la puntuación final que un simple like, por ejemplo.
  • Tiempo pasado. A la hora de mostrar contenido, EdgeRank preponderaba contenido más nuevo frente a contenido más viejo.

Si bien Google lo tuvo más complicado en un principio por su propia naturaleza como buscador, tanto la Gran G como Facebook se esforzaron por conocer cuáles es nuestro comportamiento con los contenidos en la Web. Facebook y Google han tratado de capturar nuestros clics, nuestras interacciones, cómo compartíamos y con quién la información y cómo la consumíamos. Todo ello, no sólo para mejorar los resultados que nos muestra si no también para poder vender esa información a terceros para mejorar los impactos publicitarios.

Sin embargo, esa búsqueda por mostrar la información que es relevante para nosotros tiene efectos perniciosos puede que no buscados por las tecnológicas. Por un lado, se provoca un filtro burbuja en la que nos muestra tan sólo la información que es relevante para nosotros como por ejemplo de nuestra tendencia política, pero también afecta a nuestro bienestar puesto que se puede provocar un sesgo respecto a la información positiva o negativa que se nos puede llegar a mostrar.

Comentarios cerrados

Tú en tu burbuja (de información)

2018 fue el año que se le cayó la careta de Facebook definitivamente. Detrás de la imagen, un tanto amable de Mark Zuckerberg, ya puesta en duda en la película de David Fincher La Red Social, en la que se mostraba al CEO de Facebook como una persona ambiciosa y sin apenas escrúpulos (aunque se le trataba de edulcorar hacia el final de la cinta); descubrimos una realidad en la que lo sencillo es traficar con nuestros datos casi con total impunidad. Así, tras disculpa tras disculpa, Facebook ha ido escurriendo el bulto durante todo el año.

Sin embargo, hace ya bastante tiempo que se nos advirtió que cuando algo era gratis, el producto éramos nosotros. En definitiva, que alguien estaba explotando esa información que desinteresadamente, casi sin darnos cuenta, estábamos dándoles un pozo de información de la cual se podía extraer un beneficio económico.

No nos llevemos a engaño. Cada vez que conectamos un servicio adicional (Spotify, iVoox, etcétera) a Facebook o a Google, le estamos dando una llave a acceder a una gran cantidad de información a una y a otra empresa. Una información que nos descubre quiénes somos a terceros hasta extremos que como usuarios no podemos imaginar. Os invito a que os paseéis por la web de Google My Activity o vuestro historial de localizaciones para descubrir qué sabe Google de vosotros. Por supuesto que esto es sólo una pequeña parte de lo que la empresa de la gran G sabe de nosotros.

Esta información no sólo sirve para saber qué nos ha interesado, si no también qué nos puede llegar a interesar. En el caso de Google, en diciembre de 2009, implementó un algoritmo para ajustar los resultados al usuario. De esta manera, buscásemos lo que buscásemos, Google trataría de acomodar la información que nos proveyese atendiendo a nuestros gustos. Por ejemplo, dependiendo de la información que tuviese la empresa de Mountain View, cuando buscásemos “partido político” podría preponderar información sobre partidos de la izquierda o de la derecha partiendo de nuestras búsquedas previas y nuestras preferencias.

Este filtro burbuja ya establecido provoca que nos veamos limitados a la hora de obtener la información más relevante ante una búsqueda. Realmente Google nos ofrece lo que queremos leer, no la información más completa y mejor. Esto puede derivar hacia que la próxima batalla se va a establecer respecto a qué datos pueden ser usados y cómo en cuanto usamos la red. La privacidad se está convirtiendo en una característica de los productos de Apple sin ir más lejos.

En España, tenemos un ejemplo respecto a la ley que permite recopilar datos a los partidos políticos para definirnos ideológicamente. Este movimiento legislativo ya ha sido contestado por la Agencia de Protección de Datos española afirmando que es ilegal recopilar información sobre la ideología de las personas, aunque obviamente parezca que esa información ya se encuentra recopilada y disponible para quien quiera usar de ella.

Ya se ha demostrado que en Twitter (y por supuesto en cualquier red social) seguimos a personas que tienen nuestros mismos puntos de vista, que no seguimos a personas del signo contrario. El riesgo es que se nos intente manipular de cierta manera para que cambiemos nuestro punto de vista, que no alcancemos la información que nos daría un contrapunto y que nos hiciese cuestionar nuestras creencias previas. De esta manera, una fuente podría darnos una información falsa interesadamente, dándonos una confirmación de algo que tenemos nosotros prefijado previamente y que no necesariamente se acercase a la realidad.

En definitiva, el riesgo no es la información, sino la desinformación y la manipulación como se ha ido demostrando los últimos años. Una vez más, como consumidores de información debemos considerar qué fuentes de información consultamos, qué ética se persigue y si realmente esta fuente de información es real o de humor (¿cuántas personas de habla hispana y no hispana saben que El Mundo Today es un medio satírico?).

Actualmente, el acceso a la información es casi inmediato, pero sin filtro. El filtro lo establecemos cada uno de nosotros con nuestra experiencia, aunque gracias a los algoritmos serán otros los que decidan cómo y qué tipo de información consumiremos.

Comentarios cerrados

Sci-Hub, la mayor (e ilegal) biblioteca de investigación de Open-Access del mundo

sci-hub

En los últimos años, la batalla sobre el acceso al conocimiento científico-técnico se ha recrudecido. El movimiento sobre el acceso libre, universal y gratuito al conocimiento se ha visto espoleado principalmente por la página web Sci-Hub que ofrece material descargable que hasta ahora sólo podía ser accesible mediante pago. Actualmente, los servidores de Sci-Hub almacenan cerca de 50 millones de documentos a los que se añaden más cada día, según los usuarios hacen uso de su buscador. Hay que señalar que estos contenidos se agregan sin el permiso pertinente de los que poseen su copyright. El crecimiento de esta página web ha provocado que los grandes medios de comunicación ya hayan comenzando a hacerse eco de esta página y The Washington Post ha tratado de ofrecer un poco de luz sobre quién está haciendo uso de la misma: todo el mundo.

Debajo de esta piratería de la propiedad intelectual, se encuentra una lucha más compleja y profunda que nos debe llevar a la década de los años 70. En esta década se produjo un incremento importante de las publicaciones seriadas científicas, pero que derivó en algo mucho más relevante con la popularización de Internet que debería hacer mucho más sencillo el conseguir rebajar los costes.

Como nota aclaratoria, debemos tener presente que los científicos que publican en estas revistas no son retribuidos por los artículos que finalmente acaban siendo publicados, sino que lo que realmente buscan es el prestigio para obtener financiación para las instituciones para las que trabajan y para sus propios equipos. Sin embargo, las editoriales pueden llegar a cobrar hasta $10.000 por suscripción para alguna de estas revistas, mientras que los científicos obtienen sus ingresos gracias a las administraciones públicas que todos mantenemos gracias a los impuestos. La pregunta es evidente si los científicos trabajan por el bien común, financiados por las administraciones públicas, ¿por qué esa información no es libre y gratuita?

Tal y como señalábamos, desde los años 70, los precios de las revistas académicas comenzaron a subir más que la inflación. Peter Suber, en su libro Open Access, afirmaba que «en el año 2000, Harvard tenía suscritas 98.900 revistas, mientras que Yale tenía 73.900.» La mejor biblioteca de investigación de la India, Indian Institute of Science, tenía suscritas 10.600 revistas, mientras que muchas bibliotecas subsaharianas no disponían de ninguna. Pero no es que las universidades pobres no puedan permitirse una suscripción o un acceso a los papers de su interés, es que las propias universidades de los países desarrollados han tenido que acometer planes de recortes en las mismas por la continua alza de los precios. Empezando por Harvard.

Para contrarrestar esa continua barrera que suponía el continuo incremento de las revistas, surgió el movimiento Open-Access en 1990. Los propulsores del mismo eran conscientes de que Internet podría reducir los costes de producción y distribución, a la vez que ofrecían una solución a esas diferencias de acceso a la información. Por ello, surgieron iniciativas como PLOS ONE como una forma de facilitar ese acceso. Sci-Hub se la contempla como un ala radical de este movimiento y es que su máxima responsable Alexandra Elbakyan espera poder acelerar la adopción del Open Access.

Las publicaciones científicas contemplan el movimiento con consternación y denuncias. La revista Science publicó recientemente una editorial (My love-hate of Sci-Hub) defendiendo el modelo de negocio de las revistas. Entre otras, las editoriales se defienden afirmando que la publicación on-line es tan cara como la impresa (se necesita contratar a ilustradores, comunicadores, editores y técnicos) y que las revistas aseguran la calidad de las publicaciones científicas y las hacen convenientes para los lectores.

2 comentarios

Buscadores para la Internet of Things

La World Wide Web fue ideada por Tim Berners-Lee como un sistema de gestión de información. En él, todos los documentos están interconectados mediante una serie de enlaces que se sitúan dentro de los textos. Esto hacía sencillo realizar citas a otras fuentes de información y su consulta, ya que la recuperación de otros documentos relacionados se realizaba de una forma más ágil que la establecida hasta el momento. El desarrollo de Berners-Lee supuso la colocación de los cimientos para que Internet se popularizase, haciéndose más sencilla de utilizar y, por tanto, más accesible a una gran parte de la población.

Esa apertura hacia un público masivo significó que fuesen necesarias unas herramientas que favoreciesen la recuperación de información dentro de la misma Web. Google afinó mucho más el concepto del investigador del CERN al considerar que aquellos documentos que obtuviesen más enlaces deberían ser, necesariamente, más populares (Entre otros elementos de valor). Hasta ese momento, los buscadores de la Web se dedicaban a recuperar textos, sin embargo, según la Web se hacía más grande eran necesaria una segmentación para una recuperación más efectiva. Así, se diferenció por tipos de documentos (En Word, en PDF o en PowerPoint), se segmentó por elementos multimedia (imágenes, vídeos) e incluso posteriormente se hizo por el tipo de publicación (Noticias, blogs o libros). El siguiente paso es la diferenciación por tipo de máquinas conectadas a la Red.

La próxima revolución en la sociedad es lo que se ha denominado la Internet of Things (IoT) propuesto por Kevin Ashton en 2009. En un principio, se definió como todos aquellos objetos que podían ser equipados con identificadores (En aquel momento, se consideraba que la tecnología RFID era la más adecuada) que podrían ser inventariados y gestionados por un ordenador. Actualmente, el concepto es un poco más amplio y se considera que la IoT la compone cualquier objeto que disponga de una dirección IP o una URI. Hoy, existe una infinidad de objetos que se conectan a Internet para infinidad de tareas. Desde los tradicionales ordenadores y derivados (Tabletas y teléfonos móviles), pasando por cámaras de vigilancia, televisiones, frigoríficos, automóviles, semáforos, sistemas de gestión de piscinas, etcétera. La pregunta inmediata a hacerse es si una vez están conectados podrían ser recuperados como si fuesen documentos o imágenes tal y como se hace en Google.

Thingful, que será lanzado en fase beta durante este año, parte de la idea de la necesidad de buscar datos de una estación meteorológica concreta o de una carretera que disponga de sensores embebidos en ella. La idea de Thingful es la recuperación a través de enlaces directos a conjuntos de datos o páginas de perfiles con los objetos que se encontrarán enriquecidas con la información estructurada que darán sus propietarios a través de Twitter.

Por otro lado, y quizá más interesante, es la propuesta de John Matherly creador del buscador Shodan. Su desarrollo permite buscar directamente cualquier tipo de dispositivo que se encuentre conectado a Internet. Es decir, Shodan indexa Internet buscando dispositivos que estén programados para contestar. Los objetos que se encuentran en la base de datos de Shodan son desde coches, equipamiento quirúrgico, sistemas de climatización de oficinas, instalaciones de tratamientos de aguas… La idea detrás de Shodan es el aprendizaje, por lo que el número de resultados que muestra se encuentra limitados. Si un usuario desease la obtención de una mayor cantidad de resultados, deberá justificar el uso de la información que obtenga y asegurar que los va a usar sin ánimo de violentar sistemas de seguridad.

Los buscadores de la IoT abren un abanico interesante de posibilidades, pero al mismo tiempo muestran una serie de peligros que a nivel individual y colectivo hasta ahora habían pasado completamente desapercibidos.

Comentarios cerrados

¿Será Facebook juez y parte en el posicionamiento web de Google?

Hace ahora justo un año cuando lanzaba la pregunta ¿Es la web social el inicio del declive de Google? Entonces, algunos escépticos consideraron mi propuesta como una completa locura e infundamentada, insostenible, increíble, imposible… Puede ser que lo fuese entonces, hoy es probable que tenga mayor sentido.

Podríamos considerar que, al principio, la Web era el enlace, millones de páginas enlazadas sin aparente orden ni concierto que encontraban su sentido en esa algarabía gracias al trabajo del algoritmo de Google y de otros buscadores. Sin embargo, hoy en día, la Web se construye mucho más allá de los enlace. Partiendo de las base de que los enlaces los crean y los gestionan los creadores de contenido, aquellos que quieren estar considerados en los puestos altos del ranking de Google o simplemente los que desean referenciar contenidos para ampliar conocimientos, hay una parte de los usuarios de la Web que no saben ni entienden cómo se crean. La Web no llega a ser necesariamente democrática en ese aspecto porque una parte de ella no enlaza, ni siente la necesidad de hacerlo. Hasta ahora.

Hoy en día, los usuarios de la Web pueden llegar a no ser tan pasivos. La Web 2.0 trató de democratizar la creación del contenido, sin embargo lo que realmente sucedió es que democratizó la recomendación del mismo, siendo arrebatada esa idea primigenia hacia otros valores. Twitter y Facebook redirigen contenidos a nuestros conocidos y seguidores sin necesidad de escribir largos y extensos textos. Lo importante es derivar la atención, “me gustó esto y te creo que os podría interesar”, a través de personas que pueden tener las mismas inquietudes (no necesariamente intelectuales) que nosotros.

De este modo, Facebook, aunque actualmente sobre todo Twitter, se erigen como los grandes filtradores de contenidos de la Red y pueden llegar a otorgar una parte importante del tráfico de páginas web. Los medios de comunicación y las páginas web profesionales han sido los primeros en percatarse de ello y en colocar esos letreros de veces twitteado o “Me gusta” sobreimpreso en el azul Facebook para poner fácil a sus lectores el compartir sus gustos.

¿Ese mismo “Me gusta” puede influir en el posicionamiento? ¿Habrá perdido Google la posibilidad de posicionar los contenidos bajo sus reglas, las que obligaba a los SEOs a devanarse los sesos intentando entenderlo, y pagando a terceros para que les permita indizar esas recomendaciones? ¿Es la muerte del enlace como sistema democrático en la Web? ¿Es el principio del fin del SEO como lo conocimos hasta ahora?

Lo interesante de esta cuestión es el baile de poder que ha sufrido la Web en escasos cinco años. Un sitio web no concebida desde un principio para ser un nodo de tráfico, arrebata lentamente el poder de influencia que pueda tener Google sobre el resto del ecosistema web y lo peor de todo es que la dependencia de una a la otra puede ser peligrosa.

Un comentario