Categoría: Buscadores Web

Documentarse en tiempos de IA

Publicado el lunes, 2 de diciembre de 2024 por Marcos Ros

Dos estudiantes de Massachussets (EEUU) fueron descubiertos utilizando una Inteligencia Artificial para la generación de textos en un trabajo escolar y sancionados. Hay que aclarar que no fueron sancionados por usar una IA per se, puesto que estaba permitido su uso para documentarse y buscar fuentes, sino por copiar y pegar textos de forma literal que, para su mala fortuna, la IA se había inventado (aunque es un caso frecuente). Esta noticia sorprende por las consecuencias que puede acarrear a los dos estudiantes, ya que es posible que no puedan acceder a estudios universitarios.

Además, con cierta perspectiva, se nos hace más difícil imaginar un uso cotidiano en el que no se pueda aplicar el uso de las Inteligencias Artificiales Generativas como ChatGPT. Las grandes empresas tecnológicas se encuentran en una carrera hacia el despliegue y la implementación de este tipo de soluciones en el día a día como el próximo The next big thingtecnológico. Microsoft, Apple, Samsung o Google se afanan en integrarlas dentro de sus dispositivos para su utilización de forma masiva, lo que las popularizará aún más. Por lo que se producirán más situaciones de uso que puede ser considerado dentro de ciertos ámbitos como no lícito o inadecuado.

No hace tanto tiempo que, para documentarse, el usuario debía realizar una tarea de filtrado exhaustiva. Saltando de ficha en ficha en formato de cartulina, almacenadas en grandes archivadores de madera y recorriendo estanterías hasta localizar el libro a consultar que debía abrir, leer (aunque fuese un capítulo específico) y determinar aquello que consideraba más interesante para hacer referencia en su trabajo de investigación. Era un trabajo de síntesis intenso y en ocasiones inabarcable, que fue haciéndose más cómodo, pero no por ello más sencillo. Como otras tareas, las referencias bibliográficas se fueron digitalizando y volcando en bases de datos para localizar de forma más rápida la información que se encontraba todavía en soporte papel. El proceso no acabó ahí, ya que la digitalización fue imparable y prácticamente todo el conocimiento se fue trasladando a bits para hacerlo en buena medida accesible en cualquier parte y a cualquier hora.

Google llegó con una misión ambiciosa, hacer todo el conocimiento accesible para todo el mundo y se convirtió en el buscador de referencia para los internautas. Ya no se salta de referencia bibliográfica a referencia bibliográfica, más bien de enlace a enlace para extraer aquello que nos parece más significativo de una página web o de un documento que se quiera consultar.

A pesar de esta nueva accesibilidad a una mayor de información, no había olvidar que en cualquier supuesto hay que tener presente qué se debe de considerar una fuente de información fiable y qué no. Lamentablemente, parece que los automatismos de las IAs nos hacen bajar la guardia como nos sucede en las redes sociales, condenados en una vida de consumo digital acelerado. Olvidamos que las IAs son solo herramientas a nuestro servicio. Su capacidad de consultar distintas fuentes, de extraer la información y estructurarla nos pueden llevar a la conclusión de que lo que nos exponen de forma tan razonada puede ser cierto, pero olvidamos que nosotros somos el último filtro. Debemos ser capaces de evaluar qué fuentes de información son mejores y en qué grado debemos confiar la información que nos exponen. Para ello, sólo deberíamos confiar en aquellas que hacen referencia a fuentes que puedan ser consultadas y que podamos comprobar.

Las IAs hacen un trabajo que antes podría llevarnos meses y tienen un potencial inmenso para ayudar al ser humano en la generación de conocimiento. Pero debe ser el ser humano el que evalúe esa información, el que la entienda y, por supuesto, que la supervise. De lo contrario, estaremos delegando y dando por bueno un sistema que está diseñado para satisfacer nuestras necesidades, olvidando que nunca admitirá “no lo sé”, “no tengo acceso” o “no lo he encontrado” (en algunos casos) y nos hará caer en la trampa de la desinformación que justo tratamos de evitar.

Deja un comentario

Cuando Goliat (Google) se encontró con David (ChatGPT)

Publicado el domingo, 18 de junio de 2023 por Marcos Ros

La rápida tasa de adopción de ChatGPT de OpenIA será digno de estudio en las escuelas de negocio en un breve espacio de tiempo. Desde que se permitió el acceso al gran público en noviembre de 2022, ha fascinado a todos los que se han aventurado a probarlo ofreciendo una calidad en las respuestas y en los resultados que no han podido poner en cuestión el producto en sí. Un producto que recordemos que se encuentra en fase de prototipo y que ya ha puesto a la defensiva a las grandes tecnológicas como Google, Meta (Facebook) y Apple.

ChatGPT (Generative Pre-Trained Transformer) posee la interfaz de un chatbot. La interacción con el producto es lanzando preguntas a las que el sistema genera respuestas a través de toda la información con la que se ha entrenado (570 gigabytes de información textual). Su éxito se debe a que comprende bien las instrucciones y proporciona respuestas mediante el procesamiento del lenguaje natural. Cada pregunta puede tener contestaciones similares pero no iguales, puesto que se generan automáticamente y a cada interacción por lo que puede ampliar o reducir el alcance de la respuesta a cada momento. Sin embargo, y es un punto en su contra, no aporta información sobre sus fuentes de información por lo que puede generar dudas sobre las respuestas si el usuario no es un experto en la materia que se está consultando.

En definitiva, la interfaz es similar a la de Google y muy sencilla, una caja de texto (en este caso de interacción) en la que se pueden solicitar definiciones, que detalle conceptos complejos de forma sencilla, que trace planes estratégicos para las empresas, recomendaciones de lugares que visitar en vacaciones, resúmenes de textos ya sean artículos o libros o ayudar a programar en código. Una herramienta muy potente y diversa en casos de uso que puede llegar a amenazar a Google en la mayoría de las búsquedas de internet y cuyo uso ha comenzado a generalizarse tanto en el ámbito de la educación, académico y empresarial.

Google es el gigante de internet más allá de su buscador, también posee YouTube y el sistema operativo para móviles Android, además de infinitos productos pensados para ser utilizados en Cloud. En cuanto a las búsquedas, actualmente el 92.58% del mercado de las búsquedas a nivel global y el 80% de sus ingresos provienen del mercado publicitario en Internet. Posee acuerdos marco tanto con Apple (Safari) como con Mozilla (Firefox) para que su buscador sea la opción por defecto en sus respectivos navegadores. Sin embargo, el producto de la empresa OpenIA participada por Microsoft parece dispuesta a arrebatarle el trono de las búsquedas en Internet y en otros muchos ámbitos según evolucionen los casos de uso donde aplicarse la tecnología desarrollada por la empresa.

Puede parecer que a Google el desarrollo la haya cogido con el pie cambiado, pero lleva años trabajando en aplicaciones de inteligencia artificial como ChatGPT. De hecho, la tecnología que representa el corazón del producto de OpenIA fue desarrollada por ingenieros de Google. Sin embargo, Google no había decido apostar claramente por estos interfaces porque generaría un problema con su modelo de negocio. Una estrategia que se ha demostrado errónea en cuanto el mercado se ha puesto patas arriba con ChatGPT, y la gran G se ha apresurado a lanzar su propio chat denominado Bard, aunque no estaba tan depurado como el primero.

Microsoft no ha perdido el tiempo en cuanto el producto ha obtenido tracción e interés en el mercado. Ha ampliado su inversión en la empresa OpenIA a pesar de las dudas del modelo de negocio de la empresa, ha integrado ChatGPT en su buscador Bing (a mi parecer que unos resultados más pobres, aunque sí que referencia las fuentes de información) y ha comenzado su implementación en su sistema operativo Windows y en la suite Office (Microsoft Copilot) . Una apuesta absoluta a un desarrollo tecnológico que va a hacer que cambiemos no sólo cómo buscamos en internet, si no también cómo interactuamos con nuestras aplicaciones en el ordenador.

Deja un comentario

Qué es el Google Dorking

Publicado el lunes, 14 de enero de 2019 por Marcos Ros

Qué es el Google Dorking

Las técnicas de Google Dorking, también denominadas Google Hacking, consisten en utilizar comandos de búsqueda avanzados de Google para obtener información que no se obtienen mediante técnicas normales de búsqueda. Estos comandos de búsqueda van desde el conocido “site” o “title”, sin embargo pueden ser usados como técnicas de hackeo de páginas web o servidores.

El término de Google Hacking fue utilizado por primera vez en 2002 por Johnny Long. Long comenzó a recopilar comandos de búsqueda en Google que dejaban al descubierto sistemas vulnerables o información sensible (números de la seguridad social o incluso números de tarjetas de crédito) y comenzó a etiquetarlos como GoogleDorks. Finalmente, debido al interés por su iniciativa creó la Google Hacking Database donde se recopilan todas estas ecuaciones de búsqueda.

El objetivo de esta recopilación es que los responsables de los sitios web realicen las búsquedas por ellos mismos como método preventivo y que sean capaces de detectar esos errores y fugas de información.

Estas técnicas de hackeo hacia servidores y sitios web se han extendido tanto hacia otros buscadores como Bing y hacia otros dispositivos conectados en la Web como dispositivos IoT.

Comentarios cerrados

Cuando Google fue bueno

Publicado el viernes, 20 de marzo de 2015 por Marcos Ros

Hubo un tiempo en el que lo denominábamos santo. “San Google” para diferenciarlo con otras compañías que aparentemente se encontraban mucho más centradas en el dinero, en los réditos y en los accionistas. Sus productos eran tan buenos que lo elevamos a los altares. Google proveía gratuitamente mientras otros pretendían pasar el plato. Don’t be evil era su eslogan y nosotros nos creímos su mantra.

Google dispone de muchos productos exitosos, también de fracasos que atienden a la gran cultura innovadora americana. Aunque Google parece haberse convertido en una empresa gris en cuanto a servicios de web se refiere.

El correo web de Google, Gmail, sacudió Internet cuando fue creado en 2004 y completamente abierto en 2007. Ofrecía un gigabyte de espacio, algo que hasta aquel momento era completamente inaudito. Hubo que armarse de paciencia para conseguir una invitación, aunque la larga espera mereció la pena. Llegó un punto en que tener una cuenta en Gmail era estar in, mientras que tenerla en Hotmail era estar out. Finalmente, puede que su mala imagen provocó que Microsoft cerrase el servicio en agosto de 2008 y prefirió que su correo quedase ligado completamente a Outlook, su software de gestión del correo.

Gmail nació como un servicio en Beta. Puede que mantuviese esa etiqueta en consonancia a la Web 2.0, la filosofía de la innovación constante y de los productos que nunca pueden darse por cerrados. Esa etiqueta no la abandonó hasta 2009. Por supuesto que generaba controversia. A diferencia de otros, incluía publicidad contextual lo que implicaba que Google necesariamente tenía que leer los correos que sus usuarios enviaban y recibían. Gmail ofrecía pequeñas innovaciones de vez en cuando bajo la denominación Gmail Labs y era el propio usuario el que debía activarlas, aunque algunas se incorporaron completamente al servicio de correo. Una de estas innovaciones fue Google Buzz, anunciada en 2010, en un movimiento reactivo contra Twitter. Fue un completo fracaso, estropeando la experiencia de usuario de Gmail y saltarse la privacidad de los usuarios ya que se activó automáticamente. Cerró un año después.

Otro de los movimientos de Google para atajar la competencia y, en este caso Facebook, fue Google+, la esperada red o capa social de Google. Tras el rediseño de su página principal, la red social de la compañía de Mountain View demostró que tal vez no sabía ser social a pesar de haber entendido el gran sistema democrático que se había fundamentado Internet.

Google Wave fue otra de las grandes cosas que la empresa tecnológica estaba cocinando. Iba a ser un servicio completamente disruptivo, su particular revolución en correo electrónico y los entornos colaborativos. Sin embargo, nadie excepto los ingenieros de Google llegaron a entenderlo. Finalmente, tuvo que cerrarlo en 2010 tras un año en funcionamiento. Actualmente, el concepto sobrevive bajo la denominación de Apache Wave.

Sin embargo, Google también dispuso de éxitos como Google Maps fue otro de los servicios que nos cambió la manera de movernos. Simplemente nos cambió la vida. Adquirido en 2004 por Google, su inclusión como servicio de mapas por defecto en el iPhone barrió a compañías que comercializaban productos de geolocalización como TomTom. A posteriori, Apple decidió desligar su teléfono móvil al servicio de Google y lanzó, en su momento, la calamitosa Apple Maps. Las razones de Apple eran obvias. Un móvil y el servicio de Google Maps era una mina de información para la compañía de Cupertino y Mountain View. Sólo la consulta del historial guardado por Google da un poco de miedo.

Google Reader que se erigió como el Rey de los lectores de RSS tras destronar a otros que llegaron primero como Bloglines. Quedó abandonado y cerrado porque según se argumentó entonces no tenía una base suficiente de usuarios. Fue sólo entonces cuando los internautas descubrieron horrorizados que ese Google ya no era el suyo, que había cambiado, aunque señales no faltaron nunca. Esto fue en 2013.

Internet había cambiado para entonces, el navegador ya no era la principal fuente de interacción con ella. Android, impulsada por la compañía de Palo Alto, se había situado como una de las plataformas más importantes de telecomunicaciones y Google parecía querer centrarse más en los gadgets como Google Glass, wearables y medios de transporte.

Durante tantas batallas, en las que intentó pasar el rodillo con mayor o menor fortuna, Google podría haber descuidado su servicio estrella, su buscador. Pareció olvidar que su posición predominante en el mercado de las búsquedas no es eterno, pero no lo ha hecho. La Fundación Mozilla decidió toserle y arrebatar a Google el privilegio de ser su buscador preconfigurado para mejorar su posición competitiva en el mercado de los buscadores, se lo cedió a Yahoo, lo que ha tenido sus consecuencias, y está dispuesta a hacer valer su posición de privilegio otra vez. Sigilosamente, fue investigada por manipular los resultados de las búsquedas, amenazar a distintas web de excluirlas de su índice si no les permitía usar su contenido, y que casi ha derivado en un juicio que hubiese tenido unas consecuencias imprevistas.

Google fue santo, pero ya va siendo hora de bajarlo del pedestal.

3 comentarios

La búsqueda se hace social

Publicado el miércoles, 8 de junio de 2011 por Marcos Ros

Este texto se publicó originalmente en el blog colaborativo Neumattic el 4 de noviembre de 2010

Hace unos días, Google nos reveló su Google Instant y algunos consideraron que, teniendo presente que la Web ya no se preocupaba tanto por las búsquedas – De hecho, Facebook ha destronado a Google en EEUU en tiempo medio de avegación por los internautas – y la compañía de Mountain View tenía la necesidad de seguir innovando en esa rama de su negocio. Aunque a esa innovación se le puso un entrecomillado, puesto que Yahoo! ya había desarrollado la idea aunque no implementado y un joven estudiante había conseguido hacer lo mismo en tres horas para YouTube. Los SEO tratan de analizar los efectos de estas búsquedas instantáneas mientras los internautas escriben la información que quieren encontrar, considerando que incluso tendrán que posicionar hasta por palabras incompletas, analizando resultados orgánicos y descubriendo que los bloques de anuncios no les facilita la tarea arrebatando protagonismo al contenido de verdad. Sin embargo, el futuro de las búsquedas no pasa por los enlaces web, pasa por el Social Media.

Cuando Google revolucionó el mercado de los buscadores a principios de la década pasada, lo hizo teniendo en cuenta el sistema democrático de la Web. Un enlace, un voto, cuantos más enlaces recibía un sitio web, poseía contenido más relevante. Por aquel entonces, la Web todavía era un lugar para iniciados, generar un enlace no era sencillo y el posicionamiento aún dependía de los superusuarios. Actualmente, los enlaces no son los únicos indicadores de la relevancia de un sitio web, mientras que la Web Social fomenta otro tipo de sistemas de votación y recomendación que pueden ser explotados para la mejora de los resultados como el famoso “Me gusta” de Facebook.

Los sistemas de búsqueda hasta ahora se eñían a un sistema de recomendación basado en el texto y los enlaces que recibían distintas páginas web, aunque el proceso de recomendación era lento. Los robots debían visitar distintos sitios webs con cierta cadencia para recuperar sus contenidos y sus actualizaciones, por supuesto que Google se dispuso a mejorar esta mayúscula tarea tratando de que los sitios web generasen los Sitemaps, pero los sistemas de votación cambiaban mientras la Web Social se popularizaba, la publicación de enlaces por los internautas pasaban a los blog y posteriormente a los microblogs. Hoy en día, son Twitter y Facebook los que se sitúan en un lugar privilegiado para conocer qué está sucediendo, la Real-Time Web, las tendencias informativas y de gustos de los internautas. Finalmente, Google tuvo que pasar por caja para poder acceder a ese tesoro.

Y es que, según evoluciona la web, los internautas dejan un rastro mayor fijando sus intereses y su capital social, conformando una verdadera identidad digital. Las nuevas tendencias en las búsquedas se centra en esa identificación del usuario. Al final, lo importante a la hora de posicionar la información y distribuirla es saber lo que los amigos y la gente que pertenece al círculo de un usuario piensan, ya que resulta mucho ás relevante para una persona conocer las preferencias y los intereses de su gente conocida que lo que todo el mundo piensa. Google ya lo intentó con Google Social Search un experimento de su Labs, aunque ha caído aparentemente en el olvido.

Mientras tanto Hunch, una start-up, sigue intentándolo basándose en los datos contenidos en el Social Media. A través de un software complejo, trata de usar información contenida dentro del círculo social de una persona para tratar de predecir qué cosas podrían gustar a un usuario extractando datos de los artículos, temas y gente recomendada por los usuarios que han sido declarados como amigos de Facebook o seguidores de Twitter de ese usuario. Así, por ejemplo, el objetivo es que ante una pregunta tipo “qué libro leo”, el buscador sea capaz de recomendarnos a Bukowski o a Dan Brown teniendo presente los gustos de nuestro círculo social. A ver si al final tendremos que cambiar de amigos.

Comentarios cerrados

El sector de los buscadores no está tan muerto como parece

Publicado el viernes, 13 de mayo de 2011 por El Documentalista Enredado

En el 2010 D.C., el sector de las búsquedas de Internet se encuentra ocupada por el Imperio de Google, tras la derrota de Microsoft ante Sergei Brin y Larry Page. Pero no todo el sector de las búsquedas de Internet está ocupado: aún hay una pequeña región, rodeada de campamentos googlenianos, que se resiste al invasor.

¿Alguien recuerda qué era Cuil? Aquel buscador que, desarrollado por ex-ingenieros de Google, le haría frente y temblar casi inmediatamente de su lanzamiento. Sin embargo, su enfrentamiento con Google sólo duraría dos años (2008-2010), los años que pasó del estrellato mediático a ser ninguneado por los internautas. De ejemplos como estos, bien podríamos realizar un listado con un buen puñado de iniciativas. ¿Y qué me dicen de WolframAlpha? Éste sí que iba a revolucionar el sector de las búsquedas puesto que ofrecía respuestas y, al contrario que hace Google, no un listado de páginas web de cierta relevancia. Claro que técnicamente no se trata de un motor de búsquedas, ya que se trata de un buscador de respuestas, por lo que tampoco puede hacerle sombra, realmente.

Google sigue reinando y sólo Microsoft comienza, ahora, a arañarle el terreno tras muchas intentonas y tras haber cambiado su rostro en varias ocasiones. Sin embargo, son diversos los motores de búsquedas que tratan de hacerle frente a Google y, ¿por qué no?, tratar de derrocarlo. En la revista PC Actual de este mes, realizan una recopilación y valoración de cada uno de ellos. Nosotros tan sólo os recogemos su listado para que los probéis.

Comentarios cerrados

Google Everflux, Google Dance, Google Sandbox y otros conceptos del montón

Publicado el jueves, 1 de abril de 2010 por Marcos Ros

Personalmente, me gusta seguir algunos blogs SEO. Tengo que advertir que algunos llegan a aburrir, dando siempre consejos sobre cómo escribir, cómo posicionarse dentro del Social Media, cómo plantear un post para que tenga una buena visibilidad… Aunque comprendo de su necesidad, llegan a ser un tanto reiterativos y te llevan a pensar “esto ya lo he leído aquí antes”, por ello no me agradna en exceso. En el caso de esos blogs SEO tan enfocados al mundo blog, una bitácora es algo tan personal que no debería estar enfocado hacia qué van a pensar los demás cuando la lean o la encuentren, ya que se trata de una herramienta disponible más, sobre la infinidad que ya existen, para estar conectado, compartir conocimientos y, por supuesto, fijar los que ya tenemos.

El hecho es que, de vez en cuando, los SEO se quejan de encontrarse agotados. Algunos consideran que ése no es un trabajo para toda la vida y que la presión a la que se vienen sometidos es demasiada. Puedo imaginar que si tu trabajo depende de un sólo punto de vista, de un solo factor, dónde aparece tu página posicionada dentro de un frío algoritmo, no debe de ser muy sano para el estrés ni para las satisfacciones personales que un trabajo nos debería aportar.

Google Caffeine parecía un nombre irónico, puesto que los SEO iban a tratar que filtrar mucho café para sobrevivir las noches en vela ante la nueva actualización del algoritmo de Google. Algoritmo que ha ido evolucionando, según la Web crecía y los nuevos hábitos de los internautas cambiaban. La denominada Real-Time Web es el efecto de la popularización de plataformas de microblogging y de redes sociales a las que Google ha tenido que adaptarse y, por supuesto, cómo posiciona y muestra sus resultados.

Posicionamiento, actualización de los índices de Google más bien, que la empresa de Mountain View realizada cada ciertos meses, con las variaciones de su famoso Pagerank, provocando el denominado Google Dance. Este baile en los resultados que mostraba, se debía a que no todos los datacenters del buscador se actualizaban a la vez, por lo que dependiendo de en cuál se buscase, una página web ante una misma ecuación de búsqueda durante el mismo período de tiempo, podría encontrarse o más arriba o más abajo de los resultados orgánicos del buscador.

Google Sandbox también era un efecto de estas actualizaciones. Este concepto ha generado mucha controversia y desde Google no se ha confirmado su existencia. En este caso, el Sandbox afectaba a páginas de nueva creación. Si una página de nueva creación recibía muchos enlaces en poco tiempo, Google la penalizaba porque consideraba que no era probable que una página nueva, aunque su contenido fuese relevante, obtuviese tal popularidad por lo que durante los primeros días de su publicación podría aparecer en las primeras posiciones, aunque posteriormente cayese en su posicionamiento. Es curioso que también existiese lo que se ha denominado Sandbox Reverse que hace justo lo contrario. Una página de nueva creación aunque no dispusiese de muchos enlaces, podía aparecer en los primeros resultados ante una búsqueda.

Actualmente, el posicionamiento de webs no se actualiza cada ciertos meses, si no que puede producirse cada día, por lo que ya se comienza a hablar del Google Everflux. Esto casi no da ningún margen a los SEO a la hora de posicionar sus páginas, puesto este flujo continuo de variaciones en las posiciones cada pocas horas no les ayuda a la hora de evaluar sus acciones como positivas o negativas, dejándoles poco margen a la hora de presentar resultados en el caso de que trabajen para distintas organizaciones.

Lo que me lleva a considerar que, efectivamente, el trabajo de un SEO no debería ser para toda la vida.

6 comentarios