¿Cómo hace Google para indexar la web?

Home Noticias ¿Cómo hace Google para indexar la web?

Cada vez que puedo, leo lo que encuentro de Google. Y esta última semana llegaron a mis manos tres artículos que revisan profundamente lo que hace este buscador para lograr que encontremos cosas por Internet.
Primero fue una nota NYT.com (requiere registro) que logró tener a un periodista conviviendo todo un día con el grupo encargado de los algoritmos de búsqueda, en particular con los que van refinando el software para que el buscador haga cada día mejor su trabajo, en los 112 idiomas en que está disponible. Allí aparecen datos desconocidos, como que Google copia “toda” la web en sus servidores y no sólo un índice. Que PageRank (sistema que mide cuántos enlaces tiene una página y así determinar su popularidad) es una de las más de 200 “señales” que se recopilan para determinar la calidad de un sitio web y su lugar relativo en la página de resultados. Otras “señales” son las palabras usadas, enlaces existentes, imágenes, frecuencia de cambios en el sitio y otras relacionadas con el historial de búsquedas en el propio sistema. Con todo se le da un puntaje a la página, que determina su aparición.
Otra fuente interesante fue este documento, publicado en la revista “El Profesional de la Información” y que se puede obtener en PDF. allí establece que Google ya está buscando sobre 40 mil millones de documentos, pese a que oficialmente la empresa reconoce que sólo lo hace sobre 8 mil millones. La diferencia se puede entender, si se toma en cuenta que el año pasado se informó que Google había patentado un sistema que permitía indexar hasta 100 mil millones de páginas. A propósito, hay que recordar que el término inglés billion significa mil millones en español.
Y el tercer documento es este post en el blog oficial del buscador, donde explican que el famoso sistema conocido como “google bombing” (hacer que el buscador entregue una respuesta manipulada) no va a ser enfrentado vía software, ya que efectivamente representa lo que pasa en la web. Por ejemplo, si se busca miserable failure (que se podría traducir como fracaso completo), el primer resultado es la página de la Casa Blanca de EE.UU. Su razón para no hacerlo, es que la web se ordena así y ellos no quieren “alterar los resultados a mano”. Gracias por eso.

Leave a Reply

Your email address will not be published.