La historia de Google

Nota: esta entrada corresponde a la Tarea 5 de la asignatura Matemáticas de la vida cotidiana del Máster en Cultura Científica de la Universidad Pública de Navarra .  

A continuación se procede a resumir la historia de Google y las ideas básicas del algoritmo.


Todo comenzó cuando en 1996, Larry Page se estaba doctorando en Ciencias de la computación en la Universidad de Stanford, California y buscaba un tema para su tesis mientras navegaba en la red, una gran cantidad de páginas enlazadas entre sí, sin jerarquía. 

En ese momento tuvo la idea de crear un sistema para ordenarlas, algo parecido a la citación académica, en la cual, cuanto más se cita un trabajo, más importante es.

Justo en eso se basaría el PageRank, el algoritmo original de Google.

Terry Winograd, el supervisor de Page en Stanford, tras ver que era un gran idea le advirtió del problema de saber cómo rastrear e indexar toda red.

Sergey Brin, un matemático amigo de Larry, se unió a él.

Pronto Larry escribió un primer programa en Java para rastrear la web, pero con mucohos errores y además se bloqueaba.

Recurrieron entonces a Scott Hassan, un profesor en Stanford, quien decidió reescribir el código en Python, de forma que fuera más estable.

Ese mismo año, se realizó el primer test, la primera página rastreada fue la de inicio del departamento de Computer Science de Stanford.

Se hizo con el programa Backrub, que trataba de descubrir los enlaces de una página, el primer rastreo consiguió indexar 15 millones de páginas.

Aunque sólo guardaba los títulos y no el documento entero, quedo patente que podía ser un buscador superior al líder del momento: Altavista.

La clave PageRank, un algoritmo  que rankea los documentos no solo en función del número de enlaces que recibe, sino también según la importancia de las páginas que la enlazan. Aunque para ser efectivo, se necesitaba conocer toda la web.

El siguiente paso fue convertir la web en una ecuación gigante con cientos de millones de variables (el Page Rank de cada documento) y miles de millones de términos (los enlaces entre documentos).

El PageRank de una página es una función que añade el de cada una de las páginas que la enlazan, dividido entre el número de enlaces salientes que tiene cada una de esas páginas, y sustrayendo en cada caso un porcentaje de PR que se diluye (el damping factor).

Lo que hace es imitar el comportamiento de alguien que navega por la web, haciendo clic de manera aleatoria en los enlaces que va encontrando, por lo tanto el PageRank de una página es la posibilidad de que una persona llegue a ella siguiendo enlaces al azar.

A la hora de nombrar al buscador se sugirió «Googol», un término matemático que significa un 1 seguido de cien ceros, pero Larry Page escribió «Google» por error.

Lo primero que intentaron Larry y Sergy fue vender su tecnología a otros buscadores, como Yahoo, Altavista y Excite.

Excite y Altavista se hundieron porque antepusieron su capacidad de generar ingresos, aunque esto perjudicara al usuario, en cambio Google siempre antepuso al usuario.

Finalmente como nadie tenía interés en ellos, montaron su propio negocio por su cuenta, Sergey Brin creó el logo y la página de inicio, pero como no sabía de diseño dejó la página casi en blanco, lo cual lo diferenció de la competencia e hizo que Google fuera más rápido.

Sólo les faltaba un inversor y lo consiguieron: Andy Bechtolsheim, de Silicon Valley

La primera oficina de Google fue un garaje en casa de su amiga Susan Wojcicki, compraron ordenadores para almacenar su contenido indexado que aumentaba continuamente.

Curiosamente, no invirtieron nada en marketing, prefirieron invertir en servidores y contratar ingenieros

Funcionó, ya que Google empezó a ser conocido fuera de Stanford y Silicon Valley y poco a poco fueron apareciendo más inversores.

Su reconocimiento fue muy rápido, en 1998, casi todo el mundo empezaba a conocer  Google, sin duda crearon una marca única, aunque el crecimiento fue todo un reto, porque el index solo podía actualizarse si había espacio en los servidores y como la web crecía tan rápido, cada vez era más difícil indexarlo todo, hasta que Jeff Dean creó un sistema para solucionarlo, de tal forma que se guardaba el index en partes de forma paralela y así siempre había copias de seguridad.

Posteriormente, en 2001, Amit Singhal reescribió el código para evaluar la relevancia de una página web, (el origen de los updates del algoritmo para mejorar los resultados).

Posteriormente, se produjeron actualizaciones de Google como Vince o Panda.

Matt Cutts, primer líder del departamento anti-spam, comenzó trabajando en el filtro SafeSearch, para que los usuarios pudieran bloquear páginas para adultos entre los resultados de sus búsquedas y entonces se dio cuenta de que algunos sitios habían engañado al algoritmo de Google, pronto aparecería lo que hoy conocemos como SEO, con Matt Cutts como nexo con Google.

Respecto a la publicidad, añadir que tanto Page como Brin eran reacios a incluirla, pronto surgió un sistema de puja, que se basaba en la cantidad que el anunciante estaba dispuesto a pagar y la calidad que un algoritmo asignaba a cada anuncio.

Pronto nació AdWords, pensada para pequeños anunciantes, de forma que ofrecía anuncios relevantes que no molestaban a los usuarios y los anunciantes se lanzaban a probarlo, esa fue su “gallina de los huevos de oro”.

En la actualidad, la publicidad sigue siendo el 90% de los ingresos de Alphabet (la empresa que engloba negocios de Google).

Adwords no habría sido posible sin la gran calidad de los resultados orgánicos  de Google y el negocio millonario de Google no habría sido posible sin Adwords. 

Hoy se generan miles de millones de dólares, todo un imperio que sólo acaba de empezar.

Comentarios

Entradas populares