www.elimparcial.es
ic_facebookic_twitteric_google

Google y la salud de las palabras

martes 03 de abril de 2012, 21:35h
Se cumple este año el centenario del nacimiento de Alan Turing. Alan Turing fue un matemático, lógico, criptoanalista y padre de nuestros compañeros inseparables hoy en día, los ordenadores. Turing desarrolló el concepto de “algorritmo”, creó la máquina Turing, antecedente de las primeras computadoras, y trabajó en el centro del gobierno británico de Bletchley Park, encargado de descifrar durante la gran guerra los mensajes cifrados alemanes. Trabajó en la “bomba” que se demostró capaz de desentrañar los mensajes cifrados alemanes mediante la máquina Enigma. Anticipó el concepto de redes seriales computacionales, y es el creador de ese concepto tan ajeno a algunas sociedades todavía, pero tan remoto en la historia del deseo humano, como es la inteligencia artificial. En el año 1952 fue juzgado por homosexual y condenado a pena de cárcel o a la castración química (¡En la Inglaterra de los 50!). Eligió la primera, y seguramente a consecuencia de todo ello se suicidó con cianuro en el año 1954, a los cuarenta y dos años.

Turing anticipó también el estudio de los lenguajes naturales, las lenguas que hablamos, con medios informáticos. El concepto de “ngram” deriva de sus ideas. Un “ngram” es una secuencia de dos unidades de un texto o de una secuencia humana, sonidos, palabras, oraciones, que se pueden aislar en un corpus. Los corpus son bases o bancos de datos de lenguas. Sus fuentes pueden ser conversaciones grabadas o textos, libros, periódicos, etc. Los ordenadores han ampliado nuestra capacidad de crear estas bases de datos de tamaños ingentes. Igual que las máquinas de fotografía y video digital han disparado exponencialmente nuestra capacidad de grabar y almacenar instantes hasta el punto de que tenemos la sensación de que todo lo que nos ocurre queda o puede quedar grabado y almacenado, con la lengua está ocurriendo lo mismo. La posibilidad de que toda palabra que usamos pueda quedar grabada, analizada y almacenada está cada día más cerca.

Internet y los ordenadores han hecho que nuestras palabras pasen indefectiblemente por un filtro, el de los correctores automáticos y buscadores. Los buscadores, de hecho, son los grandes ordenadores del mundo, esa entelequia de los enciclopedistas que Eco recoge en su libro “La vertigine de la lista”. El negocio de Google, que a nadie se le olvide, se basa en la palabra. Cuando introducimos una o algunas palabras en el recuadro alargado del buscador, un ingenio derivado de las ideas de Turing busca las relaciones de esa palabra con otras palabras. Google no tiene más recursos en esa búsqueda que las palabras que le proporcionamos. Y lo que nos ofrece como resultado son otras palabras. A Google, le interesa relacionar bien las palabras que introducimos con otras (de ahí depende el éxito de nuestra búsqueda), y para ello necesita una conexión de palabras por la que poder moverse con confianza y seguridad. Google es una gran red de palabras. A Google, por ejemplo, le interesan mucho las palabras que más se usan, ya que su ordenación incluye en gran medida la tendencia, lo popular. Y a quienes se publicitan –que hoy en día somos todos—también. Si mi producto incluye una palabra popular aparecerá antes en el buscador. ¿Y cómo saber las palabras que más se usan, las más populares?

Este procedimiento no es nada nuevo, pero sí la forma de llevarlo a cabo. La Real Academia Española ha pasado de contar las palabras con amanuenses a desarrollar dos grandes corpus, el CREA y el CORDE que recogen palabras de lengua actual y de libros cronológicamente ordenados, respectivamente. Google acaba de crear el Google Books Ngram, un buscador de palabras en los libros digitalizados por la compañía. El buscador permite introducir palabras aisladas o combinaciones de dos palabras y obtener su frecuencia de uso. Por ejemplo, la palabra “fraude” dominó por goleada a “corrupción” desde 1800 hasta 1920. En 1920, “corrupción” comienza a usarse más, hasta el año 1980 en el que se dispara su uso hasta nuestros días. En el año 1800 se usaba más “meretriz” que “prostituta”. En los años 50 se dispara el uso de “prostituta”, en los 80 “terrorista”, “mastuerzo” decae tras 1800 y hoy se arrastra. Se puede, por ejemplo, ver la decadencia de “toallita”, frente a “kleenex” a partir de 1950. Google Books Ngram las busca en el fondo de libros digitalizados de la compañía y no da datos absolutos sino porcentajes, cosa que sí hace la RAE en sus bases. En estas, se ve mejor la permanencia de las palabras; en el ingenio de Google, su nacimiento y sobre todo su muerte. Ya ha habido estudios centrados en el uso de este método de busca.

¿Qué palabras usamos más? No estamos lejos de poder llegar al final del día pudiendo comprobar en nuestro móvil todas las que hemos usado: “sí”, dos mil veces, “no”, doscientas, “flor” tres, “perdona” una, y la combinación “eso” “ya” “lo” “sabía” “yo” mil quinientas… Podremos saber cómo somos por las palabras que decimos y vernos reflejados en esos cristalitos mágicos, esos espejuelos que a menudo nos engañan con sus respuestas a nuestras preguntas. Y seremos, más que nunca, frecuencias de uso, palabras indexadas en las mentes de otros y quizá en su corazón.
¿Te ha parecido interesante esta noticia?    Si (4)    No(0)

+
0 comentarios