Google Ngram Viewer

De LARHUD
Ir para: navegação, pesquisa

Google Books Ngram Viewer es una herramienta cuyo objetivo es visualizar la historia, auge, desarrollo y desuso de términos, palabras, ideas o expresiones a lo largo del tiempo. En términos generales, la herramienta presenta la evolución de un término a lo largo del tiempo desde su aparición, pasando por los periodos en los que más aparece, hasta cuando, posiblemente, deja de ser utilizado.

La herramienta presenta en su interfaz un gráfico que representa la evolución de un término que aparece en los libros, con el fin de ilustrar cuántas veces se menciona este término a lo largo de los años y cómo aparece. Si la búsqueda se realiza por más de una palabra o expresión, la herramienta muestra líneas en diferentes colores para ilustrar el contraste entre los diferentes términos.

Figura 1 – Interfaz de Google Books Ngram Viewer, a partir los ejemplos de Albert Einstein, Sherlock Holmes y Frankestein

Figura 1 ngram.jpg

Los textos analizados, denominados corpus, proceden de un gran número de libros digitalizados por la empresa Google, en su proyecto Google Books. El proyecto pretende dar acceso a toda la producción científica a nivel mundial, centrándose, especialmente, en obras pertenecientes a bibliotecas universitarias y públicas, que tengan colaboraciones, tales como: Harvard, Michigan, Oxford, Standford y la Biblioteca Pública de Nueva York.


Las obras digitalizadas no se ofrecen al público en su totalidad debido a limitaciones de derechos de autor. Sin embargo, gran parte del contenido está disponible en línea para su acceso.

La primera versión de la herramienta, publicada en 2009, incorporó más de cinco millones de libros, que contenían alrededor de un billón de palabras, de las cuales 361 mil millones están solo en inglés, divididos en inglés británico y ficción en inglés. También tenían datos en español, francés, alemán, ruso, chino y hebreo. Los metadatos seleccionados provienen de 15 millones de libros digitalizados, la mayoría de los cuales provienen de bibliotecas universitarias.

La segunda versión, publicada en 2012, cuenta con ocho millones de libros, acercándose también al billón de palabras solo en inglés, incluyendo, además de los idiomas ya mencionados, el idioma italiano.

Los términos pertenecientes a las muestras del libro se denominan n-gramas, entendidos como una serie de caracteres de una longitud determinada. Por lo general, estos son bloques de texto separados, en forma de análisis estadístico del contenido de un texto o discurso para encontrar la n (número) en una cierta cantidad de elementos en el texto. Pueden ser todo tipo de elementos: fonemas, prefijos, frases o letras

La búsqueda de Ngram Viewer se divide por idioma: inglés americano", inglés británico -libros en inglés publicados en el Reino Unido-, chino, inglés en su totalidad, ficción en inglés , francés, alemán, hebreo, italiano, ruso, español; y por tiempo, en el período comprendido entre 1800 y 2000.

En el caso de los idiomas, es posible buscar dos idiomas simultáneamente, ej: Inglés Británico e Inglés americano. Esto permite identificar el contraste en el uso de términos en diferentes idiomas.

Figura 2 – Buscar en Ngram Viewer por idioma y período

Figura 2 ngram.jpg


Cómo realizar una búsqueda básica en Google Ngram Viewer:

1) No es necesario tener una cuenta de Google, ya que la herramienta no requiere ningún tipo de registro;

2) Vaya a Google Books Ngram Viewer;

3) En el cuadro de búsqueda, escriba el o los términos que desea buscar, recordando siempre separarlos con una coma. Ej: "librarianship", "library science";

4) La herramienta no es intuitiva, así que asegúrese de usar siempre mayúsculas si es necesario. Ej.: "Jane Austen" y no "jane austen";

5) Seleccione el período de búsqueda deseado, siempre que sea entre 1800 y 2008, ya que la herramienta no busca obras posteriores a esa fecha;

6) Elija el idioma de las obras en las que desea buscar; solo recuerde que es preferible que el idioma de los términos sea el mismo que el de los libros a mapear, de lo contrario es posible que la recuperación del término se resienta;

7) Los casos en los que aparecen los idiomas acompañados de 2009 corresponden al corpus de la primera versión de la herramienta, y pueden ser ignorados por el usuario o seleccionados, cuando sea necesario analizar recopilaciones de datos más antiguas. Por ejemplo: Inglés americano 2009;

8) Corpus significa el conjunto de textos a ser analizado;

9) En “smoothing of”, es posible elegir de 0 a 50, y los resultados se presentan como una media aritmética entre el rango elegido. Ej: el porcentaje equivalente al resultado del año 1850 es, en realidad, una media de los años 1850, 1851 y 1852, si se elige el 'smoothing' 3. Aunque estéticamente no es tan sencillo, para la investigación básica e iniciales, es preferible optar por el "smoothing" cero, que presenta los resultados correspondientes a cada año;

10) Haga clic en "search lots of books" ('buscar muchos libros') o simplemente en el botón "enter" ('ingresar');

11) El gráfico generado presenta líneas en diferentes colores, para los casos en que la búsqueda se realice para más de un término, de modo que se ilustre el contraste entre estos. En los casos en que la búsqueda se realice únicamente por medio de una palabra o expresión, el resultado se indicará en un solo color;

12) Para ver la representación gráfica de solo algunos términos específicos, haga clic con el botón izquierdo en el término deseado, de modo que las líneas de colores que aparecen sean solo los términos subrayados y los demás no estén resaltados. Este procedimiento facilita el análisis del gráfico, en los casos en que se busquen varios términos;

13) Si desea descargar los datos brutos resultantes de la investigación, vaya al final de la página, en “Run your own experiment! Raw data is available for download here" (¡Ejecute su propio experimento! Los datos sin procesar están disponibles para descargar aquí);

14) La investigación está hecha y ahora solo se trata de analizar los datos.

Obs.: Además del gráfico, también se puede buscar Google Books, a través del período deseado. Google devuelve la búsqueda con la lista de libros escaneados por período y término buscado, a través de la cual es posible identificar brevemente cómo se utilizó el término directamente en las obras.

Figura 3: búsqueda a través de Google Books, filtrada por período

Figura 3 ngram.jpg

Figura 4: búsqueda en Google Books el término Bibliotecología, filtrado por el período 1800-1935

Figura 4 ngram.jpg

Ejemplo de búsqueda en Google Ngram Viewer:

Aquí, a modo de ejemplo, utilizamos los siguientes términos: information sience (ciencia de la información), librarianship (bibliotecología) y library sience (biblioteconomía), en inglés - english -, en el período comprendido entre 1800-2000, con el fin de identificar el "surgimiento" y la "evolución" de estos términos en producción científica.

Figura 5 – Ejemplo de búsqueda en Google Ngram Viewer

Figura 5 ngram.jpg

Según el gráfico, los análisis anteriores a realizar denotan un mayor énfasis en el término bibliotecología, al menos en lengua inglesa, a partir del siglo XIX, gracias a, sobre todo, de la corriente humanista francesa, que influyó mucho en los estudios bibliotecarios. Con el advenimiento e influencia de la corriente tecnicista americana, podemos observar un incremento en el uso del término bibliotecología, a partir, especialmente, de la década de 1860 y, con mayor énfasis, en 1920) que incorpora técnicas principalmente de recuperación de información y el carácter científico del campo a los estudios humanistas de Biblioteconomía.

En un segundo momento, con el surgimiento de las Ciencias de la Información a mediados del siglo XX, especialmente después de la Segunda Guerra Mundial, ya hemos notado la aparición del término ciencias de la información en la producción científica, lo que representa el inicio de los estudios en área, alcanzando su apogeo en 1982.

Se trata de ejemplos y análisis incipientes, pero que, en un principio, pueden ofrecer algunos indicadores sobre el uso o popularidad de los términos en las producciones científicas, si tenemos en cuenta que muchos de los libros digitalizados proceden de bibliotecas universitarias.

Cómo analizar estos datos con más profundidad:

En un primer análisis, el gráfico presentado no es difícil de interpretar. A través de las líneas de colores, es posible tener una cierta comprensión sobre los usos y desusos de los términos, como se observa en el ejemplo anterior. Sin embargo, los resultados generados para cada año no son tan precisos, lo que dificulta el análisis. Por eso, para aquellos que no tengan amplios conocimientos de programación, pero deseen trabajar con la herramienta, el tutorial que ofrece Standford University da algunos consejos para analizar con mayor precisión el número de veces que aparece un término en un año determinado. .

La herramienta proporciona los datos sin procesar de todos los ngrams. Sin embargo, además de demandar un gran espacio de almacenamiento, dado que el archivo es considerablemente “pesado”, el análisis no es fácil de entender para quien no entiende mucho de informática.

Con este fin, Google Ngram también ofrece un archivo txt, llamado 'recuentos totales', para presentar el número total de palabras contadas y páginas digitalizadas. Cada idioma tiene un archivo para cada año específico, en la que se suma el total de palabras, páginas y libros totalizados en un año determinado.

Para aquellos que deseen realizar un análisis de un año determinado, por ejemplo, el año en el que un término tuvo su máxima mención, y que no tengan muchas habilidades de programación, el procedimiento manual puede ser una buena salida.

Vea el siguiente ejemplo de cómo se presenta este archivo en txt.: Figura 6Total counts em txt.

Totalcounts ngram.jpg

El ejemplo anterior contiene la siguiente línea: 1982,4839530894,24286876,48446.

Esto significa que para el año 1982 hay un total de 4839530894 palabras en 24286876 páginas digitalizadas en 48446 libros.

Con esto, es posible calcular con qué frecuencia apareció un término determinado en un año determinado.

Vea el ejemplo dado arriba, para el término Ciencia de la Información, que alcanzó su máxima mención en el año 1982:

1) Ir al gráfico presentado por Google Ngram Viewer, con los términos buscados;

2) Arrastre la flecha del cursor hasta el pico de mención del término elegido;

3) Al ver los datos del año, tenga en cuenta el porcentaje. Ej.: 1982 – 0,0000442813%;

4) Realice el siguiente cálculo: porcentaje para el año elegido x 0,01 x número de palabras contadas en el escaneo. Ej: 0.0000442813 x 0.01 x 4839530894 = ~ 2143, donde, en 1982, el término “ciencias de la información” apareció unas 2143 veces en el corpus de libros digitalizados por Google Books en ese periodo .

En los casos en que se quiera verificar una cantidad considerable de años, no se indica el análisis manual. En este sentido, el tutorial presentado por Standford University ofrece un análisis más profundo, utilizando la herramienta Python.

Posibles dificultades que se pueden encontrar en el uso de la herramienta:

1) Los libros escaneados por Google no tienen su contenido completo, es decir, no fueron escaneados en su totalidad, solo el número de páginas correspondiente a lo permitido por los derechos de autor. Por esta razón, no hay certeza sobre la cantidad exacta de términos buscados; lo más probable es que haya más referencias al término que las enumeradas allí;

2) Digitalizar los libros no significa que hayan sido leídos, por lo que, en la mayoría de los casos, no puede considerarse como un indicador concreto de popularidad;

3) La plataforma no es intuitiva, por lo que es necesario resaltar, por ejemplo, la letra mayúscula de un determinado término;

4) Si el corpus de la investigación incluye libros digitalizados del siglo XIX, es importante saber que muchos de ellos tenían, en su momento, una ortografía diferente. Ej.: la f se parecía a la s y viceversa, lo que eventualmente termina influyendo en la recuperación del término;

5) La calidad o reproducción digital del material no siempre permite recuperar el término deseado;

6) En casos específicos donde es necesario saber cuántas veces aparece un término en un libro o período determinado, la herramienta no lo informa; estos datos se presentan en porcentaje, lo que dificulta su lectura;

7) Es necesario utilizar un software para realizar esta traducción -como la herramienta Python-, o analizar manualmente esta información, en base a los datos brutos que ofrece Google Ngram, que presentan el número exacto de páginas, palabras y libros digitalizados al año por Google Books, de 1800 a 2000. De la cuenta “porcentaje equivalente al año que se quiere verificar x 0,01 x número de palabras digitalizadas al año”, es posible saber cuántas veces se utilizó el término en un año determinado. Aún así, no está claro en qué libro se mencionó el término;

8) Dificultad para realizar análisis conceptuales muy profundos basados ​​únicamente en la herramienta, ya que no permite conocer la connotación que se le da a cada término en estos trabajos.

Tutoriales y materiales reflexivos que pueden ayudar con el uso de la herramienta:

Tutorial Standford University

Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution

The pitfalls of using Google Ngram to study language