Selección de ejemplos fundamentales de análisis de publicaciones cienciométricas

Peter Ingwersen

Royal School of Library and Information Science
University of Copenhagen

clb798@iva.ku.dk

Resumen

Objetivos: detallar una selección de factores de importancia capital para calcular, presentar e interpretar los resultados de análisis de publicaciones desde una óptica cienciométrica, en particular con relación al análisis del crecimiento y de las cuotas mundiales, así como la lógica que hay detrás del cálculo de las medias de autores, instituciones o países por publicación indexados por Web of Science.

Metodología: ejemplos de estudios sobre evaluación de investigación anteriores y también de casos basados en datos recogidos en línea para este artículo demuestran conflictos, detalles problemáticos, inconvenientes y cómo superarlos en el análisis de publicaciones con respecto a la aplicación, al cálculo, a la presentación y a la interpretación de herramientas analíticas.

Resultados: proporciona una visión de la cienciometría en el contexto del análisis infométrico, casos seleccionados de productividad de investigación, patrones y tendencias de investigación de publicaciones en todas las disciplinas y en los campos de la energía renovable y la energía eólica en diferentes periodos de tiempo y mediante diferentes tipos de análisis y presentación.

Abstract

Objective: This paper selects and outlines factors of central importance in the calculation, presentation and interpretation of publication analysis results from a scientometric perspective. The paper focuses on growth, world share analyses and the logic behind the computation of average numbers of authors, institutions or countries per publication indexed by Web of Science.

Methodology: The paper uses examples from earlier research evaluation studies and cases based on online data to describe issues, problematic details, pitfalls and how to overcome them in publication analysis with respect to analytic tool application, calculation, presentation and interpretation.

Results: By means of different kinds of analysis and presentation, the paper provides insight into scientometrics in the context of informetric analysis, selected cases of research productivity, publication patterns and research trends in the fields of renewable energy and wind power during different periods of history.

1 Introducción

En principio, el análisis de publicaciones implica contar publicaciones de varias maneras y calcular una variedad de distribuciones, por ejemplo, artículos en revistas o autores o instituciones muy productivos, o indicadores de investigación, como el número de artículos publicados por científico por año, y también tener en cuenta el tiempo. El análisis de publicaciones es un prerrequisito fundamental para analizar citas y para calcular su impacto. Normalmente, las publicaciones que son objeto de estudio las evalúan expertos y, en general, el análisis se limita a tipos de documentos específicos, como, por ejemplo, artículos de revistas, actas de congresos publicadas o libros; más recientemente, se incluyen publicaciones web como blogs, artículos de acceso libre, o volumen de bajadas y otras mediciones sobre el uso. Podemos analizar las publicaciones o sus metadatos con relación a los puntos siguientes:

Autores de las publicaciones; por ejemplo, el número de autores por artículo.
Canales de comunicación, como revistas, actas de congresos, blogs, sitios web.
Disciplinas o campos académicos.
Países, regiones, universidades, departamentos, grupos de investigación, como la entidad más productiva.
Periodos de tiempo, en forma de series de tiempo; por ejemplo, mostrar el crecimiento de la publicación.
Una mezcla de los elementos anteriores; por ejemplo, el número de revistas en un campo utilizadas por un país durante un periodo de tiempo.

El análisis de publicaciones se lleva a cabo asumiendo que los patrones de publicaciones de investigación —en gran medida— son un reflejo de los patrones de investigación. Si se analizan las publicaciones tradicionales impresas o electrónicas, los análisis son de carácter bibliométrico (véase la figura 1). Si las publicaciones son de carácter académico, se podría denominar análisis cienciométrico (Moed, 2005), independientemente del tipo de publicaciones; si el entorno de publicación es el web, lo llamamos webmetría (Almind; Ingwersen, 1997; Thelwall; Vaughan; Björneborn, 2004). Si contamos unidades según diversos medios de comunicación social, el concepto altmetría (por métricas alternativas) ha surgido recientemente como una forma especial de análisis webmétrico (Taraborelli, 2008; Kurtz; Bollen, 2010). Como se muestra en la figura 1, toda la gama de “-metrías” pertenece al campo general de la infometría, el estudio cuantitativo de la información en todas sus formas (Tague-Sutcliffe, 1992).

Figura 1. El marco de la infometría (extraído de Björneborn; Ingwersen, 2004, p. 1217).

A continuación, presentaremos algunos ejemplos de análisis de publicaciones cienciométricas básicas, su problema inherente de interpretación y señalaremos algunas de las dificultades que tienen. El primer ejemplo muestra el uso de cifras de índice para el crecimiento de las publicaciones de investigación a lo largo del tiempo para tres países y regiones muy diferentes en términos de volúmenes de investigación: Estados Unidos (EE. UU.), China y la Unión Europea (UE). Se destacarán algunas dificultades en la interpretación de los datos. El segundo ejemplo ilustra una serie temporal de cuotas mundiales de publicación de países/regiones en una disciplina científica. En este caso, ir más allá de los resultados mostrados tiene una importancia vital para interpretar correctamente las tendencias. El tercer ejemplo muestra que se pueden utilizar las herramientas analíticas de Web of Science (WoS) para calcular la media de países, autores o instituciones por publicación en una disciplina determinada, sin llegar a controlar los nombres de los autores o las instituciones. La mayoría de los ejemplos son de análisis ya publicados, de modo que los lectores pueden consultar estas publicaciones para profundizar más en estos casos.

2 Análisis del crecimiento de publicaciones

La figura 2 muestra el crecimiento de publicaciones de investigación en China, en Estados Unidos y en la Unión Europea en periodos de cinco años seguidos entre 1981 y 2006. Las publicaciones de investigación son, en este caso, únicamente artículos de revistas. El hecho de que se superpongan los periodos temporales sirve para suavizar las curvas de la figura. Debido a las grandes diferencias en las cantidades de publicaciones entre los tres países/regiones, el número real de publicaciones no se suele mostrar en la misma figura; por este motivo se aplican valores de índice. Además, los valores de índice proporcionan al lector una información inmediata sobre el crecimiento desde un punto concreto en el tiempo. El periodo inicial (1981-1985) se establece en el valor de índice 1. Por lo tanto, para entender las tendencias indicadas en la figura es crucial saber, en primer lugar, de qué fuente de datos provienen las cifras de los índices y, en segundo lugar, el volumen real de publicaciones por país/región que equivale al valor de índice 1.

Figura 2. Crecimiento de publicaciones de las bases de datos de citas de Thomson-Reuter para China, la Unión Europea y Estados Unidos —todos los campos académicos, 1981-2006 (Web of Science; National Science Indicators, 2007)— extraído de Ingwersen (2009, p. 4).

En el artículo original (Ingwersen, 2009, p. 4, diagrama 3), no se mostraban los volúmenes para el valor de índice 1 porque la idea del artículo era solo demostrar el segundo punto crucial para la interpretación señalado anteriormente: la fuente. A primera vista, parece como si China superara a los otros dos países/regiones analizados. Sin embargo, como dice el artículo (p. 4): «[we] observe that on the surface China’s growth seems to follow a power law. However, the diagram demonstrates alone the growth of China’s publications indexed by Thomson Reuters in their three citation databases, Social Science Citation Index, Science Citation Index and Arts; Humanities citation Index. That is, the curve for China signifies the growth of China’s international contributions, as indexed by the citation databases, not the real growth of all Chinese publications including those published nationally». En otras palabras: la curva china indica que el crecimiento de publicaciones chinas, seguramente en inglés e indexadas en las bases de datos de citas internacionales, ha sido 18 veces más grande en los últimos 25 años; en resumen, la entrada reciente de China en la escena internacional. Fenómenos similares de crecimiento, pero menos pronunciados, se pueden observar en otros países de habla no inglesa, como, por ejemplo, en España y en muchos países de América del Sur. Así pues, la figura se puede entender como una representación de una «política de investigación» activa en China.

Otro punto que debe considerarse es que, dado que la figura muestra el crecimiento en valores de índice, y no el número real de publicaciones durante los periodos, sería una mala interpretación pensar que China supera a la Unión Europea, que ha superado a los Estados Unidos en los últimos años; los volúmenes de publicaciones reales que equivalen al valor de índice 1 son tales que el punto de partida de China está muy por debajo de los de la Unión Europea y de Estados Unidos —solo 14.114 publicaciones—. El volumen de Estados Unidos en el índice 1 corresponde a 887.039 publicaciones respecto a las 736.616 publicaciones de la Unión Europea, como punto de partida. Una figura que representara los números reales de artículos indicaría la tendencia real (véase la figura 3 a continuación). Una tabla que mostrase los tres países/regiones y los números de publicaciones reales también serviría para mostrar la imagen correcta —aunque, por supuesto, sería menos espectacular.

Figura 3. Números de publicaciones de las bases de datos de citas de Thomson-Reuter para China, la Unión Europea y Estados Unidos 1981-2006 (Web of Science; National Science Indicators, 2007).

3 Análisis de las cuotas mundiales

El segundo ejemplo se refiere al análisis de las cuotas mundiales de publicaciones en una disciplina, la investigación en energías renovables. Las publicaciones incluyen artículos de revistas y actas publicadas de congresos. Se asume que las tendencias mostradas reflejan las tendencias de investigación y la productividad, es decir, los países o las regiones más productivos en un ámbito durante un periodo de tiempo.

Figura 4. Porcentaje de cuotas mundiales de publicaciones sobre investigación en energías renovables, 1995-2011 (<em>WoS</em>, 2012; extraído de Sanz-Casado et al., 2013, p. 206).

Figura 4. Porcentaje de cuotas mundiales de publicaciones sobre investigación en energías renovables, 1995-2011 (WoS, 2012; extraído de Sanz-Casado et al., 2013, p. 206).

En comparación con la figura 2, la figura 4 presenta las tendencias proporcionales reales de los países y regiones analizados. En consecuencia, es aceptable mostrar las series temporales con diferentes periodos de análisis (tres periodos de cinco años y un periodo de dos años, 2010-2011). Para entender los patrones de la figura, los datos subyacentes se tendrían que dar en forma de tabla, de modo que el lector pudiera conocer el desarrollo real de la producción mundial en la disciplina durante los periodos analizados. Sin embargo, una tabla completa sería demasiado grande. La tabla 1, a continuación, ilustra la fracción superior de los datos. Antes de añadirle los números de publicaciones de la Unión Europea u otros países de la región, debe eliminarse la superposición existente entre ellos. Desde los puntos de vista del analista y del lector, por cada serie temporal de cuotas mundiales nacionales, nos tendríamos que preguntar siempre: ¿qué países y qué tipos de documentos son los responsables de los patrones que se muestran? ¿Hay algunas anomalías en cuanto al impacto de las citas de las entidades que crecen o disminuyen? Por ejemplo, ¿la productividad de China o de Japón / Corea del Sur / Taiwán aumenta del mismo modo que el impacto de las citas entre 2005-2011?

Por lo tanto, el análisis debería tratar, como mínimo, de las tendencias más significativas observadas en la figura 4.

Tabla 1. Artículos de revistas y actas publicadas de congresos sobre generación de energías renovables, 1995-2011, en los 20 países con más publicaciones (Web of Science, 2013; extraído de Sanz-Casado et al., 2013, p. 205).

Aunque la posición de liderazgo de la Unión Europea en investigación sobre energías renovables no se pone en duda, debería investigarse la caída de las cuotas entre 2005-2011. Parece que la razón principal de este descenso es la reducción de investigación en este campo en Alemania (del 11,4 % entre 2000-2004 al 7,8 % entre 2010-2011). «[In] general the ‘old’ dominant Western economies: USA, EU, Canada, Australia and New Zealand reduce their world segments during the analysis period. Simultaneously, the share of the countries outside the diagram diminishes, from 21.7 % in 2000-2004 to 12.7 % in 2010-2011. India stays rather constant just below 4 %. Only China raises its world share and actual publication volume (or their international penetration as measured by WoS – see above) very rapidly, to become the second top-player from 2004 at global level in Renewable Energy research. […] [Japan], South Korea and Taiwan supersede China in volume and also increase their segment, but not as steeply as China, mainly due to a reduced Japanese growth» (Sanz-Casado et al., 2013, p. 204). Una variable oculta típica en este tipo de análisis sería el grado de colaboración internacional, que debería estudiarse. Una disminución de la colaboración implica, en general, menos productividad —y comporta también un impacto menor de las citas.

En cuanto a los análisis detallados seleccionados de la distribución y del impacto de tipos de documentos, la tabla 2 ilustra que la mayor parte del aumento entre 2005-2011 de las cuotas mundiales para China proviene de artículos de revistas, como en Estados Unidos (66 %, aproximadamente). En España, que ocupa el sexto lugar durante el periodo 2005-2009, este porcentaje es mucho mayor (73 %). Pero es necesario fijarse en el bajísimo impacto internacional de las actas publicadas de congresos chinos, en comparación con otros países que se encuentran en los primeros puestos.

Tabla 2. Tipos de documentos e impacto de citas para el periodo 2005-2011 citados en investigaciones sobre energías renovables 2005-2012 (WoS, 2014).

4 Media de países, instituciones y autores por publicación

Es bastante sencillo calcular la media de países por publicación en Web of Science, porque todos los países participantes se indexan y se controlan por el nombre. La herramienta analítica de WoS permite al analista obtener en línea un desglose por países cooperantes de un conjunto de publicaciones definido por un país (en un campo, en un momento determinado, a partir de un tipo de documento concreto, etc.). La clasificación que ofrece la herramienta (de hasta 500 países distintos) se puede transferir directamente a una hoja de cálculo. El resultado será parecido a la tabla 3A .El conjunto de documentos analizados en cooperación internacional con el país en cuestión (en la tabla 3 es Dinamarca) se selecciona en WoS mediante la recuperación de todos los documentos dentro del conjunto danés que están colaborando con Dinamarca. Estos países se encuentran gracias a las herramientas analíticas de WoS. El conjunto resultante —aquí llamado conjunto internacional— se resta de la serie original danesa mediante criterios no lógicos. Así, tenemos dos series de documentos de Dinamarca: el conjunto internacional y el conjunto formado por las publicaciones solo publicadas por instituciones danesas, y no por otros países. Esto nos permitiría denominarlo conjunto solo danés. Ahora ya estamos preparados para calcular las medias de países o instituciones por documento en los conjuntos respectivos.

4.1 Desglose de países colaboradores y media por publicación

En el ejemplo de la tabla 3A, el conjunto internacional de países que colaboran con Dinamarca está formado por 100 actas de congresos de 2012 en el campo de investigación sobre energías renovables. El conjunto únicamente danés consta de 851 actas de congresos (véase la tabla 3B). Para calcular la media de países que colaboran con Dinamarca al producir las 100 actas publicadas de congresos, sumamos el número de publicaciones asignadas a todos los países de la lista. Está claro que el número de países únicos diferentes sirve como un indicador adicional de cooperación (el número real es de 43 países únicos, que no se muestran en la tabla), pero no tiene ninguna influencia en el cálculo de la media. La suma de actas de congresos para todos los países, entre ellos Dinamarca (100 publicaciones), es de 333 actas publicadas (véase la tabla 3A), y la media de países por documento es, por lo tanto, 333/100 = 3,33 países. Las 333 actas publicadas son un número mucho mayor que las 100 en colaboración de Dinamarca precisamente porque participan en ellas varios países. Así, aparte de la propia Dinamarca, de media, 2,33 países más cooperan para producir las 100 actas publicadas.

Tabla 3. Actas danesas publicadas de 2012, de todos los campos. 3A: desglose de los países que cooperan con Dinamarca y número medio de países por acta publicada. 3B: desglose de las instituciones danesas que colaboran en actas publicadas solo danesas y número medio de instituciones por acta publicada (WoS, 2014).

4.2 Desglose de instituciones colaboradoras y media por publicación

En la tabla 3B, el conjunto «solo danés» (851 actas de congresos publicadas) se descompone en los nombres institucionales indicados originalmente en las actas en el momento de la publicación gracias a la herramienta analítica de WoS respecto a la categoría de metadatos «Organizations Enhanced» (organizaciones destacadas). A diferencia de los nombres de países, los nombres institucionales no se controlan. Observamos, por ejemplo, que la Aalborg University (indexada en 229 documentos) también aparece con el nombre «Aalborg Univ» (indexada en 6 documentos). Asimismo, un conocimiento desde dentro indicaría que el Niels Bohr Institute, de hecho, es una parte integrada de la University of Copenhagen. En consecuencia, no podemos aplicar el desglose para señalar el número real de instituciones únicas que colaboran en el conjunto solo danés de actas de congresos publicadas. Para hacerlo, tendríamos que limpiar todo el conjunto primero. Sin embargo, se puede calcular el número total de documentos que contienen al menos un nombre institucional sumando el número de documentos asignados a cada organización destacada en el conjunto. Después, la suma de estas actas publicadas (892, véase la tabla 3B) se divide entre el número de documentos del conjunto solo danés (851) para obtener el número medio de instituciones por acta publicada (1,05). Es importante destacar que en este cálculo no es preciso controlar el nombre de las instituciones. Puesto que normalmente los autores solo asignan un nombre de cada institución filiada a cada documento, la lógica dicta que este cálculo que implica nombres institucionales representa el número medio real de instituciones distintas que colaboran por documento.

Tabla 4. Desglose de nombres de autores que colaboran en investigación sobre energía eólica en España, entre 2003 y 2012, clasificados por orden alfabético, y número medio de autores por artículo (Social Science Citation Index [SSCI] y Science Citation Index [SCI], 2014).

4.3 Desglose de autores colaboradores y media por publicación

A menudo el número medio de autores —y el número medio de instituciones colaboradoras— se utiliza como medida en los estudios de evaluación de la investigación para explicar los cambios en el impacto de las citas y para justificar el uso de la fragmentación de las citas o indicadores de resultados de la publicación. En principio, para desglosar y calcular la media de autores se aplican los mismos tipos de cálculos y de herramientas de análisis. Como en el caso de los nombres de países, en WoS se indexan todas las formas de nombres de autor (AU) y, en gran medida, se controlan (lo que sucede pocas veces en otras bases de datos científicas, que no suelen mostrar autores secundarios). Obsérvese, por ejemplo, la tabla 4. Como en el caso anterior de las instituciones, el nivel de control de los nombres no influye en el cálculo de la media de autores por documento. Por lo tanto, podemos calcular la media de nombres de autores distintos por documento mediante el mismo tipo de suma y de lógica que los utilizados antes para las instituciones o para los países.

La tabla 4 muestra un ejemplo de este tipo de cálculos para una serie temporal relacionada con artículos indexados en WoS en las bases de datos de ciencia y ciencias sociales sobre la investigación en energía eólica en España, que cubre dos años de publicación: 2003 y 2012. Observamos el alto grado de control de los nombres, a pesar de que puede haber una cierta incertidumbre en el caso de «FYNBO JPU» y «FYNBO JU», que probablemente representan a la misma persona. En el caso que se muestra, la media de autores por artículo se ha doblado, aproximadamente, en los diez años analizados.

5 Discusión y conclusiones

Las características y los elementos siguientes son cruciales para realizar interpretaciones válidas de los resultados y de las presentaciones de los análisis:

La calidad y la validez de la fuente de datos. La fuente contiene todos los datos requeridos; por ejemplo, todos los autores o tipos de documentos, y de qué forma los controla.

El conocimiento experto. En cada análisis cienciométrico, se necesitan dos tipos de expertos: el especialista con experiencia bibliométrica y un experto del campo que pueda explicar las anomalías en las tendencias observadas; por ejemplo, variables/efectos desconocidos dependientes del campo de estudio o explicar formas de nombre.

La forma de presentación. Debe elegirse la manera de presentación adecuada, como, por ejemplo, utilizar los valores de índice en lugar de los números reales porque una figura no puede incluir todos los rangos numéricos ni todos los detalles, pero hay que asegurarse de que se proporcionan suficientes datos subyacentes para interpretar las referencias informativas.

La razón que está detrás del uso de WoS (o Scopus) es, básicamente, la exhaustividad. Aparte de que también es capaz de analizar citas, la base de datos de citas ofrece al analista una serie de herramientas de análisis que pocas veces pueden encontrarse en bases de datos que dependen del campo estudiado. Además, la base de datos de citas suele indexar todos o la mayoría de metadatos, como, por ejemplo, todos los autores y sus filiaciones, mientras que otras fuentes solo indexan algunos metadatos, como el primer autor y su filiación. Sin embargo, WoS y Scopus siguen sesgados hacia fuentes angloamericanas.

El control de las formas de los nombres es un tema importante, porque en el caso de un control riguroso de los nombres institucionales o de los nombres de los autores surgen otros indicadores de productividad. Si se conoce el número real de las instituciones de investigación o de los autores, es posible calcular la productividad de las entidades individuales. A partir de la tabla 4, por ejemplo, obtenemos la misma productividad por autor en 2003 (23 art. / 162 nombres únicos = 0,14 artículos por científico) que en 2012 (114/824 = 0,14), aunque la media de científicos colaboradores se ha incrementado un 25 % durante los diez años.

El conocimiento experto es vital para la interpretación, como hemos demostrado en relación con la figura 2. Dado que la mayoría de gráficos muestran las medias o las sumas, las estructuras subyacentes de datos pueden mostrar valores atípicos importantes o explicar ciertos acontecimientos —como en la figura 4 para China—. Disponer de títulos y leyendas adecuados e informativos de las figuras y tablas es fundamental para minimizar malentendidos. Siempre debería ser posible entender el significado y el mensaje de una figura directamente de la misma figura, con la ayuda de la leyenda. La información necesaria no se tendría que separar e incluir solo en el cuerpo del texto.

Para concluir, este artículo ha mostrado casos seleccionados de análisis de publicaciones, la presentación de sus resultados y su posible interpretación, así como los inconvenientes principales. La importancia reside en entender que el análisis de citas y del impacto de las citas solo se puede hacer por medio de análisis de publicaciones válidas. Para llevar a cabo los primeros análisis, debe disponerse de los resultados de los segundos como dispositivos de normalización. Además, los estudios de publicaciones en sí mismos proporcionan una visión de la productividad, de la investigación (publicación), de patrones y de tendencias.

Bibliografía

Almind, T. C.; Ingwersen, P. (1997). «Informetric analyses on the World Wide Web: methodological approaches to Webometrics». Journal of Documentation, vol. 53(4), p. 404–426.

Björneborn, L.; Ingwersen, P. (2004). «Toward a Basic Framework for Webometrics». Journal of the American Society for Information Science and Technology, vol. 55(14), p. 1216–1227.

Ingwersen, P. (2009). «Scientometric and Webometric methods». In: Document, Information and Knowledge. China: Wuhan University, p. 1–11. ISSN: 1003-2797.

Kurtz, M.; Bollen, J. (2010). «Usage bibliometrics». Annual Review of Information Science and Technology, vol. 44, p. 3–64.

Moed, H. F. (2005). Citation Analysis in Research Evaluation. Dordrecht: Springer.

Sanz-Casado, E.; Carlos Garcia-Zorita, J.; Serrano-López, E. A.; Larsen, B.; Ingwersen, P. (2013). «Renewable energy research 1995–2009: a case study of wind power research in EU, Spain, Germany and Denmark». Scientometrics, vol. 95, p. 197–224.

Tague-Sutcliffe, J. (1992). «An introduction to informetrics». Information processing; management, vol. 28(1), p. 1–3.

Taraborelli, D. (2008). «Soft peer review: social software and distributed scientific evaluation». In: Hassanaly, P.; Ramrajsingh, A.; Randall, D.; Salembier, P.; Tixier, M. (eds.). Proceedings of the 8th International Conference on the Design of Cooperative Systems, Carry-le-Rouet, 20–23 May 2008 (pp. 99–110). Aix-en-Provence, France: Institut d’Etudes Politiques d’Aix-en-Provence.

Thelwall, M.; Vaughan, L.; Björneborn, L. (2004). «Webometrics». Annual Review of Information Science and Technology, vol. 39, p. 81–135.

licencia de Creative Commons de tipo «Reconocimiento-NoComercial-SinObraDerivada«. Esto significa que se pueden consultar y difundir libremente siempre que se cite el autor y el editor con los elementos que constan en la opción «Cita recomendada» que se indica en cada uno de los artículos, pero que no se puede hacer ninguna obra derivada (traducción, cambio de formato, etc.) sin permiso del editor. En este sentido, se cumple con la definición de open access de la Declaración de Budapest en favor del acceso abierto. La revista permite al autor o autores mantener los derechos de autor y retener los derechos de publicación sin restricciones.