La Inteligencia Artificial en las Editoriales Científicas

Marta Colomer3 abril 2024 Academic Resources, Open Science, Recent Advances

La Inteligencia Artificial en las Editoriales Científicas

En 2023, la irrupción de la inteligencia artificial (IA) generativa – como ChatGPT – en muchos ámbitos de nuestra vida cotidiana despertó mucho interés a la vez que generó un gran debate sobre el potencial de esta nueva tecnología. Este año, experimentaremos una mayor integración de la IA en el sector de las editoriales científicas a medida que esta industria empieza a adaptarse a esta nueva tecnología.

En este artículo exploramos los efectos de la aplicación de la IA en las editoriales científicas y los retos a los que debe hacer frente esta industria.

¿Qué es la inteligencia artificial?

De una manera sencilla, la IA es una tecnología que permite a los ordenadores simular en cierta medida la inteligencia humana y sus capacidades para resolver problemas. En la práctica, consiste en aplicar ciencias computacionales, como el aprendizaje profundo (deep learning) o automático (machine learning), a grandes conjuntos de datos para que la IA desarrolle de manera autónoma algoritmos que modelen las capacidades de decisión y razonamiento similares a las de la mente humana.

El factor clave de la IA es la capacidad de esta herramienta para poder aprender y adaptarse a partir de sus propias experiencias.

Algunos de los ejemplos más conocidos del uso de la IA incluyen la conducción de vehículos autónomos, los softwares de reconocimiento facial, y los chatbots (bot de charla o bot conversacional).

IA generativa

En 2023, las herramientas de IA generativas, como el famoso ChatGPT, estallaron en popularidad. Estas herramientas son modelos de machine learning que permiten interactuar con los usuarios de una manera conversacional y generar nuevo contenido: ya sean textos, imágenes, música, o incluso vídeos.

Las siglas GPT proceden del inglés ‘Generative Pre-trained Transformer‘. El término ‘pre-trained’ hace referencia a cómo este modelo está entrenado con grandes conjuntos de corpus textuales para predecir la siguiente palabra en una frase. Básicamente, se utiliza la información contenida en internet para entrenar al modelo. La idea es que este modelo pueda generar un texto similar al que produciría un humano.

Un ejemplo práctico de cómo funciona esta tecnología sería el siguiente: dada la frase “Este fin de semana iré al ‘X’ a ver una película”, el modelo tiene que determinar qué palabra corresponde a ‘X’. En este caso, la palabra que tiene mayor probabilidad de ser ‘X’ sería ‘cine’, pero también podría ser ‘centro comercial’. Este detalle es fundamental ya que el modelo produce resultados estadísticamente probables, y los resultados no tienen por qué ser necesariamente ciertos. Es importante destacar que un resultado altamente probable y uno cierto no tienen por qué ser lo mismo.

GPT es un ejemplo de un modelo de lenguaje de gran tamaño o LLM (siglas en inglés para Large Language Model), los cuales están diseñados para entender y generar texto similar al que produciría un humano. Los LLMs están entrenados con grandes cantidades de texto para generar contenido textual y son formas de IA generativa.

¿Por qué es tan difícil la detección de texto generado con IA?

Las herramientas como ChatGPT son uno de los principales focos de debate sobre el uso de la IA en las editoriales científicas. Hemos tenido la oportunidad de hablar con Jean-Baptiste de la Broise (Data Scientist del equipo de IA en MDPI) sobre por qué es tan difícil detectar texto generado con IA.

Jean-Baptiste de la Broise comentaba que para que un LLM suene como un humano necesitas introducir cierta aleatoriedad en las respuestas. De la misma manera que sería poco probable que un humano respondiera exactamente de la misma manera a una pregunta compleja.

Esto implica que, para cualquier entrada (prompt), el LLM puede generar múltiples outputs diferentes (entre los cuales algunos de ellos se acercan mucho a la respuesta que proporcionaría un humano).

Jean-Baptiste de la Broise también destacó otros factores adicionales:

Las opciones de inputs y outputs en LLMs son infinitas, por lo que es imposible tenerlas en cuenta todas;
La precisión de los modelos de detección depende de la longitud del texto. Cuanto más corta sea la muestra, más difícil es detectar si ha sido generada mediante IA;
Una ligera modificación de un LLM puede engañar al detector, ya que los detectores se ajustan a las versiones actuales de LLMs. Por ejemplo, distintas versiones de ChatGPT requieren distintos modelos para detectarlos;
Se destinan muchos más recursos al desarrollo de LLMs que a la detección de textos generados con IA;
La diversidad de LLMs supone una dificultad para detectar todos los outputs de LLMs (como generalmente están entrenados con datos similares, aunque haya puntos en común entre distintos LLMs, utilizan la misma arquitectura y optimizan hacia el mismo objetivo).

Cómo las editoriales están respondiendo al uso de la IA en las publicaciones científicas

La detección de contenido generado con IA sigue siendo un enorme desafío en el mundo editorial. Además, la cuestión no es si existe o no texto generado por AI, sino el uso que se le haya dado. Las editoriales permiten el uso de IA generativa a distintos niveles, siempre que se informe de su uso en las secciones de Materiales y Métodos o de Agradecimientos. Sin embargo, las regulaciones difieren entre editoriales.

En general, para los informes de revisión por pares, el uso de IA generativa no está permitido. Esto es debido a que el hecho de introducir los comentarios del revisor o partes del contenido del artículo en la herramienta de IA constituiría una violación de la cláusula de confidencialidad entre el revisor y la editorial. Técnicamente, en este caso, el texto está siendo compartido con un actor externo (es decir, la herramienta de IA generativa, la cual puede almacenar y usar este contenido posteriormente).

La visión de MDPI sobre el uso de la IA

Con respecto al uso de herramientas de IA generativa para la preparación de manuscritos, MDPI sigue el criterio del Committee on Publications Ethics (COPE). Herramientas como ChatGPT y otros LLMs no cumplen con los criterios de autoría, principalmente porque no se pueden hacer responsables de lo que escriben. Por este motivo, estas herramientas no pueden ser consideradas como parte del listado de autores en un artículo.

En las ocasiones en las que se utilicen herramientas de IA, esto debe ser declarado con suficiente detalle en la carta al editor, con transparencia sobre su uso en la sección de Materiales y Métodos, y proporcionando los detalles del producto en la sección de Agradecimientos.

Pero ¿por qué los autores están interesados en el uso de las herramientas de IA?

Ventajas de la IA para los autores

El uso de la IA por parte de los autores tiene múltiples ventajas que permiten ahorrar tiempo e incrementar la eficiencia.

Manejo de datos y automatización de las tareas

El volumen de datos que se genera y publica excede lo que cualquier persona puede leer o manejar de manera efectiva. En este caso, la IA se puede utilizar como herramienta para automatizar ciertos aspectos del proceso editorial:

Búsqueda de palabras clave para sugerir revistas relevantes y optimización de motores de búsqueda;
Análisis de conjuntos de datos para generar insights e identificar nuevas áreas de investigación;
Procesamiento de datos para agregación de contenido en bases de datos;
Proporcionar opciones de búsqueda avanzada en bases de datos;
Búsqueda y eliminación de artículos duplicados en bases de datos;
Catalogación y organización correcta de los artículos.

Además, los datos alimentan la IA ya que ayudan a mejorar sus capacidades y precisión. Así que, cuantos más datos procese la IA, más debería mejorar esta herramienta.

Traducción

Actualmente muchos traductores online incorporan la IA. Google Translate contiene herramientas basadas en IA que le permiten aprender y adaptarse cuanto más se utiliza. Modelos de IA como ChatGPT pueden hacer de la traducción un proceso más interactivo mediante el uso de Natural Language Processing (NLP).

El NLP aplica técnicas computacionales parar analizar el lenguaje humano y producir respuestas similares a la de los humanos. Mediante su entrenamiento con textos naturales, herramientas como los GPTs pueden proporcionar un contexto o tono adecuado a las traducciones.

Además, su formato conversacional permite a los investigadores dialogar con la herramienta de IA para que les proporcione claridad, sinónimos, o traducciones alternativas a palabras y frases. Incluso pueden pedir a la herramienta de IA que revise su texto y adapte su estilo de escritura a un tono más académico.

Así, las herramientas de IA pueden ayudar a hacer de la traducción una conversación, eliminando las barreras lingüísticas entre los investigadores hablantes nativos de inglés y los no nativos a la hora de escribir sus trabajos científicos.

Resumen de artículos

La IA generativa también se puede utilizar para generar resúmenes de artículos. Este tipo de herramientas son muy útiles durante las fases de investigación y escritura.

Durante la investigación, las herramientas de IA pueden ayudar a resumir los artículos científicos en sus puntos principales, siendo de gran utilidad para los artículos muy largos o los que no son relevantes en su totalidad. La IA también permite buscar a lo largo del artículo y destacar los puntos clave para el lector, ahorrando tiempo y energía a los investigadores.

Por otra parte, el resumen de artículos puede ser aplicado a los artículos del propio autor. De esta manera, la IA puede ser de gran ayuda a la hora de resumir los puntos clave del artículo, escribir las conclusiones, el abstract, e incluso para hacer presentaciones sobre ese estudio.

Generación de imágenes

La IA también se puede utilizar para generar imágenes de manera rápida y efectiva.

La IA puede generar gráficos representativos y tablas mediante la entrada de prompts para mejorar la claridad y ejemplificación de los datos que se quieren representar.

Desventajas de la IA en las editoriales científicas

La IA genera ciertas preocupaciones y retos en la industria editorial.

Dificultades para detectar la IA generativa

Tal y como hemos comentado, los GPTs funcionan a través de la predicción de la siguiente palabra en una frase para generar texto similar al que produciría un humano. Esto implica que los GPTs pueden generar un texto que puede sonar bien pero que puede no ser necesariamente cierto. De la misma manera, la IA puede crear una imagen que parece real, pero no una imagen que sea real.

Los GPTs también están sujetos a sesgos políticos e incluso pueden producir alucinaciones. Es decir, el modelo de lenguaje puede generar una afirmación plausible y que suene bien, pero que de hecho sea totalmente incorrecta. De nuevo, hay que recordar que estos modelos generan la respuesta más probable, que no tiene por qué ser la más correcta. Por este motivo, la detección de escritos generados con IA es tan difícil. Sobre todo, la detección de textos acerca de temas en los que los escritores no son especialistas.

Modelos de IA para la detección de IA generativa

Actualmente nos encontramos en una carrera trepidante entre el desarrollo de IA generativa y la generación de modelos que permitan la detección de contenido generado por IA.

El campo de la IA es tan dinámico que, aunque existen guías y herramientas online para la detección de la IA, éstas quedan rápidamente obsoletas por la aparición de nuevas versiones de IA más avanzadas. Además, siempre hay espacio para el error cuando se utilizan herramientas de detección.

En el mundo editorial, esto puede dar lugar a la publicación de artículos científicos falsos ya que estos pueden estar muy bien escritos y ser sofisticados en sus argumentaciones. De aquí la importancia del proceso de revisión por pares.

Paper mills

Los textos generados mediante la IA amplifican un problema prevalente en la industria editorial: las paper mills o conocidas también como las fábricas de manuscritos.

Las paper mills son organizaciones potencialmente ilegales, no-oficiales y con ánimo de lucro que producen y venden manuscritos científicos fabricados o manipulados con apariencia de estudios científicos legítimos.

El uso de la IA para generar artículos puede acelerar la producción de paper mills y hacer que los artículos que producen sean más creíbles y difíciles de detectar.

La IA generativa en las editoriales científicas

En 2024 la IA generativa no hará más que crecer en sus capacidades y aplicaciones. Y, en unos años, se habrá convertido en la norma, de la misma manera que hicieron en su momento Internet o Google. Así, después de esta fase de reajuste, es probable que estas nuevas herramientas sean asimiladas y aceptadas en nuestro uso cuotidiano de la tecnología.

Mientras que estas nuevas tecnologías plantean un conjunto de nuevos retos para las editoriales científicas, a su vez nos proporcionan múltiples oportunidades para mejorar el proceso editorial.

Frank Sauerburger (Technical Leader en IA), resume la relevancia de este momento:

Los Large Language Models y las tecnologías asociadas permiten una plétora de nuevas aplicaciones y productos. La IA, y sobre todo el Natural Language Processing, ha evolucionado tan rápidamente en los últimos años que da la sensación de que estamos presenciando el inicio de una nueva era.

MDPI y la IA

El equipo de IA en MDPI está desarrollando e implementando una gran variedad de herramientas para ayudar a abordar problemas como la detección de contenido generado por IA o el elevado número de artículos que se producen usando IA generativa. Estas herramientas tienen como principal objetivo ayudar y asistir durante el proceso editorial para mejorar la calidad de nuestras revistas.

Este artículo se escribió en colaboración con Enric Sayas (Scientific Officer y Business Analyst del equipo de IA en MDPI).

Este artículo es una traducción. El artículo original fue publicado por Jack McKenna en el blog en inglés.