La detección de Design Smells ha experimentado un auge
en actividad entre los años 2010 y 2014. Proliferan las herramientas de
detección automática pero se percibe un problema de falta de acuerdo
en la identificación de Design Smells. En este trabajo se presentan
dos experimentos. El primero es un experimento diseñado como estudio
preliminar en el que se comparan una selección de 6 herramientas de
detección de Design Smells. En este primer experimento el estudio se
realizó centrándose en la detección de dos tipos de Design Smells: God
Class y Feature Envy en un proyecto software de código abierto. Del proyecto
seleccionado se eligieron 100 clases aleatoriamente para este primer
estudio exploratorio. El análisis consistió en valorar el grado de acuerdo
en la identificación de Design Smells en el grupo de herramientas. Para
profundizar en el problema se diseñó una réplica del primer experimento.
En esta réplica se comparan 5 herramientas de detección de Design
Smells. En este segundo experimento se analizaron 12587 clases fruto
de la preparación de un dataset con todas las clases de 24 proyectos de
código abierto obtenidos de SourceForge. Este segundo experimento se
centró únicamente en el estudio del acuerdo entre las herramientas en
la identificación de God Class. Los resultados obtenidos en este segundo
experimento muestran que tanto el acuerdo entre las herramientas tomadas
conjuntamente como analizadas dos a dos es pobre o débil según el
caso, de acuerdo a la escala de interpretación de los valores del estadístico
Kappa-Fleiss
Keywords: Detección de Design Smells, Kappa-Fleiss, FCA, calidad, evolución, mantenimiento