<INTRODUCCIÓN>
En la actualidad, la implantación de la cirugía laparoscópica (CL) puede considerarse universal\cite{Moreno_Sanz_2014}. Por el contrario, el proceso de formación en CL necesita un aseguramiento de la calidad, unos estándares formativos mínimos y un adecuado proceso de acreditación\cite{Aydin_2016}\cite{Wong_2008}\cite{Veneziano2018}\cite{Ahmed_2018}\cite{Rodr_guez_Socarr_s_2017}. Es por ello que determinadas agrupaciones médicas busquen certificar habilidades y competencias médico-quirúrgicas técnicas y no técnicas por medio de diversos métodos de evaluación (Tabla I) .
La formación en cirugía de mínima invasión (CMI), y especialmente en CL, no sigue los principios tradicionales de Halsted de “ver, hacer, enseñar”\cite{surgeon}. Así pues, dichas habilidades básicas y avanzadas deben perfeccionarse fuera de entornos quirúrgicos antes de aplicarlas en los pacientes\cite{Wong_2008}, siendo la práctica repetida en simuladores el método generalmente aceptado para disminuir errores quirúrgicos, reducir la curva de aprendizaje y aumentar la seguridad del paciente\cite{Brunckhorst_2016}.
¿Por qué es tan determinante la simulación en CMI, y concretamente en CL para desarrollar y evaluar habilidades de tipo técnico/psicomotriz? No cabe duda de que el impacto de la simulación en la educación médico-quirúrgica es beneficioso, representando una herramienta consolidada e idónea en los programas de formación quirúrgica tanto en CL como en otras disciplinas de CMI\cite{Brunckhorst_2016}\cite{Samia_2013}\cite{van_der_Poel_2015}\cite{Sánchez-Margallo2013}. Los simuladores reproducen el comportamiento de un sistema en determinadas condiciones para el entrenamiento de quienes deben manejar dicho sistema. Su clasificación no es universal y pueden ordenarse en función del nivel de realismo, tipo de ejercicios a realizar, o de si están asociados a algún elemento tecnológico, siendo esta última clasificación la más común. Acorde a ello y especialmente en CL existen simuladores físicos, simuladores virtuales y simuladores híbridos, los cuales se encuentran a medio camino entre la simulación puramente física y la virtual. Pueden llegar a encontrarse citados como «de realidad aumentada», basados en ordenador o en sistemas de tracking\cite{Samia_2013}. Así pues en teoría cualquier simulador, dispositivo médico o método de formación es susceptible de ser validado, y es por ello que la investigación en este campo permite amplias posibilidades más allá del propio ámbito de la simulación en CL (Tabla II).
¿Por qué es necesario validar un simulador? Validar implica certificar la capacidad de una herramienta de formación o evaluación para medir unas determinadas habilidades. También es el grado de confianza inferido de las destrezas de los usuarios evaluadas en dicha herramienta o método. Por tanto un simulador puede disponer de capacidades formadora y/o evaluadora. En cualquiera de sus variantes la herramienta debe ser correctamente validada para resultar fiable, al igual que en otras disciplinas que utilizan simuladores, como es el caso de la aviación, industria, seguridad nuclear o conducción de automóviles\cite{r1999}. Si la información (feedback) de los progresos del cirujano es simplemente orientativa se le atribuye una capacidad formadora. La evaluadora (o sumadora) es selectiva y precisa de estudios de validación más exigentes, además de tener que ofrecer unos niveles de corte. Especialmente si el simulador, dispositivo o método de formación se pretende usar no solo para una mera práctica repetida de ejercicios, sino para evaluar habilidades, debe generar parámetros que puedan ser fielmente interpretados, lo cual será previamente demostrado si supera un correcto periodo de validación. En el caso concreto de la formación en CL actualmente no existe un programa universalmente aceptado, de forma que los métodos para su aprendizaje pueden presentar deficiencias e incongruencias ente ellos. Este componente de variabilidad y de falta de uniformidad en los criterios docentes es uno de los más controvertidos, discutidos y difíciles de resolver en los actuales programas de aprendizaje\cite{Aydin_2016a}\cite{S_nchez_Fern_ndez_2016}\cite{Vedula_2017}. Y es por ello que los estudios de validación deban ser lo más estandarizados y homogéneos posibles para solventar las siguientes deficiencias: carencia de métricas aceptadas universalmente; amplia diversidad de simuladores, tareas y parámetros utilizados, con distintos grados y estadios de validación y de reproducibilidad; discrepancia en criterios para establecer los grupos de experiencia de los distintos estudios y el pequeño tamaño poblacional de algunos; y los diferentes grados de validación alcanzados entre cada estudio\cite{McGaghie_2010}\cite{Gallagher_2003}\citet*{2004a}\cite{Tun_2015}\cite{ncbia}.
Toda validación de simuladores, método de formación, etc. Se fundamenta en diversas estrategias con una terminología específica (Figura 1) (Tabla III)\cite{Aydin_2016}\cite{Samia_2013}\cite{A2001}\cite{Wong_2008}; por tanto el presente trabajo propone una metodología para la validación de simuladores quirúrgicos, principalmente para CL, desde los primeros estadios de su diseño y desarrollo, hasta el registro de datos e interpretación de los resultados.
<MATERIAL Y MÉTODOS>
Las estrategias son un compendio de la experiencia acumulada por nuestra institución\cite{Pagador_2010}\cite{Enciso_Sanz_2012}\cite{Sánchez-Fernández2018}\cite{Enciso_2016}\cite{P_rez_Duarte_2014}\cite{Oropesa_2012}\cite{Oropesa_2011}\cite{j2015}\cite{Usón-Gargallo2013}\cite{Soria2014}\cite{Matos_Azevedo_2014}\cite{Abell_n_2013}\cite{Rodr_guez_2014}\cite{Enciso_2016a}\cite{Ortega_Mor_n_2017}\cite{Monje_Gil_2016}\cite{Enciso_2015}\cite{j2016}\cite{Soria2015}\cite{Moyano_Cuevas_2011}\cite{Usón-Gargallo2014}\cite{snchez-margallo2015}\cite{2015}\cite{Morcillo_2015}\cite{Mart_n_Portugu_s_2013}\cite{ej2016}\cite{2015a}\cite{Us_n_Casa_s_2014}\cite{Pérez-Merino2014}\cite{Mart_n_Cancho_2011}\cite{2010}\cite{Usón2006} y de trabajos representativos de la bibliografía\cite{Samia_2013}\cite{Van_Nortwick_2010}\cite{Schout_2009}\cite{19ilcj}\cite{Aydin_2017}\cite{Schijven2003a}\cite{Schijven_2002}\cite{Smith2001}\cite{Verdaasdonk_2007}\cite{Korndorffer_2005}\cite{Sturm_2008}\cite{Hogle_2009}\cite{Matsuda_2012}. Dicha búsqueda de revisión no sistemática se fundamentó en términos tales como simulación, validación, formación, entrenamiento, evaluación, habilidades y curva de aprendizaje.
<RESULTADOS>
La Figura 1 recoge los hitos cronológicos propuestos para la validar cualquier simulador de CL en base al modelo clásico.
Antes de proceder a validar como tal, primero se debe determinar qué grado de realismo queremos otorgar al simulador (Fidelidad) además de someterlo a la fase de Verificación/Calibración/Fiabilidad (Figura 1) (Tabla III). La Fiabilidad tecnológica de los simuladores basados en tecnologías abarca desde un simple cálculo descriptivo del número de errores totales que comete del sistema hasta protocolos avanzados de calibración que miden el error cuadrático medio (ECM). En el caso práctico del simulador híbrido de laparoscopia LapPlate® se determinó un tiempo medio entre fallos (TMEF) de 2,97 horas, con un 0% de errores en su ejercicio de triangulación y 0,37% en el de coordinación de objetos\cite{Pagador_2010} .
A lo largo de un proceso de validación se comprueba que tanto el diseño del simulador, los ejercicios realizados, los parámetros registrados y la mejora esperada de habilidades sean acordes a los objetivos que se plantearon inicialmente\cite{Samia_2013}\cite{Gallagher_2003}\cite{Fried2004}. Para ello, estos estudios pueden abordarse con estrategias subjetivas u objetivas. La Figura 1 recoge los hitos cronológicos propuestos para la validar cualquier simulador de CL.
Las Estrategias Subjetivas\cite{Noureldin_2018}\cite{Schout_2009} comprenden las validaciones de contenidos y aparente.
Validación de contenidos: los expertos determinan la idoneidad del simulador para medir las habilidades técnicas del cirujano. Se cuestiona si los contenidos que plantea el método evaluador son los apropiados, si están bien relacionados o si miden todas las destrezas presupuestas. Los expertos emiten su opinión particular sobre la importancia y adecuación de los ejercicios que contiene el simulador. La validación aparente también posee un alto carácter subjetivo, en este caso a cargo de usuarios no expertos. Y aunque en principio los considerados no expertos puedan no ser el perfil más apropiado en el cual fundamentar una validación, sí que aportan información interesante sobre la sensación que el simulador transmite al usuario, antes de decidir la futura implantación del mismo. Las preguntas formuladas varían desde sensación de realismo, diseño atractivo, práctico, utilidad de los ejercicios realizados, etc. Además, y en ambas validaciones aparente y de contenidos, por cuestiones de comodidad a la hora de comparar datos, suelen utilizar el mismo modelo de preguntas y hacerse conjuntamente.
En ambos casos se utilizan encuestas para que los usuarios del simulador valoren su apariencia y contenidos después de haber practicado en él. Son relativamente fáciles de realizar porque el usuario sólo debe invertir unos minutos en opinar. Su mayor desventaja consiste en que si la opinión no es presencial y se realizan a distancia, con posterioridad, ofrecen una tasa de respuesta baja. La mayoría de los cuestionarios utilizan escalas tipo Likert con valores impares de cinco puntos de evaluación. Con menor frecuencia pueden encontrarse trabajos con escalas pares.
Las Estrategias Objetivas se dividen a su vez en dos bloques: validación constructiva y validación de criterio.
La validación constructiva representa la primera de las evaluaciones objetivas. Interpreta qué sentido tienen los resultados de los parámetros obtenidos por el simulador. Asimismo, puede subdividirse en tres pruebas distintas:
- Validación constructiva, propiamente dicha: evalúa el grado en que los resultados son capaces de identificar la calidad, habilidad o aspecto para el que fueron diseñados. Básicamente consiste en que el dispositivo sea capaz de discernir entre los niveles/grupos de habilidad de los usuarios, como es el caso del simulador físico SIMULAP en el cual el grupo experto superó al grupo novel en todas las tareas y, en su mayoría, significativamente\cite{Enciso_Sanz_2012}. A su vez, la capacidad para diferenciar puede establecerse de dos formas: globalmente, comparando los valores brutos (promedios) entre cada grupo de experiencia (Figura 2a), y otra más específica, comparando los registros promedios entre cada grupo de experiencia en función del tipo de objeto manipulado, tarea realizada o en cada una de las repeticiones consecutivas (Figura 2b). En este caso la intensidad del estudio es mayor que la validación constructiva propiamente dicha.
- Validación discriminativa: analiza los resultados con mayor profundidad ya que considera factores poblacionales (especialidad médica, año de residencia, etc.). En esta validación se cuestiona, por ejemplo, si la herramienta es capaz de distinguir entre residentes de distinto año.
- Curva de aprendizaje: observación de la mejora de las habilidades motoras a medida que se repiten los ejercicios en el tiempo\cite{Feldman_2009} y determina si las habilidades técnicas de los usuarios mejoran con la práctica repetida\cite{Heinrichs2007}. Dicha mejora debería ajustarse al máximo a las siguientes cuatro condiciones ideales (Figura 2c) :
- Primera condición: la curva descrita debería ser más acusada cuanto más inexperto sea el grupo.
- Segunda condición: al menos el grupo más inexperto debería tener una mejora significativa entre los intentos inicial y final.
- Tercera condición: conviene averiguar la ratio de aprendizaje de la tarea (learning rate curve, proficiency gain curve), es decir, en qué momento los registros de los grupos con menor experiencia se estabilizan en forma de meseta (plateau). Y, por otra parte, determinar también en qué momento coinciden los registros de los grupos menos expertos con los de los expertos. También la ausencia de diferencias significativas es preferible pero no obligatoria, permitiéndose por tanto algunas fluctuaciones en la curva ya que, como certifican Feldman et al.\cite{Feldman_2009} algunos sujetos a menudo «fallan» después de los intentos iniciales, máxime si el estudio trata sobre tareas de carácter relativamente simple porque éstas tienen una menor capacidad discriminativa.
- Cuarta condición\cite{Heinrichs2007}: los registros promedios del grupo de los expertos se interpretan para establecer en base a ellos unos niveles de corte que, caso de ser superados por el usuario, lo capacitarían para pasar a tareas más complicadas. La curva de aprendizaje, al igual que en la validación constructiva, puede analizarse de manera más pormenorizada, desglosada en dos fases: curva de aprendizaje global (a lo largo de las repeticiones continuadas) y curva de aprendizaje parcial (de cada tipo de objeto o tarea a lo largo de sus repeticiones).
En la validación de criterio, como última etapa del proceso de validación, se cotejan los resultados obtenidos en el simulador con los obtenidos en otra prueba, herramienta o método de referencia (gold standard)\cite{Tavakol_2008}. Para ser considerado gold standard debería poseer suficientes validaciones previas. Se suele recurrir a los coeficiente de correlación de Pearson (r) ó Spearman (ρ), con rangos de -1 a +1, entre las puntuaciones en el simulador objeto de estudio frente a los registros del gold standard (simulador o cirugía en vivo). Y se considera una correlación aceptable si esta se sitúa entre ±0.4 y ±0.7\cite{Aggarwal_2007}(Figuras 3a y b).
A su vez, la validación de criterio se divide en validación concurrente y predictiva\cite{Tavakol_2008}. Un ejemplo de validación concurrente es la realizada para el sistema de tracking EVA\cite{Oropesa_2012}, comparando diez de sus parámetros con su gold standard (simulador híbrido TrEndo) y en el cual confirman la validez concurrente ya que el coeficiente de correlación ρ se situó entre aceptable o alto/muy en todos los parámetros comparados excepto uno. Por otra parte la validación predictiva persigue demostrar hasta qué punto los parámetros registrados sobre el dispositivo permitirían predecir un rendimiento futuro\cite{Fried2004}. De esta forma podría inferirse una transferencia de habilidades desde el simulador a la práctica real en el quirófano, siendo ésta la característica más deseable a alcanzar en todo simulador. Y aunque no existe una evidencia categórica de su capacidad para transferir el entrenamiento, los trabajos de revisión y de validación de simuladores generalmente lo avalan\cite{Aydin_2016a}\cite{Dawe_2014}\cite{Fried2004}. Este rendimiento futuro debería ser el último estadio de evaluación; y es el de mayor importancia clínica por ser el que más se asemejaría al ofrecido por el cirujano en la práctica quirúrgica habitual sobre pacientes. No obstante, tiene como desventaja ser la validación más tediosa y complicada de realizar\cite{Gallagher_2003}. Así pues, como demuestran Vedula et al. En su revisión de 45 trabajos de validación de simuladores basados en tecnologías, certifican que se centran en los registros generados en el propio simulador, existiendo una falta de extrapolación de los mismos a su comportamiento en el quirófano\cite{Vedula_2017}.
<DISCUSIÓN>
La importancia de los simuladores quirúrgicos como métodos de entrenamiento y evaluación de habilidades técnicas es cada vez mayor, especialmente en disciplinas como la CL. De hecho en la actualidad el 62 % de los servicios que ofrecen docencia MIR en España disponen de este tipo de elementos\cite{Moreno_Sanz_2014}. Así pues resulta imprescindible que la comunidad investigadora y agrupaciones de acreditación de competencias médico-quirúrgicas dispongan de herramientas de evaluación validadas, fiables y actualizadas\cite{19ilcj}\cite{Noureldin_2018}. Estar actualizado en la metodología de validación es la clave para obtener una apropiada evidencia de los resultados. De hecho, la metodología propuesta en este trabajo acorde a los tipos de validación, aunque siendo de mayor aplicación y difusión en Urología, se encuentra en periodo de transición con respecto a la futura implantación del modelo contemporáneo de evidencia/argumento de validación\cite{Noureldin_2018}.
Entender y aplicar el vocabulario de validación y todo el proceso que conlleva no es una tarea simple, además de estar en constante evolución y refinamiento. El factor idioma también puede ser un condicionante, porque la imnmensa mayoría de metodologías de validación están accesibles en inglés. Este detalle debería ser tenido en consideración para este tipo de estudios científicos, tal y como sugiere Sanguedolce et al. En la validación lingüística en español de un cuestionario sobre calidad de vida del paciente urológico. En ella destaca la idoneidad de disponer de herramientas para la aplicación clínica o investigadora en español, entendido como la segunda lengua más común del mundo\cite{Sanguedolce_2014}.
También los métodos o escalas utilizados para recopilar las métricas que sirven para argumentar que un simulador es válido, deben estar lo más justificados posible ya que existen diferentes métodos en función de las habilidades a evaluar. Un ejemplo práctico de error sería no saber diferenciar entre listas de puntuación de habilidades cognitivas/clínicas (para conocimientos teóricos), frente a otras muy distintas para las habilidades técnicas/psicomotrices (enfocadas a tareas de coordinación, disección o sutura). Finalmente, en los últimos años ha suscitado interés el estudio de las llamadas habilidades no técnicas (Tabla I). Estas escalas evalúan el comportamiento de los participantes en el entorno quirúrgico. Dichas actuaciones no pueden incluirse en habilidades de destreza o de conocimientos ya que son aspectos relacionados con el trabajo en equipo, liderazgo o de comunicación interpersonal.
Pero para que dichas herramientas sean consideradas útiles y fiables es necesario un correcto proceso de validación por medio de distintas estrategias. Y a pesar de disponer de una metodología cronológica (Figura 1), determinar en qué momento un simulador se puede considerar validado puede adolecer de cierta arbitrariedad o de una incompleta estandarización de la metodología seguida en función de la referencia científica que se consulte\cite{Gallagher_2003}\cite{Noureldin_2018}\cite{ncbia}\cite{Vedula_2017}. Y esto es un hecho que puede llevar al investigador a ciertos equívocos\cite{McGaghie_2010}\cite{Aydin_2016a}\cite{Tun_2015}. Un ejemplo de esta falta de uniformidad sucede en las pruebas de inicio tanto de fidelidad como de verificación/calibración/fiabilidad tecnológica, las cuales no siempre aparecen descritas con claridad en los trabajos de validación de simuladores. Y es por ello que en muchas ocasiones la validación comience directamente a partir de cualquiera de las estrategias subjetivas u objetivas. Así pues, Feinstein et al.\cite{A2001} Destacan la necesidad de proceder a una verificación/calibración/fiabilidad tecnológica en simuladores híbridos o virtuales antes de pasar a las estrategias de validación propiamente dichas.
Este aparente carácter de arbitrariedad en los trabajos de validación se destaca en revisiones como la realizada por Vedula et al.\cite{Vedula_2017} y Van Nortwick et al.\cite{Van_Nortwick_2010} En la cual confirman que una minoría de los trabajos de entrenamiento basado en simulación describen apropiadamente la Fiabilidad/Reproducibilidad (r) del método o sistema utilizado para registrar y procesar la actuación del usuario, bien sea automáticamente para híbridos y virtuales, o con tablas de evaluación con criterios, como en el caso de los físicos. Pensamos que esto puede relacionarse con que los simuladores ligados a tecnologías se les presupone una r=1 debido a su naturaleza independiente de la interpretación humana, por lo que muchos autores obvien detallar la (r) del simulador. Y aunque a priori esta máxima fiabilidad es propia de estos simuladores, no son infalibles, por lo que resulta imprescindible que sean sometidos al proceso previo de Verificación/Calibración/Fiabilidad tecnológica de sus elementos electrónicos o bien referenciarlo si ya superó esta prueba\cite{Pagador_2010}.
Teniendo en cuenta estos condicionantes podemos hacernos la pregunta de ¿en qué momento un simulador se considera validado? En base a los hitos del diagrama de la Figura 1 un simulador podría considerarse validado si al menos ha completado satisfactoriamente una validación de cualquiera de los dos grandes bloques de tipo objetivo, es decir, constructiva y/o concurrente\cite{Laguna2009}. En relación con esto, trabajos de metodología de validación de simuladores coinciden en que hay un consenso general sobre dichos mínimos, puesto que el 60% de los estudios de validación consideran necesario llegar hasta solo uno de los dos tipos de validez constructiva (constructiva, discriminativa y/o curva de aprendizaje), incluyendo normalmente también los de tipo subjetivo\cite{Van_Nortwick_2010}. A pesar de esto, la utilidad de un simulador o método de formación/evaluación quirúrgica no solo se ciñe a completar un número determinado de validaciones ya que idealmente debe acompañarse de una serie de características\cite{Aydin_2017}\cite{Laguna2009}\cite{Vedula_2017}: resultado satisfactorio del estudio de fiabilidad/reproducibilidad (r), proporcionar retroalimentación informativa al usuario (feedback), ofrecer un aprendizaje individualizado y con unos objetivos predeterminados (registros estandarizados) a alcanzar con tal de avanzar en la práctica de tareas superiores, y haber sido sometido a un proceso de validación suficientemente justificado en términos de participantes, amplitud y selección de los grupos de estudio, métodos estadísticos aplicados y comparaciones establecidas entre los resultados obtenidos. Desde nuestro punto de vista y en base a la bibliografía consultada, un ejemplo de cómo proceder a una adecuada validación de un simulador desde sus inicios hasta la predictiva es la realizada por Fried et al. Sobre el simulador físico FLS\cite{Fried2004}.
Además de los requisitos anteriores, un simulador puede interpretarse no solo en función de si cumple unas u otras estrategias de validez, sino que además podemos catalogarlo con capacidad formadora y/o evaluadora. Es decir, demostraría al menos capacidad formadora si completase hasta la validez constructiva propiamente dicha y diferenciase entre niveles de experiencia. Y por otra parte, sería también un método evaluador si demostrase ofertar unos niveles de corte a superar, además de ulteriores validaciones (curva de aprendizaje, concurrente, predictiva)\cite{19ilcj}\cite{van_Hove_2010}.