- En el caso de la validación discriminativa se analizan los resultados con mayor profundidad que en la validación anterior ya que entran en juego factores poblacionales (especialidad médica, año de residencia, etc.). En esta validación se cuestiona, por ejemplo, si la herramienta es capaz de distinguir entre residentes de distinto año.
- Por último, la curva de aprendizaje se define como la observación de la mejora de las habilidades motoras a medida que se repiten los ejercicios en el tiempo(34)\cite{Feldman_2009} y determina si las habilidades técnicas de los usuarios mejoran con la práctica repetida(35-37)\cite{Heinrichs2007}\cite{Verdaasdonk_2007}. Dicha mejora (Figura 2c) debería ajustarse al máximo a las siguientes cuatro condiciones:
- Primera condición: la curva descrita debería ser más acusada cuanto más inexperto sea el grupo.
- Segunda condición: al menos el grupo más inexperto debería tener una mejora significativa entre los intentos inicial y final.
- Tercera condición: conviene averiguar la ratio de aprendizaje de la tarea (learning rate curve, proficiency gain curve), es decir, en qué momento los registros de los grupos con menor experiencia se estabilizan en forma de meseta o plateau. Y, por otra parte, determinar también en qué momento coinciden los registros de los grupos menos expertos con los de los expertos. También la ausencia de diferencias significativas es preferible pero no obligatoria, permitiéndose por tanto algunas fluctuaciones en la curva ya que, como certifican Feldman et al.(34) \cite{Feldman_2009} algunos sujetos a menudo «fallan» después de los intentos iniciales, máxime si el estudio trata sobre tareas de carácter relativamente simple porque éstas tienen una menor capacidad discriminativa.
- Cuarta condición(35,38) \cite{Heinrichs2007}: los registros promedios del grupo de los expertos se interpretan para establecer en base a ellos unos niveles de corte que, caso de ser superados por el usuario, lo capacitarían para pasar a tareas más complicadas. La curva de aprendizaje, al igual que en la validación constructiva, puede analizarse de manera más pormenorizada, desglosada en dos fases: curva de aprendizaje global (a lo largo de las repeticiones continuadas) y curva de aprendizaje parcial (de cada tipo de objeto o tarea a lo largo de sus repeticiones).
En la validación de criterio, como última etapa del proceso de validación, se cotejan los resultados obtenidos en el simulador con los obtenidos en otra prueba, herramienta o método de referencia (gold standard)(39)\cite{Tavakol_2008}. Para ser considerado gold standard debería poseer suficientes validaciones previas. Se suele recurrir a los coeficiente de correlación de Pearson (r) ó Spearman (ρ), con rangos de -1 a +1, entre las puntuaciones en el simulador objeto de estudio frente a los registros del gold standard (simulador o cirugía en vivo). Y se considera una correlación aceptable si esta se sitúa entre ±0.4 y ±0.7(40)\cite{Aggarwal_2007} (Figuras 3a y b).
A su vez, la validación de criterio se divide en validación concurrente y predictiva(14, 39) \cite{Tavakol_2008} . Un ejemplo de validación concurrente es la realizada para el sistema de tracking EVA(41)\cite{Oropesa_2012}, comparando diez de sus parámetros con su gold standard (simulador híbrido TrEndo) y en el cual confirman la validez concurrente ya que el coeficiente de correlación ρ se situó entre aceptable o alto/muy en todos los parámetros comparados, excepto uno. Por otra parte la validación predictiva persigue demostrar hasta qué punto los parámetros registrados sobre el dispositivo permitirían predecir un rendimiento futuro(30)\cite{Fried2004}. De esta forma podría inferirse una transferencia de habilidades desde el simulador a la práctica real en el quirófano, siendo ésta la característica más deseable a alcanzar en todo simulador. Y aunque no existe una evidencia categórica de su capacidad para transferir el entrenamiento, los trabajos de revisión generalmente lo avalan(11,42-43) \cite{Aydin_2016a} \cite{Dawe_2014}. En los pocos casos no concluyentes de dicha transferencia de habilidades lo atribuyen a la ya citada poca estandarización de los estudios disponibles(44)\cite{Hogle_2009}. Este rendimiento futuro debería ser el último estadio de evaluación; y es el de mayor importancia clínica por ser el que más se asemejaría al ofrecido por el cirujano en la práctica quirúrgica habitual sobre pacientes. No obstante, tiene como desventaja ser la validación más tediosa y complicada de realizar(15, 45) \cite{Gallagher_2003} \cite{Matsuda_2012}.
CONCLUSIONES
La importancia de los simuladores quirúrgicos como métodos de entrenamiento y evaluación de habilidades técnicas es cada vez mayor, especialmente en disciplinas como la CL. De hecho en la actualidad el 62 % de los servicios que ofrecen docencia MIR en España disponen de este tipo de elementos(1)\cite{Moreno_Sanz_2014}. Así pues resulta imprescindible que la comunidad investigadora y las asociaciones médicas, encargadas de acreditar/certificar las habilidades médico-quirúrgicas, dispongan de herramientas de evaluación suficientemente validadas y fiables(27) \cite{19ilcj} . En concreto, los métodos disponibles para medir habilidades cognitivas/clínicas utilizan listas de puntuación para valorar competencias de conocimientos anatómicos, anestésicos o creación correcta del neumoperitoneo. Sin embargo, estos métodos no son apropiados para evaluar habilidades técnicas, siendo poco reproducibles y fiables. En otro bloque destaca la medición de las habilidades técnicas/psicomotrices, donde se encuadra la simulación quirúrgica. Los métodos más difundidos son los de observación directa con criterios específicos y predefinidos, destacando las tablas OSATS. Estas son una combinación de checklists (listas binarias de tipo 1/0 o Sí/No donde se valora la actuación de tareas concretas del cirujano) y de informes de puntuación global (GRS), que valoran maniobras quirúrgicas generales desde 0 a 5 puntos en una escala ordinal de tipo Likert. En el caso concreto de la evaluación de estas habilidades, desde 2005 existe un OSATS específicamente adaptado a CL denominado GOALS, al cual se suma un tercer examen en forma de escala analógica visual (VAS). En este último, el examinador evalúa competencias generales del cirujano estableciendo una marca sobre una línea recta de 10 cm. Otros métodos se apoyan en sistemas automatizados basados en ordenador o tecnologías, que abarcan sistemas de tracking o seguimiento corporal (análisis del movimiento del cirujano), o de la destreza de la mano (economía de movimientos), seguimiento de las pinzas o de la punta del instrumental durante el procedimiento, etc. Estos sistemas son considerados como más objetivos, y pueden formar parte estructural de los propios simuladores híbridos y virtuales o ser un complemento periférico de ellos. En otras ocasiones, sobre todo en el caso de los simuladores físicos, se puede realizar un cómputo de las penalizaciones acometidas durante el procedimiento que se quiere evaluar, en combinación con el tiempo empleado en realizar el ejercicio. Finalmente, en los últimos años ha suscitado interés el estudio de las llamadas habilidades no técnicas (NOTECHS, NOTSS, ORMAQ, TEAM). Estas escalas evalúan el comportamiento de quienes participan en el entorno quirúrgico. Dichas actuaciones no pueden incluirse en habilidades de destreza o de conocimientos ya que son aspectos relacionados con el trabajo en equipo, liderazgo o de comunicación interpersonal.
En relación con las metodologías de validación destacamos que en la actualidad la mayoría de ellas están disponibles solo en lengua inglesa. Este detalle debería ser tenido en consideración para este tipo de estudios científicos, tal y como sugiere Sanguedolce et al. En la validación lingüística en español de un cuestionario sobre calidad de vida del paciente urológico. En ella destaca la idoneidad de disponer de herramientas para la aplicación clínica o investigadora en nuestro idioma, entendido como segunda lengua más común del mundo(46).
Pero para que dichas herramientas sean consideradas útiles y fiables es necesario un correcto proceso de validación por medio de distintas estrategias. Y a pesar de disponer de una metodología para ello (Figura 1), determinar en qué momento un simulador se puede considerar validado puede estar sujeto a cierta arbitrariedad o a una incompleta estandarización de la metodología seguida en función de la referencia científica que se consulte(14-15, 47)\cite{Gallagher_2003}, representando un hecho que puede llevar al investigador a ciertos equívocos(12-13, 44) \cite{McGaghie_2010} \cite{Hogle_2009}. Un ejemplo de esta falta de uniformidad es lo ocurrido en las pruebas de inicio tanto de fidelidad como de verificación/calibración/fiabilidad tecnológica en las que no siempre están descritas de manera explícita en los trabajos de validación de simuladores. Y es por ello ver con frecuencia que las validaciones comiencen directamente a partir de las estrategias de validación subjetivas u objetivas. Así pues, Feinstein et al. Destacan la necesidad de proceder a una verificación/calibración/fiabilidad tecnológica en simuladores híbridos o virtuales antes de pasar a las estrategias de validación propiamente dichas(17) \cite{A2001}.
Este aparente carácter de arbitrariedad en los trabajos de validación queda patente a través de revisiones como la realizada por Van Nortwick et al.(21) \cite{Van_Nortwick_2010} En la cual confirman que una minoría de los trabajos de entrenamiento basado en simulación describen apropiadamente la Fiabilidad/Reproducibilidad (r) del método o sistema utilizado para registrar y procesar la actuación del usuario, bien sea automáticamente como en los híbridos y virtuales, o con tablas de evaluación con criterios, como en el caso de los físicos. Pensamos que esto puede relacionarse con que los simuladores basados en tecnologías (híbridos o virtuales) se les presupone una r=1 debido a su naturaleza independiente de la interpretación humana, por lo que muchos autores obvien detallar la (r) del simulador. Y aunque a priori esta máxima fiabilidad es propia de estos simuladores, no son infalibles por lo que resulta imprescindible que sean sometidos al proceso previo de Verificación/Calibración/Fiabilidad tecnológica de sus elementos electrónicos o bien referenciarlo si ya superó esta prueba(18) \cite{Pagador_2010}.
Teniendo en cuenta estos condicionantes podemos hacernos la pregunta de ¿en qué momento un simulador se considera validado? En base a los hitos del diagrama de la Figura 1 un simulador podría considerarse validado si al menos ha completado satisfactoriamente una validación de cualquiera de los dos grandes bloques de tipo objetivo, es decir, constructiva y/o concurrente(48)\cite{Laguna2009} En relación con esto, trabajos de metodología de validación de simuladores coinciden en que hay un consenso general sobre dichos mínimos, puesto que el 60% de los estudios de validación consideran necesario llegar hasta solo uno de los dos tipos de validez constructiva (constructiva, discriminativa y/o curva de aprendizaje), incluyendo normalmente también los de tipo subjetivo(21) \cite{Van_Nortwick_2010}. A pesar de esto, la utilidad de un simulador o método de formación/evaluación quirúrgica no solo se ciñe a completar un número determinado de validaciones ya que idealmente debe acompañarse de una serie de características(29,48) \cite{Aydin_2017} \cite{Laguna2009} resultado satisfactorio del estudio de fiabilidad/reproducibilidad (r), proporcionar retroalimentación informativa al usuario (feedback), ofrecer un aprendizaje individualizado y con unos objetivos predeterminados (registros estandarizados) a alcanzar con tal de avanzar en la práctica de tareas superiores, y haber sido sometido a un proceso de validación suficientemente justificado en términos de participantes, amplitud y selección de los grupos de estudio, métodos estadísticos aplicados y comparaciones establecidas entre los resultados obtenidos. Desde nuestro punto de vista y en base a la bibliografía consultada, un ejemplo de cómo proceder a una adecuada validación de un simulador desde sus inicios hasta la predictiva es la realizada por Fried et al. Sobre el simulador físico FLS(30) \cite{Fried2004}.
Además de los requisitos anteriores, un simulador puede interpretarse no solo en función de si cumple unas u otras estrategias para saber su validez, sino que podemos averiguar si además el simulador, método, etc. está dotado de capacidad formadora y/o evaluadora. Es decir, demostraría al menos capacidad formadora si completase hasta la validez constructiva propiamente dicha (diferenciación entre niveles de experiencia). Y por otra parte, se consideraría también un método evaluador si demostrase unos apropiados niveles de corte, además de ulteriores validaciones (curva de aprendizaje, concurrente, predictiva)(27, 49) \cite{19ilcj} \cite{van_Hove_2010}.
Concluimos por tanto que la extensa bibliografía de validación de simuladores no está exenta de importantes mejoras futuras, todas ellas encaminadas a (50) \cite{Vedula_2017}: subsanar su falta de uniformidad para facilitar las labores investigadoras, generalizar una adecuada formación/evaluación de las habilidades de los cirujanos mediante el cumplimiento de requisitos mínimos estandarizados en cada estudio de validación, y lo más importante, transferir eficazmente al quirófano las habilidades practicadas para disminuir errores evitables y aumentar la seguridad del paciente.