Progresando adecuadamente con Claude 3

Imagen generada por IAG: una profesora pone un examen a un alumno robot
“Hazme una imagen de un profesor de Física haciendo un examen a un alumno que sea un robot positrónico de los de las novelas de Isaac Asimov”. Imagen generada por Microsoft Copilot

 

Llevo una temporada jugando con ChatGPT 3.5 (aquí, aquí y aquí) y con Copilot (aquí y aquí y aquí) en entornos de docencia e investigación universitaria. Sin ánimo de repetirme, me limito aquí a recordar lo mucho que me han decepcionado. No es que esperase algo tipo HAL-9000… mira sí, esperaba a HAL-9000, o al ordenador de a bordo de Star Trek, y de momento mi experiencia con las IAG se queda lejos de lo que deseo.

Pero creo que las cosas sólo pueden ir a mejor: más potencia, más exactitud, más de todo. Acabamos de empezar, y yo sólo estoy calentando, así que no me rindo. Y aprovechando que Claude acaba de permitir su uso en la Unión Europea, me ha faltado tiempo para probarlo. Es la versión gratuita, disponible en claude.ai. Me dicen por el pinganillo que es la versión Claude 3 Sonnet.

El registro es sencillo: dices tu país, das un número de móvil, te envían un código y lo metes. Ya está. No es que me guste que se hayan quedado con mi información de móvil, y como soy pobre tengo que recibir un código de uso temporal que me permite un número limitado de preguntas, pero por lo demás bien. Hay una versión de pago, claro, pero de momento sólo quiero usar el nuevo juguete.

Me gusta que se moleste en recordarme que compruebe sus respuestas por si acaso, que no tiene conexión a Internet y que los enlaces que proporciona pueden no estar actualizados. Es refrescante que la propia IAG te diga que es falible. También me gusta que pase a hablarme en español (comenzó en inglés) cuando se lo pedí.

Sometí a Claude a las mismas pruebas que a sus primos ChatGPT3.5 y Copilot. En esta ocasión voy a resumir las interacciones y sintetizarlas en un solo post. Se trata de una evaluación en tres fases: preparar un TFG, buscar una referencia bibliográfica y pasarle un examen.

1) El borrador del Trabajo de Fin de Grado (TFG)

Le pedí a Claude lo siguiente:

Necesito una propuesta, en mil palabras o menos, para un Trabajo de Fin de Grado universitario correspondiente al Grado en Química. Debe centrarse en el uso de teléfonos móviles (smartphones) usado como plataforma de sensores en aplicaciones de Física, concretamente de Electromagnetismo. La propuesta deberá incluir un apartado de Descripción General (resumen y metodología), uno de Objetivos Planeados, uno de Bibliografía Básica (con al menos seis referencias bibliográficas, lo que puede incluir enlaces online) y finalmente uno de Recomendaciones y Orientaciones para el Estudiante.

Esto es algo que también le pedí en el pasado a ChatGPT3.5 y Copilot. No hice un post de ello, pero por lo general me quedé decepcionado. La parte de relleno (descripción, objetivos y recomendaciones) bien, pero las referencias bibligráficas se las inventaban. Peor aún, Copilot se limitó a copiar una propuesta que yo mismo hice el curso anterior y que se guarda en algún lugar de la web de mi Universidad.

¿Cómo lo hico Claude? Pues también hubo de todo. Su propuesta incluyó diseñar una aplicación para móvil, cosa que no le había pedido, así que en eso demostró inventiva. En lo de las referencias, de nuevo falló. A primera vista parecían legítimas, con su código doi y todo, pero al comprobarlas resulta que no existen o que enlazan a otros artículos. Parece que eso de las referencias científicas se les resiste a las IAGs, al menos a las tres que he comprobado. Al menos, Claude me añade el disclaimer habitual (“los enlaces proporcionados pueden no ser exactos o estar actualizados”), y le agradezco el recordatorio.

2) La búsqueda del artículo

Tanto a ChatGPT3.5 (aquí) como a Copilot (aquí) les pedí que me buscasen un artículo científico de mi especialidad:

Necesito la referencia del artículo original sobre dispersión de luz de Mie de 1908

Me la dio, y como me pasó con los otros dos, me la dio mal. No es culpa suya. Como ya expliqué, lo que sucede es que ese artículo ha sido citado de dos formas, una de ella incorrecta. Cuando le dije que había un fallo, hizo lo típico: me dio la razón y las gracias, y pasó a darme la referencia buena. A continuación volví a pedírsela, y volvió a dármela… mal. Ñaca, ya estamos con los problemas de memoria de pez.

Cuando le pedí copias del artículo en español y alemán, volvió a fallar. La copia en español no existía (quizá era un enlace viejo) y el enlace a la copia alemana me dirigió a un artículo distinto.

No puedo generalizar mucho con mi experiencia de tres IAGs, pero las tres tienen el mismo problema: las referencias bibliográficas se le dan fatal. Me han contado que hay IAGs especializadas que hacen mucho mejor trabajo. Vale, pues tendré que buscarme una de esas, porque ya sé que a las genéricas no se les da bien.

3) El examen de Física

Pero soy un profe de Física, así que vamos a lo que me interesa: ¿podría Claude aprobar uno de mis exámenes? Le puse el mismo examen que hicieron mis alumnos, y sólo recordaré que la experiencia que tuve tanto con ChatGPT 3.5 (aquí) como con Copilot (aquí) fue decepcionante: sacaron un 2 y 1,5 respectivamente. Suspenso clamoroso.

¿Podrá hacerlo mejor Claude?

Vamos allá. Son cuatro cuestiones de teoría (1 punto cada una) y tres problemas (2 puntos cada uno). Iré ligero y no incluiré toda la interacción.

Teoría 1: La fuerza que actúa sobre un objeto se anula de repente. Como consecuencia, el cuerpo a) se detiene de inmediato, b) se detiene pasado un cierto tiempo, c) cambia de dirección, d) continúa a velocidad constante, o e) cambia de sentido. Escoja la respuesta y razónela.

Esta pregunta la falló ChatGPT3.5 pero Copilot la acertó (es la d). También Claude me dio una respuesta acertada. Aludió a la primera ley de Newton y me dio una explicación impecable. Comenzamos bien. Un punto.

Teoría 2: Si la expresión de la Ley de Gravitación Universal fuese F=GM2m/r3 ¿cuáles serían las dimensiones de G y su unidad en el Sistema Internacional?

ChatGPT3.5 y Copilot fallaron, Claude también, pero en esta ocasión el fallo fue tonto. Después de un razonamiento correcto, hace algo del tipo “despejo y sale a2*a=a”. Es uno de esos fallos tontos que te hacen quedar mal. Como no dio la respuesta correcta pero mostró que sabía lo que hacía, le pongo medio punto.

Teoría 3:

Hace falta un trabajo W para estirar un muelle 1 cm respecto a su estado de equilibrio. ¿Cuánto trabajo será necesario para estirar el mismo muelle otros 2 cm?

Para hacer bien este problema tienes que saber qué es el trabajo de una fuerza, cómo obtenerlo, y luego aplicarlo correctamente. Casi todos mis alumnos fallaron esta pregunta, así como ChatGPT3.5 y Copilot. Claude, por el contrario, lo hizo perfectamente bien. Ni el menor fallo. Un punto, por supuesto.

Teoría 4:

Si la Tierra se convirtiese de repente en una esfera hueca, ¿cuál sería su nuevo período de rotación? M=6*10^24 kg, T=24h, R=6370 km.

Momentos de inercia, conservación del momento angular, velocidad angular, todo bien… pero la solución no es correcta. Vaya, hombre, con lo bien que íbamos. Seguro que se equivocó con los momentos de inercia. Pero no, están bien. Qué raro. No entiendo  qué pasa. Sigo mirando, hago cálculos, y averiguo cuál es el problema: Claude ha cometido un error de multiplicación, pone las cantidades correctas pero le sale un número equivocado. Es como si tuviera la calculadora estropeada. Eso se hubiera resuelto si no hubiera hecho como los demás alumnos, que es sustituir al principio en lugar de al final. Es un truco que les enseño para evitar ese tipo de errores. En cualquier caso la cuestión estaba correctamente planteada, así que le doy medio punto.

Tres puntos sobre cuatro. En este punto me estaba haciendo ilusiones de que Claude podría ser una alumna prometedora, pero no es la primera vez que me llevo un chasco (sí, Copilot, estoy hablando de ti). ¿Cómo pasará Claude de la teoría a la práctica?

Problema 1:

Una grúa levanta una carga de ladrillos a una velocidad de 8 m/s. Al llegar a 25 metros de altura, uno de los ladrillos se desprende de la carga y cae al suelo. Determine el tiempo que tarda el ladrillo en llegar al suelo y la velocidad con que lo hace.

ChatGPT3.5 medio acertó, Copilot falló. Claude lo hizo bien salvo que resolvió una ecuación cuadrática de forma incorrecta. La verdad es que la planteó bien pero al sustituir valores obtuvo números erróneos. Le sugerí que revisase la ecuación cuadrática, y ahora sí, resultados correctos. Otra vez el problema de la calculadora estropeada. A un alumno le hubiera dado la nota casi completa, pero como le di una pista lo voy a dejar en un punto, la mitad de la nota de este problema. Quizá sea algo estricto, pero tampoco quiero mostrar favoritismo. Cielos, ya estoy hablando como si fuesen alumnos de carne y hueso.

Problema 2:

Un halcón peregrino de 1,5 kg de masa vuela a 110 km/h cuando choca con un bebé elefante de 500 kg que se encuentra en reposo. Halle la velocidad del elefante tras el choque, suponiendo a) colisión elástica, b) colisión inelástica. ¿En cuál de los dos tipos de colisiones será más alta la velocidad final del halcón?

ChatGPT3.5 y Copilot fallaron. Claude se manejó bien en la colisión inelástica pero falló en la elástica. Intentó resolver un sistema de dos ecuaciones, una de ellas con elementos elevados al cuadrado, y se equivocó. Le concedo que al menos intentó obtener las ecuaciones en lugar de limitarse a memorizarlas y usarlas, que es lo que mis alumnos suelen hacer. Le indiqué que le echase otro vistazo pero volvió a fallar. Bueno, media respuesta es mejor que cero respuestas. Un punto.

Problema 3:

Un objeto de 2 kg de masa situado al extremo de un muelle de constante recuperadora K=3500 N/m pierde el 2% de su energía en cada oscilación. Determine el valor del período, la constante de tiempo y el factor de calidad.

Esto fue interesante. Falló, pero no falló. Resulta que hay dos formas de definir la constante de tiempo, y no usó la que yo suelo enseñar. Eso no es malo por sí. De hecho, le pedí que rehiciese el problema con la definición mía, y lo hizo. El problema es que nuevamente tenemos el problema de la calculadora chunga. Mira que me incomoda esto cuando corrijo exámenes. Es como un penalti: se pone en posición, toma carrerilla mientras yo grito por dentro “vamos, remata”, dispara… y el balón se sale por la escuadra. Lástima. En fin, el problema estaba bien planteado y se nota que se sabe la lección. En esas circunstancias yo me niego a quitarle nota a un alumno con base de carbono, así que me regiré por la misma regla. Dos puntos

El resultado fue: 3 puntos en teoría, 4 puntos en teoría. Total: 7. Notable.

Es posible que, según fije mi propio nivel de rigor, evaluase a un alumno con una nota algo menor o mayor, pero creo que he sido justo. Y es algo impresionante. Vale, siete en un examen de Física sencillito no es para entrar en el MIT, pero después de lidiar con el pelotón de los torpes digitales, estoy encantado de ver que un alumno se luzca. Al menos hay una IAG medianamente fiable para que un alumno pueda entrenarse para los exámenes, por no hablar de buscar y resolver problemas y cuestiones teóricas.

Si mis alumnos son espabilados, creo que Claude les irá bien. Yo, al menos, puedo recomendarla con un cierto grado de fiabilidad.

Conclusión

Ya estamos en lo de sacar conclusiones, Arturo. Como de costumbre, generalizar a partir de tan pocos datos es arriesgado, por no decir poco honrado. Aun así, ahí va lo que he aprendido de Claude: falla en las recopilaciones bibliográficas, hace trabajos burocráticos razonablemente bien, y en cuanto a conocimiento para examen diría que progresa adecuadamente. Salvo cambios en ChatGPT3.5 y Copilot, creo que voy a fiarme más de Claude que de esos dos.

Claro que si algún sitio donde se aplique eso de nunca digas nunca jamás, es en las IAG. Hoy mismo acaba de anunciarse la existencia de ChatGPT4o, y tiene a todo el gallinero revolucionado. Estoy deseando echarle mano.

[PD: para rematar el post, le he pedido a Copilot que me haga la imagen. Ya que no sabe de Física, que al menos se gane el sueldo como dibujante]

 

Que corra la noticia

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.