El jueves, OpenAI, creador de ChatGPT, presentó o1, una nueva serie de modelos de inteligencia artificial generativa que puede razonar y responder preguntas complejas, como problemas matemáticos avanzados.
A diferencia de versiones anteriores, estos modelos están diseñados para mejorar su razonamiento, probar distintos enfoques y detectar errores antes de entregar una respuesta definitiva.
Sam Altman, director ejecutivo de OpenAI, calificó los modelos como "un nuevo paradigma: una IA capaz de realizar razonamientos complejos de propósito general", aunque reconoció que la tecnología "todavía presenta limitaciones, es imperfecta y tiende a impresionar más al inicio que con un uso prolongado".
Rendimiento de los modelos
Respaldada por Microsoft, OpenAI señaló que en pruebas, los modelos rindieron a un nivel comparable al de estudiantes de doctorado en áreas como física, química y biología. También destacaron en matemáticas y programación, logrando un 83% de aciertos en un examen de calificación para la Olimpiada Internacional de Matemáticas, frente al 13% de GPT-4o, el modelo de uso general más avanzado.
En un concurso de matemáticas para estudiantes de secundaria en EE. UU., o1 se situó "entre los 500 mejores".
OpenAI explicó que "al igual que un ser humano que puede pensar largo tiempo antes de contestar una pregunta difícil, o1 sigue una cadena de razonamiento, aprende a identificar y corregir errores, desglosa problemas complejos en pasos más simples y cambia de enfoque cuando el actual no da resultados".
La compañía afirmó que las capacidades mejoradas de razonamiento pueden ser útiles para que investigadores médicos analicen datos de secuenciación celular, físicos generen fórmulas complejas y desarrolladores informáticos diseñen proyectos en múltiples fases.
Asimismo, indicó que los nuevos modelos son más resistentes a intentos de eludir los sistemas de seguridad, destacando acuerdos recientes con los Institutos de Seguridad de IA de EE. UU. y Reino Unido, que tuvieron acceso anticipado a los modelos para su evaluación.
Comments