🤖 Qué es ChatGPT y cómo funciona realmente

Ene este apartado vamos a ilustrar cómo el paso por estas capas refina las representaciones token a token, y por qué la selección de hiperparámetros—como el tamaño de embedding o la profundidad de la red—impacta directamente en la capacidad de abstracción y en el coste computacional.

La fase de preentrenamiento, basada en el objetivo de modelado de lenguaje autoregresivo, implica exponer al modelo a enormes cantidades de texto para minimizar la pérdida de predicción de tokens. Aquí, no basta con detallar que “se entrena con internet”; hay que describir cómo se aplican máscaras de tokens, cómo se programa la tasa de aprendizaje y por qué se utilizan técnicas de regularización como dropout en atención y en las capas feed-forward para evitar el sobreajuste. Este conocimiento es imprescindible para quienes desean ajustar modelos en fine-tuning o en entornos de transferencia de aprendizaje.

Finalmente, el capítulo debe abordar la fase de ajuste (fine-tuning) y la alineación con refuerzo sobre retroalimentación humana (RLHF). Explicar el flujo de trabajo de RLHF: (1) recolección de pares de respuestas preferidas, (2) entrenamiento de un modelo de preferencia, y (3) optimización mediante Proximal Policy Optimization (PPO). Esta sección es vital para comprender cómo ChatGPT aprende a priorizar respuestas útiles y aconsejables, reduciendo alucinaciones y comportamientos inadecuados. Sin este trasfondo, cualquier intento de personalización o ajuste profundo quedará huérfano de rigor.

Tabla de contenidos

Capítulo 2: Ingeniería de prompts con conciencia de tokens y dinámicas de temperatura

Entender el sistema de tokens es esencial para maximizar la eficiencia de ChatGPT. Cada palabra, signo de puntuación o símbolo se descompone en subunidades (subtokens) a través de un algoritmo BPE (Byte Pair Encoding). El formador debe exponer cómo analizar la tokenización de un prompt específico—por ejemplo, “¿Cuáles son las diferencias entre atención y feed-forward?”—para contabilizar tokens y evitar recortes de contexto no deseados. Presentar estrategias para reducir tokens ineficientes, como sustituir expresiones verbose por sinónimos de subtoken corto y usar listas o viñetas cuando proceda.

La temperatura controla el grado de aleatoriedad en la muestra: valores cercanos a 0 generan respuestas determinísticas, mientras que temperaturas altas (por encima de 0.8) introducen diversidad. En un entorno de desarrollo, esto implica aprender a ajustar la temperatura según la fase: durante prototipado puede ser elevada para explorar formulaciones creativas, pero en producción de documentación técnica debe bajar para asegurar coherencia y reproducibilidad. El capítulo debe incluir ejemplos prácticos: generar dos respuestas al mismo prompt con T=0.2 y T=0.8, comparando la variabilidad y el nivel de precisión.

El parámetro “top_p” (muestreo por núcleo) y “top_k” complementan a la temperatura. El formador explica cómo aplicar “top_p=0.9” para incluir siempre los subtokens que acumulan el 90 % de la probabilidad, reduciendo la cola larga de tokens de baja probabilidad. Presentar comparativas de resultados al ajustar estos parámetros: mostrar un cuadro comparativo donde el prompt “Resume el proceso de RLHF” produzca diferentes longitudes, riqueza terminológica y estabilidad según top_p y top_k.

El uso estratégico de “max_tokens” y “stop_sequences” permite controlar la extensión y el punto de corte de la generación. En un caso de uso real, un equipo puede necesitar que la respuesta no exceda 150 tokens y termine tras una palabra clave como “[FIN]”. El formador detallará cómo integrar estas opciones en la llamada API y cómo gestionar errores de recorte involuntario (truncate) para evitar perder conclusiones críticas.

Por último, se introduce la noción de “system messages” en Chat Completions: instrucciones de nivel superior que definen el rol del asistente. Un buen diseño de system prompt puede reducir la necesidad de repetir contexto en cada mensaje. El capítulo concluye explicando cómo redactar un system message robusto para un asistente especializado en finanzas: debe incluir el tono, la estructura de salida y las restricciones de cumplimiento normativo, integrando ejemplos de redacción óptima.

Capítulo 3: Anatomía de las alucinaciones y protocolos de detección temprana

La aparición de información sin base real, conocida como alucinación, se origina en el objetivo autoregresivo de predicción de tokens: ante contextos ambiguos o insuficientes, el modelo extrapola patrones inferidos del entrenamiento, completando con contenido plausible pero erróneo. Para diagnosticar este fenómeno, el formador debe exponer estrategias de diseño de prompts que incluyan señales de verificación interna, como pedir “cita la fuente” o “enumera los pasos de razonamiento”. Estas señales no generan fuentes reales, pero permiten identificar cuándo el modelo salta a conclusiones sin datos explícitos.

Un método sistemático de detección consiste en solicitar explicaciones en cadena de pensamiento (chain-of-thought): al pedir “explica paso a paso cómo llegaste a esa cifra”, el usuario expone la lógica interna del modelo y puede detectar saltos no fundamentados. El formador introduce formatos de prompt como:

“Desglosa tu respuesta en pasos numerados, indicando en cada paso la base de datos o conocimiento que respaldas.”

Este patrón de prompt, si bien aumenta el consumo de tokens, ofrece una vista crítica de la cadena de razonamiento, permitiendo aislar las etapas donde el modelo “inventa” información.

Para mitigar alucinaciones, se entrenan ajustes de estilo de respuesta en fine-tuning con datos donde las respuestas vacías o “no lo sé” son preferidas a especulaciones. El formador debe guiar en la creación de conjuntos de datos de ejemplos negativos: conversaciones donde la pregunta cae fuera de dominio y la respuesta correcta es indicar falta de información. Este proceso de refuerzo enseña al modelo a evitar rellenos inventados.

En producción, es esencial implementar filtros automáticos de coherencia: scripts que comparen entidades nombradas en la respuesta con bases de datos externas o APIs confiables. Por ejemplo, un webhook que verifique fechas históricas contra una API de Wikipedia. El formador detalla cómo estructurar un pipeline de validación, desde la extracción de entidades con expresiones regulares hasta la llamada API y el marcado de respuestas dudosas.

Finalmente, se introduce la práctica de “redundancia controlada”: enviar el mismo prompt con pequeñas variaciones y comparar las respuestas para detectar inconsistencias. Si dos ejecuciones generan datos distintos, se marca la respuesta para revisión humana. Esta técnica mejora la robustez del sistema y forma al usuario en métodos de aseguramiento de calidad adaptados a modelos generativos.

Capítulo 4: Orquestando flujos de trabajo: encadenamiento de prompts y herramientas externas

Construir procesos automáticos con ChatGPT implica orquestar múltiples llamadas al API y conectarlas con sistemas ETL, bases de datos o aplicaciones low-code. El formador debe desglosar la estructura de un pipeline típico: (1) ingesta de datos de entrada, (2) preprocesamiento y formateo en prompt, (3) llamada a ChatGPT, (4) postprocesamiento de la respuesta, (5) integración en el sistema de destino. Cada etapa requiere código de ejemplo —por ejemplo, en Python— y muestras de JSON de request/response.

En la fase de ingesta, es habitual recibir datos sin limpiar: textos largos, formatos inconsistentes, valores nulos. El prompt de preprocesamiento puede automatizarse con un primer llamado a ChatGPT: “Estandariza este texto en un JSON con campos ‘título’, ‘contenido’ y ‘metadatos’.” El formador demuestra cómo incluir instrucciones de validación de esquema OpenAPI y cómo usar librerías como jsonschema para verificar la conformidad del output.

El encadenamiento de prompts se basa en patrones de feedback loop: la respuesta de un prompt alimenta el siguiente. Por ejemplo, tras extraer temas clave de un artículo, se envían esos temas a un prompt de clasificación de sentimiento o priorización. El formador expone un ejemplo de código en Node.js donde una función chainPrompts(inputs) orquesta llamadas en serie, maneja errores y controla límites de tasa (rate limiting) con backoff exponencial.

Para integrar herramientas externas, se utilizan plugins o connectors: por ejemplo, conectar ChatGPT a una hoja de cálculo de Google Sheets vía Google Apps Script. El formador detalla cómo configurar las credenciales OAuth, escribir un script que envíe prompts con datos de cada fila y escriba la respuesta en otra columna, gestionando la concurrencia y evitando bloqueos por límites de API.

Una pieza clave es la monitorización de flujos: registrar métricas de latencia, tokens consumidos y tasa de error. El formador ilustra cómo instrumentar un dashboard con Prometheus y Grafana, exportando métricas desde el código que envuelve las llamadas a ChatGPT, y definir alertas de umbral cuando el consumo de tokens exceda lo previsto.

Por último, se enseña a documentar los pipelines con OpenAPI/Swagger y a versionar los prompts críticos como “promptfunctions” en repositorios de código, aplicando control de versiones y code reviews. De esta manera, los equipos avanzados mantienen trazabilidad de cambios en prompts y pueden revertir ajustes que degradan la calidad del workflow.

📕 Guía completa de contenidos sobre Aprende a usar ChatGPT

Todas las clases sobre: ✅ Aprende a usar ChatGPT

Ver catálogo del curso Aprende a usar ChatGPT