Glosario de Inteligencia Artificial

A 5 términos

Algoritmo A

Conjunto finito de instrucciones o reglas que, ejecutadas en orden, resuelven un problema o realizan una tarea específica. En el contexto de la IA, los algoritmos definen cómo un sistema aprende de datos y hace predicciones. Ejemplos: árboles de decisión, regresión lineal, retropropagación.

Aprendizaje automático A

Subdisciplina de la inteligencia artificial que desarrolla sistemas capaces de aprender y mejorar su rendimiento en tareas específicas a partir de datos, sin ser programados explícitamente con reglas para cada caso. Término equivalente al inglés "machine learning".

Aprendizaje por refuerzo A

Paradigma de machine learning donde un agente aprende a tomar decisiones interactuando con un entorno. El agente recibe recompensas o penalizaciones por sus acciones y ajusta su comportamiento para maximizar la recompensa acumulada a largo plazo. Usado en robótica, juegos y control de sistemas.

Alucinación A

Fenómeno en modelos de lenguaje de gran escala (LLMs) donde el sistema genera información que parece coherente y verosímil pero es factualmente incorrecta o inventada. Ocurre porque los LLMs predicen texto estadísticamente plausible, no texto verificado como verdadero.

Arquitectura Transformer A

Arquitectura de red neuronal propuesta en 2017 en el paper "Attention is All You Need" que se convirtió en la base de prácticamente todos los modelos de lenguaje de gran escala modernos. Su componente central es el mecanismo de atención multi-cabeza, que permite al modelo establecer relaciones entre cualquier par de tokens en una secuencia.

B 3 términos

Batch (lote) B

Subconjunto del conjunto de entrenamiento que se usa para una actualización de los pesos de la red neuronal. El entrenamiento por lotes (mini-batch gradient descent) es más eficiente computacionalmente que el procesamiento de un ejemplo a la vez o de todos los datos de golpe.

Backpropagation (retropropagación) B

Algoritmo fundamental para entrenar redes neuronales. Calcula el gradiente de la función de pérdida respecto a cada peso de la red propagando el error de la salida hacia las capas anteriores, usando la regla de la cadena del cálculo diferencial.

Benchmark B

Conjunto estandarizado de pruebas o tareas usado para evaluar y comparar el rendimiento de modelos de IA. Ejemplos comunes: MMLU (razonamiento general), HumanEval (código), SQuAD (comprensión lectora). Los benchmarks permiten comparaciones objetivas entre modelos.

C 5 términos

Clasificación C

Tarea de machine learning en la que el modelo asigna una entrada a una de varias categorías predefinidas. Ejemplo: clasificar un correo como "spam" o "no spam", o identificar si una imagen contiene un gato, un perro o un pájaro.

Capa (layer) C

En redes neuronales, conjunto de neuronas artificiales que procesan información en paralelo. Las capas se apilan en secuencia; las primeras aprenden características simples (bordes en una imagen), las más profundas aprenden características complejas (rostros, objetos).

Clustering (agrupamiento) C

Tarea de aprendizaje no supervisado que agrupa datos en clusters (grupos) basándose en su similitud, sin etiquetas previas. Algoritmos comunes: K-means, DBSCAN, clustering jerárquico. Usado en segmentación de clientes, detección de anomalías y análisis exploratorio.

CNN (Red Neuronal Convolucional) C

Arquitectura de red neuronal especialmente eficaz para procesar datos con estructura espacial como imágenes. Usa capas de convolución que aprenden filtros locales, lo que les da invariancia traslacional y eficiencia paramétrica.

Contexto (ventana de contexto) C

En modelos de lenguaje, la cantidad máxima de tokens que el modelo puede considerar simultáneamente al generar una respuesta. Modelos con ventanas de contexto más amplias pueden procesar documentos más largos y mantener coherencia en conversaciones extensas.

D 3 términos

Dataset (conjunto de datos) D

Colección organizada de datos usada para entrenar, validar o evaluar un modelo de IA. La calidad, cantidad y diversidad del dataset es uno de los factores más determinantes en el rendimiento del modelo resultante.

Deep Learning (aprendizaje profundo) D

Subconjunto del machine learning que usa redes neuronales con múltiples capas ("profundas") para aprender representaciones jerárquicas de los datos. Responsable de los avances más significativos en visión por computadora, procesamiento de lenguaje natural y síntesis de audio.

Difusión (modelos de) D

Familia de modelos generativos que aprenden a crear datos (imágenes, audio) mediante un proceso de eliminación gradual de ruido. Son la base de sistemas como DALL-E 3, Stable Diffusion y Midjourney. Superaron a los GANs en calidad y estabilidad para generación de imágenes.

E 4 términos

Embedding (incrustación) E

Representación numérica densa de datos (palabras, frases, imágenes, usuarios) en un espacio vectorial de alta dimensión donde la distancia entre vectores refleja similitud semántica o funcional. Los embeddings son fundamentales en sistemas de recomendación, búsqueda semántica y modelos de lenguaje.

Entrenamiento supervisado E

Paradigma de machine learning donde el modelo aprende a partir de un conjunto de datos etiquetados: pares de entrada y salida esperada. El modelo ajusta sus parámetros para reducir la diferencia entre sus predicciones y las etiquetas correctas.

Época (epoch) E

Una pasada completa por todo el conjunto de datos de entrenamiento durante el proceso de aprendizaje del modelo. Los modelos suelen entrenarse durante múltiples épocas, aunque demasiadas pueden llevar a sobreajuste.

Ética en IA E

Campo interdisciplinario que estudia las implicaciones morales, sociales y políticas del desarrollo y despliegue de sistemas de inteligencia artificial. Incluye temas como sesgo algorítmico, transparencia, explicabilidad, privacidad, autonomía de sistemas y distribución justa de beneficios y riesgos.

F 3 términos

Fine-tuning (ajuste fino) F

Técnica de transferencia de aprendizaje donde un modelo preentrenado en un dataset grande se entrena adicionalmente con un dataset más pequeño y específico para adaptarlo a una tarea o dominio particular. Mucho más eficiente que entrenar desde cero.

Foundation Model F

Modelo de IA de gran escala entrenado en enormes cantidades de datos no etiquetados que puede adaptarse a una amplia variedad de tareas mediante fine-tuning o prompting. Ejemplos: GPT-4, BERT, Llama, CLIP.

Función de pérdida F

Función matemática que mide qué tan lejos están las predicciones del modelo de los valores reales esperados. El entrenamiento consiste en minimizar esta función mediante optimización. Ejemplos: error cuadrático medio (MSE), entropía cruzada.

G 3 términos

GAN (Red Generativa Antagónica) G

Arquitectura de deep learning donde dos redes neuronales (un generador y un discriminador) compiten entre sí: el generador intenta crear datos falsos que parezcan reales; el discriminador intenta distinguir los reales de los falsos. El proceso adversarial produce generadores de datos sintéticos de alta calidad.

Gradiente descendente G

Algoritmo de optimización iterativo que actualiza los parámetros del modelo en la dirección contraria al gradiente de la función de pérdida. Es el método de optimización fundamental en el entrenamiento de redes neuronales.

GPU (Unidad de Procesamiento Gráfico) G

Procesador diseñado originalmente para gráficos pero adaptado para el entrenamiento de redes neuronales por su capacidad de ejecutar millones de operaciones matriciales en paralelo. El acceso a GPUs potentes es uno de los factores que más limita la democratización del entrenamiento de modelos de IA.

H 2 términos

Hiperparámetro H

Parámetro de configuración de un algoritmo de machine learning que se establece antes del entrenamiento y no se aprende de los datos. Ejemplos: tasa de aprendizaje, número de capas de una red, tamaño del lote. La búsqueda de hiperparámetros óptimos se llama "hyperparameter tuning".

Hugging Face H

Plataforma y comunidad de código abierto que ha democratizado el acceso a modelos de IA preentrenados. Su biblioteca Transformers permite a desarrolladores usar y ajustar modelos como BERT, GPT-2 o Llama sin tener que entrenarlos desde cero.

I 2 términos

Inferencia I

Proceso de usar un modelo de IA ya entrenado para hacer predicciones sobre nuevos datos. Se distingue del entrenamiento en que los pesos del modelo no se actualizan. La velocidad y costo de la inferencia es clave para aplicaciones en producción.

Inteligencia Artificial General (IAG) I

Concepto hipotético de un sistema de IA con la capacidad de entender, aprender y aplicar conocimiento en cualquier dominio intelectual al nivel humano o superior, sin estar restringido a tareas específicas. Distinguida de la "IA estrecha" actual, que excele en tareas particulares pero no generaliza.

L 2 términos

LLM (Modelo de Lenguaje de Gran Escala) L

Modelo de IA entrenado en enormes cantidades de texto para predecir y generar lenguaje humano. Caracterizados por tener miles de millones (o billones) de parámetros. Ejemplos: GPT-4 (OpenAI), Claude 3 (Anthropic), Gemini (Google), Llama 3 (Meta).

Latencia L

Tiempo que transcurre entre que se envía una solicitud a un modelo y se recibe la primera respuesta. En sistemas de IA en producción, la latencia es un factor crítico para la experiencia del usuario. Se mide típicamente en milisegundos (ms).

M 2 términos

Mecanismo de atención M

Componente central de la arquitectura Transformer que permite al modelo asignar diferentes pesos de importancia a distintas partes de la entrada al generar cada parte de la salida. La "atención" permite capturar dependencias de largo alcance en texto o imágenes.

Modelo multimodal M

Sistema de IA capaz de procesar y relacionar información en múltiples tipos de datos (modalidades) simultáneamente: texto, imágenes, audio, vídeo, código. Ejemplos: GPT-4 Vision, Gemini 1.5, CLIP.

N 2 términos

NLP (Procesamiento de Lenguaje Natural) N

Campo de la IA que estudia cómo hacer que los computadores entiendan, interpreten y generen lenguaje humano. Incluye tareas como traducción automática, análisis de sentimiento, extracción de información, resumen de textos y generación de texto.

Red neuronal artificial N

Sistema computacional vagamente inspirado en el funcionamiento del cerebro biológico. Compuesto por nodos (neuronas artificiales) organizados en capas y conectados por pesos ajustables que se optimizan durante el entrenamiento.

O 2 términos

Overfitting (sobreajuste) O

Fenómeno donde un modelo aprende los detalles y el ruido del conjunto de entrenamiento tan bien que pierde capacidad de generalizar a datos nuevos. El modelo "memoriza" en lugar de aprender patrones generalizables. Se combate con regularización, dropout y más datos.

Optimización O

En machine learning, proceso de ajustar los parámetros del modelo para minimizar (o maximizar) una función objetivo. Los algoritmos de optimización más usados son variantes del gradiente descendente estocástico (SGD): Adam, RMSprop, AdaGrad.

P 3 términos

Parámetro P

Variable interna del modelo de IA que se ajusta durante el entrenamiento. En redes neuronales, los parámetros son los pesos de las conexiones entre neuronas. El número de parámetros es una medida común del tamaño del modelo; GPT-4 tiene estimados 1.8 billones de parámetros.

Prompt P

Instrucción o entrada de texto que se proporciona a un modelo de lenguaje para obtener una respuesta. El diseño cuidadoso de prompts (prompt engineering) puede mejorar significativamente la calidad y utilidad de las respuestas.

Python P

Lenguaje de programación que se ha convertido en el estándar de facto para el desarrollo de sistemas de IA y machine learning, gracias a su sintaxis clara y a su ecosistema de bibliotecas (NumPy, Pandas, TensorFlow, PyTorch, scikit-learn, Transformers).

R 3 términos

RAG (Generación Aumentada por Recuperación) R

Técnica que combina un LLM con un sistema de recuperación de información para que el modelo pueda responder con información actualizada o específica del dominio sin necesidad de reentrenamiento. El sistema recupera fragmentos relevantes de una base de conocimiento y los incluye en el contexto del modelo.

Red neuronal recurrente (RNN) R

Arquitectura de red neuronal diseñada para procesar datos secuenciales (texto, audio, series temporales) manteniendo un estado interno que actúa como "memoria" de la secuencia. Fue dominante antes de los Transformers; ahora se usa principalmente en aplicaciones donde los Transformers son demasiado costosos.

Regularización R

Conjunto de técnicas para reducir el sobreajuste añadiendo restricciones al proceso de entrenamiento. Ejemplos: L1/L2 regularization, dropout (desactivar neuronas aleatoriamente durante el entrenamiento), early stopping, data augmentation.

S 2 términos

Sesgo (bias) en IA S

Tendencia sistemática de un modelo de IA a producir resultados que favorecen o perjudican injustamente a ciertos grupos. Puede originarse en datos de entrenamiento que reflejan prejuicios históricos, en la elección de métricas de evaluación o en el diseño del sistema. Detectar y mitigar el sesgo es un reto central de la ética en IA.

Softmax S

Función de activación usada comúnmente en la capa de salida de redes de clasificación. Convierte un vector de números reales en una distribución de probabilidad, donde cada valor está entre 0 y 1 y todos suman 1.

T 2 términos

Token T

Unidad mínima de texto que un modelo de lenguaje procesa. Puede ser una palabra completa, una sílaba, un símbolo o un carácter, dependiendo del tokenizador. El número de tokens en una entrada determina el coste y la velocidad de la inferencia. En inglés, 1 token ≈ 0.75 palabras.

Transfer learning (aprendizaje por transferencia) T

Técnica donde un modelo entrenado para una tarea se reutiliza como punto de partida para una tarea diferente pero relacionada. Permite aprovechar patrones aprendidos en datasets grandes para tareas donde hay pocos datos etiquetados disponibles.

V 2 términos

Validación cruzada V

Técnica de evaluación de modelos que divide el conjunto de datos en varios subconjuntos y entrena/evalúa el modelo múltiples veces, rotando cuál subconjunto actúa como conjunto de prueba. Proporciona una estimación más robusta del rendimiento real del modelo.

Visión por computadora V

Campo de la IA que desarrolla sistemas capaces de interpretar y entender información visual: detectar objetos, reconocer rostros, leer texto en imágenes, analizar vídeo en tiempo real. Las redes neuronales convolucionales (CNN) y los Vision Transformers (ViT) son sus arquitecturas dominantes.

Z 1 término

Zero-shot learning Z

Capacidad de un modelo para realizar una tarea o reconocer clases que no vio durante el entrenamiento, basándose únicamente en la descripción de la tarea o clase. Los LLMs modernos muestran capacidades zero-shot notables para una amplia variedad de tareas cuando se les proporciona un buen prompt.

Términos en el glosario 51 Proponer término

Explorar más

¿Falta un término?

Actualizamos el glosario mensualmente. Si crees que falta un término importante, escríbenos.

Sugerir término

Glosariode IA

Recibe los mejores análisisde IA directamente.

Glosario
de IA

Recibe los mejores análisis
de IA directamente.