06. Programas de reforzamiento y conducta de elección

  • PROGRAMAS SIMPLES

    • razón fija

    • razón variable

    • intervalo fijo

    • intervalo variable

  • PROGRAMAS DE REFORZAMIENTO DE TASAS DE RESPUESTA

    • RDA (reforzamiento diferencial tasas altas)

    • RDB (reforzamiento diferencial tasas bajas)

Hasta aquí incluyen UNA ÚNICA RESPUESTA y el reforzamiento de esa respuesta no proporcionan una visión completa de la conducta.

  • ANÁLISIS DE LA CONDUCTA DE ELECCIÓN

    • programas concurrentes

  • ELECCIÓN CON COMPROMISO

    • programas concurrentes encadenados

Un programa de reforzamiento: es un programa o regla que determina cómo y cuándo la ocurrencia de una respuesta irá seguida de un reforzador. Estos programas se investigan normalmente en cajas de Skinner. Estudian muy bien LOS FACTORES que controlan el mantenimiento de la conducta y su realización continuada. Zeiler denominó a estos programas “EL GIGANTE DURMIENTE” del análisis de la conducta

Programas simples de reforzamiento intermitente

En estos programas SIMPLES 1 solo factor determina qué ocurrencia de la respuesa instrumental se refuerza.

Programas de razón

El reforzamiento depende sólo del número de respuestas que el organismo realiza. Se cuenta en n. de respuesta ocurridas y entregar el reforzador cada vez que se alcance el n. requerido. REFORZAMIENTO CONTINUO (RFC). Sólo sucede en el laboratorio.

REFORZAMIENTO PARCIAL O INTERMITENTE: las respuestas se refuerzan sólo alguna vez.

RAZÓN FIJA: predictible (número predecible de respuestas para cada refuerzo).

Cuando cada 10 respuestas “apretar una palanca” por cada reforzador RF 10. (pagar por el número de piezas que montan), etc..Es decir, un programa de reforzamiento continuo es también un programa de razón fija. Es un programa de reformaziento continuo RFC (razón fija continua). Los organismos sueles responder a una tasa constante PERO  moderada, sólo se dan pausas breves e impredecibles.  (una paloma, al principio picoteará más para conseguir comida y luego lo hará más lentamente a medida que sacie el apetito).Se da una tasa constante y alta una vez que la conducta se ha iniciado, pero se puede tardar un tiempo antes de comenzar. Esta caracteristica de la respuesta se puede observar en un REGISTRO ACUMULATIVO DE LA CONDUCTA: representa la forma de repetirse una respuesta a lo largo del tiempo. (n. respuestas totales o acumuladas en un momento determinado de tiempo). La pendiente de la linea trazada por este registro representa la TASA DE RESPUESTA del sujeto. La tasa 0 de respuesta que se observa justo después del reforzamiento se llama PAUSA POSREFORZAMIENTO. La longitud de esta pausa está controlada por el requerimiento de la razón subsiguiente . Por eso de llama también PAUSA PRE-RAZÓN

LA CARRERA DE LA RAZÓN: es la tasa de respuesta ALTA y ESTABLE que completa cada requerimiento de la razón. Si el requerimiento de la razón se incremente un poco (de RF 120 a RF 150), la tasa de respuesta puede permanecer igual durante la carrera de razón, Con aumentos considerables ocurren pausas posreforzamiento más largas. Este efecto se llama TENSIÓN DE LA RAZÓN por eso no hay que aumentar la razón requerida demasiado rápido, puede desistir por completo.

Un programa intermitente de razón fija: se da un patrón de respuestas muy diferentes. No es probable pausas en medio de la acción de marcar un número de teléfono,

RAZÓN VARIABLE: IMPREDECIBLE mediante la variación del número de respuestas requerido para el reforzamiento de una ocasión a la siguiente. Sigue siendo de “razón” porque el reforzamiento depende del n. de respuestas que realiza el organismo. Este RV ( aqui se utiliza el número MEDIO (la media) de respuestas requerido, al principio 13, luego 7, etc... por eso RV 10): Como es impredecible las pausas son menos probables con esos programas RV (hay una tasa claramente estable). Se pueden dar pausas posreforzamiento pero son menos intensas

Programas de intervalo

Tras cierta cantidad de TIEMPO

Intervalo fijo

(cantidad FIJA de tiempo)

IF 4 minutos  el tiempo establecido no varia de una ocasión a otra. El patrón de respuesta se llama FESTÓN DEL INTERVALO FIJO.

Un IF 4 minutos no garantiza  que el reforzador se proporcionará en algún momento a los largo del intervalo de tiempo. Se requieren respuestas como en RAZÓN. El intervalo determina sólo cuándo el reforzador está disponible, NO cuándo se entrega (programación de los exámenes se parecen al IF, al principio se dedica poco tiempo al estudio, se estudia más una semana antes del exámen, la tasa se incremente cuando se aproxima el día de examen).

Intervalo variable tiempo impredecible

IV tiempo impredecible para dispensar el reforzador . Es un intervalo MEDIO (la media) IV 2 minutos . Se tiene que realizar una respuesta. Los reforzadores no se dan “gratis”. No hay pausas con tasas de respuestas CONSTANTES.

Programas de intervalo y espera limitada

Son programas FUERA de laboratorio, el reforzador está disponible SÓLO durante PERIODOS LIMITADOS. (horario restaurantes). Este tipo de RESTRICCIÓN en cuanto al tiempo que permanece el reforzador disponible se llama ESPERA LIMITADA.Esta restricción se puede aplicar tanto a IF como a IV.

Comparación de los programas de razón y de intervalo

RF y IF:  ambos producen una pausa posreforzamiento después de de la administración de cada reforzador. Ambos reciben altas tasas de respuesta JUSTO ANTES de la administración del siguiente reforzador.

RV y IV: mantienen tasas estables de respuestas SIN PAUSA PREDECIBLE.

Los programas de razon y intervalo activan DIFERENTES CAMBIOS NEUROQUÍMICOS en el cerebro. Los programas de razón son capaces de producir tasas de respuesta MÁS ALTAS que los programas de intervalo. El factor crítico es el espaciamiento entre respuestas que se da justo antes del reforzamiento.

Reforzamiento diferencial del tiempo interrespuesta: TIR Es el intervalo entre una respuesta y la siguiente TIR o tiempo interrespuesta. Si se refuerzan los TIRs cortos = el sujeto realiza TIRs cortos. Si se refuerzan TIRs largos = realiza TIRs largos. Con TIRs cortos = responderá a una tasa ALTA. Sujeto que produce TIRs largos, responderá a una tasa baja.

Un programa de razón = favorece que no se espere mucho entre las respuestas.Favorece tiempos interrespuesta cortos

Un programa de intervalo =no favorecen los TIRs cortos, sino una ejecución con TIRs largos, que deriva en tasas de respuestas más bajas que en razón.

Programas de reforzamiento de tasas de respuesta

Fuera del laboratorio, en situaciones que requiere tasas de respuesta particulares (deporte de velocidad , cadena de montaje)

Ni razón e intervalo requieren una tasa especifica de respuesta para conseguir el reforzamiento. Los programas de tasas de respuesta requieren una tasa particular para obtener el reforzador. Depende aquí de cuán pronto ocurra tras la respuesta precedente. Por ejem. Que una respuesta se refuerce sólo si ocurre 5 segundos siguientes a la respuesta precedente.Entonces su tasa de respuesta será de 12 por minuto o mayor  RDA (Reforzamiento diferencial de tasas altas). Fomenta tasas altas de respuesta. En RDA una respueta se refuerza sólo si ocurre ANTES de que haya transcurrido cierta cantidad de tiempo TRAS la respuesta precedente.

EL reforzamiento diferencial de tasas bajas RDB fomentan que los sujetos respondan lentamente, pues se refuerza una respuesta SOLO si ocurre DESPUES de que haya transcurrido cierta cantidad de tiempo desde la respuesta previa.

Conducta de elección: programas concurrentes

( al  mismo tiempo 2 ó más programas)

La situación de elección más simple = 2 respuestas alternativas, cada una de éstas seguidas por un reforzador de acuerdo con su propio programa de reforzamiento.

Se empezó estudiando la conducta de elección utilizando LABERINTOS en T especialmente. Actualmente se utilizan cajas de Skinner equipadas con 2 manipulandos, como 2 teclas de picoteo. Los 2 programas ocurren al mismo tiempo (o concurrentemente) El sujeto es libre de cambiar de una tecla de respuesta a la otra PROGRAMA CONCURRENTE que permiten una medición continua de la elección.

Programa A (IV 60 seg.)            Programa B (RF 10)

        Tecla A                                        Tecla B

Medidas de la conducta de elección

Entre 2 respuesta alternativas. Hay 2 formas de medición:

1.- calcular la TASA RELATIVA DE RESPUESTA de cada alternativa. Es decir de la tecla A se divide su tasa de respuesta por la tasa total de respuesta:

RA/ (RA + RB)

La forma de distribución de la conducta entre las 2 alternativas de respuesta está muy influida por el programa de reforzamiento que funciona en cada respuesta.

2.- calcular la TASA RELATIVA DE REFORZAMIENTO conseguido para cada alternativa de rspuesta se calcula igual que la anterior:

rA/ (rA + rB)

La Ley de la igualación

La tasa relativa de respuesa y la tasa relativa de reforzamiento son iguales. Herrnstein establece esta relación como una ley de conducta.

La primera expresión matemática:

RA/(RA +RB) = rA/rA + rB)

Como antes RA y RB = tasas de respuesta en las teclas A y B

rA y rB = tasas de reforzamiento conseguidas en cada alternativa de respuesta.

La segunda expresión matemática:

RA/RB = rA/rB

Representan el mismo principio básico: Las tasas relativas de respuesta se IGUALAN con las tasas relativas de reforzamiento

Infraigualación, supraigualación y sesgo de respuesta

La Ley de igualación indica que las elecciones NO se hacen de forma caprichosa (son una función ordenada de las tasas de reforzamiento). Actualmente las tasas relativas de respuesta NO SIEMPRE se igualan exactamente con las tasas relativas de reforzamiento. Se añaden 2 parámetros b, s a la fórmula

    RA/RB = b(rA/rB)”elevado el parentesis a s)

S= representa la SENSIBIIDAD de la conducta a la elección a las tasas relativas de reforzamiento. Cuando existe una igualación perfecta s = 1, las tasas relativas de respuesta son una función DIRECTA de las tasas relativas de reforzamiento.

INFRAIGUALACIÓN:un tipo de desviación perfecta incluye una sensibilidad reducida de la conducta de elección a las tasas relativas de reforzamiento y se acomoda dando al exponente s un valor MENOR a 1. Se encuentra la infraigualación más a menudo que la supraigualación. Hay muchas variables que influyen. Hacer más difícil el cambio de una alternativa de respuesta a otra INCREMENTE el parámetro de sensibilidad.

SUPRAIGUALACIÓN:se acomodan los resultados dotando al exponente de un valor MAYOR a 1.

B= sesgo (en inglés bias). Estos sesgos influyen en las respuestas cuando las alternativas de respuesas son DIFERENTES . Una preferencia (o sesgo) por una respuesta o un reforzador sobre la otra influye en el parámetro del sesgo b. Si no hay sesgos b= 1.

La Ley de la igualación y el valor del reforzador

La relación de igualación se ha extendido a otros aspectos de los reforzadores distintos de su tasa de ocurrencia. La tasa relativa de respuesta es una función de la cantidad relativa de  cada reforzador, y la demora relativa del reforzamiento.

La tasas relativas de respuesta están determinadas por la PALATABILIDAD  de los reforzadores( Cualidad de ser grato al paladar un alimento.) Cuando mayores, más sabrosos y más inmediatos sean los reforzadores, mayor será el valor. No se sabe cómo se combinan las diferentes caracteristicas para determinar su valor.

La Ley de la igualación y los programas simples de reforzamiento

Incluso las situaciones de respuesta única pueden involucrar una ELECCIÓN. La elección es realizar la respuesta especificada y ocuparse en otras posibles actividades . Esto permite la aplicación de la ley de la igualación a programas de reformaziento de respuesta única. Aunque recientemente se pone en duda.

Mecanismos de la Ley de igualación

Es una ley DESCRIPTIVA de la naturaleza y no una ley mecanicista (no explica los mecanismos que son responsables de la distribución de las respuestas). Esta ley ignora CUÁNDO se realizan las respuestas individuales.

TEORIAS MOLARES: explican agregados de respuestas y se relacionan con la distribución total de respuestas y reforzadores en las situaciones de elección,

TEORIAS MOLECULARES se centran en lo que ocurre alnivel de las respuestas individuales y consideran la igualación como el rsultado neto de estas elecciones individuales.

TEORIAS DE MEJORAMIENTO: caracteristicas de la conducta que no son ni molares ni moleculares, sino algo intermedio entre ellas.

Igualación y maximización de las tasas de reforzamiento

La conducta de elección : se basan en la idea de que los organismos DISTRIBUYEN sus acciones entre las alternativas de respuestas para recibir la MÁXIMA cantidad de reforzamiento posible. Esta idea de que los organismos MAXIMIZAN el reforzamiento se utiliza para explicar la conducta de elección en los distintos análsis: Los mecanismos son:

  1. MAXIMIZACIÓN MOLECULAR:  siempre se elige cualquier alternativa de respuesta con MEJORES PROBABILIDADES de que sea reforzada en ese momento. Se centran en las tasas GLOBALES de respuesta y reforzamiento, calculadas sobre la duración total de una sesión experimental.

  2. MAXIMIZACIÓN MOLAR: el organismo distribuye sus respuestas entre las VARIAS ALTERNATIVAS a fin de maximizar la cantidad de reforzamiento que consiguen a la LARGA. Se centran en agregados de conducta sobre algún periodo de TIEMPO más que enlas respuestas de elección indivdual

  3. MEJORAMIENTO operan en una escala TEMPORAL que está entre molar y molecular. Se refiere a “hacer algo mejor”. Es la meta “más modesta (o inocente)” de sólo hacer que la situación sea mejor. (mejor de cómo esa situación ha sido en el pasado reciente). Los resultados a una situación limitada (no en su totalidad a largo plazo). Las tasas LOCALES se calculan sobre el periodo de tiempo que un sujeto dedica a una alternativa particular de respuesta. Esta tasa es siempre MAYOR que su tasa global. La teoria de mejoramiento asume que los organismos cambian de una alternativa de respuesta a otra para MEJORAR la TASA LOCAL de reforzamiento que están recibiendo. El mecanismo de mejoramiento da como resultado LA IGUALACIÓN.

Elección con compromiso

Se die a la gente que carecce de AUTOCONTROL si elige una recompensa pequeña a corto plazo en lugar de esperar para conseguir un beneficio mayor pero más demorado

Programas concurrentes encadenados

Programa A (RV 10)                Programa B (RF 10)

                *    *                                        *    *

Eslabon terminal                        Eslabón terminal

        TECLA A                                    TECLA B      Eslabón de elección(no es el reforzador primario)

Hay 2 fases o eslabones: Durante la primera fase el ESLABON DE ELECCIÓN elige entre 2 programas alternativos. Responder a este eslabon de elección NO PROPORCIONA RESULTADOS, sólo cuando se encuentre en le ESLABON TERMINAL. Cuando se escoge A o B está comprometido hasta el final del eslabón terminal del programa por eso implican ELECCIÓ CON COMPROMISO

Se prefiere la alternativa de razón variable. RV . La variedad parece ser la SAL DE LA VIDA. El eslabón terminal se convierte en REFORZADOR CONDICIONADO,

La conducta de elección está gobernada tanto por los programas de eslabón terminal como por cualquier programa que funcione en el enlace inicial.

Estudios de autocontrol

Autocontrol: es elegir una recompensa grande demorada sobre una recompensa pequeña inmediata.  El autocontrol es más fácil si la alternativa tentadora (un pastel) no está tan claramente disponible (en la carta hay pastel y verduras).

Una propiedad general de la conducta de elección: Si las recompensas se entregan rápidamente tras una rspuesta de elección, los sujetos generalmente PREFIEREN una recompensa pequeña inmediate más que una recompensa grande demorada. Sin embargo, si se añade una demora CONSTANTE a la entrega de ambas recompensas, los sujetos muestran autocontrol y prefieren la recompensa grande demorada.

Explicaciones del autocontrol

Principio general: el valor de un reforzador se REDUCE en función de cuánto tiempo se tiene que esperar para obtenerlo. La fórmula para esta reducción en el valor se llama FUNCIÓN DESCONTADORA DEL VALOR.

 V= M/(1+ KD)  FUNCIÓN DEL DECAIMIENTO HIPERBÓLICO

M= magnitud de la recompensa

D= demora de la recompensa

K= parámetro de la tasa descontadora

Cuando se entrega el reforzador sin demora D=0, el valor del reforzador está directamente relacionado con su magnitud (los reforzadores más grandes tienen valores mayores).

Incrementar la demora de las recompensas grande y pequeña hacce más FÁCIL que se muestre autocontrol seleccionando el reforzador más grande pero con más demora.

Las funciones descontadoras y los problemas de autocontrol en la adicción a la droga

El abuso de sustancias frecuentemente REFLEJA una serie de elecciones IMPULSIVAS.

Las funciones descontadoras de la recompensa era mucho más acusada para los adictos a la heroína, es decir, el valor del dinero DISMINUYO muy rápido si la recepción del dinero iba a demorarse. Esta función acusada del descuento de la recompensa indica UNA FALTA DE CONTROL es decir, IMPULSIVIDAD.

¿Puede entrenarse el autocontrol?

Sí. Una persona que no puede tolerar esperar el tiempo necesario para obtener recompensas grandes tiene que olvidarse de obtener estos reforzadores.

Siempre y cuando las tareas de entrenamiento implicasen BAJO ESFUERZO, el entrenamiento con la recompensa demorada INCREMENTÓ la preferencia por la recompensa más grande demorada. Por lo tanto, el entrenamiento con reforzamiento demorado produce AUTOCONTROL.