Operantní podmiňování

Operantní podmiňování (někdy též učení úspěchem) je druh učení, při kterém se mění pravděpodobnost výskytu spontánních aktů chování (operantů), na základě jejich důsledků (odměňování, trestání).

Moderní Skinnerovy boxy v laboratoři Brazilské univerzity.

Dějinný nástin vzniku

Americký psycholog a neobehaviorista Burrhus Frederic Skinner (1904 - 1990) při svých proslulých pokusech poukázal na to, jak výrazně odměna mění a formuje chování. Se svými boxy, demonstroval pozitivní a negativní posílení a v samém důsledku zpochybnil existenci svobodné vůle. Striktně se držel behaviorálního S – R přístupu a svými utopickými myšlenkami uspořádání společnosti (Walden two 1948), vyvolával zájem a pozdvižení. Ve své práci vycházel z poznatků Ivana Petroviče Pavlova o klasickém podmiňování. Dále ho výrazně ovlivnila práce zakladatelů behaviorismu J. B. Watsona a Edwarda L. Thorndika, na jehož instrumentálním podmiňování vytvořil podmiňování operantní. To je podle Skinnera druh učení, který je daleko bližší běžnému životu, než klasické podmiňování. Výsledky své práce shrnul B. F. Skinner ve dvou základních pracích: Behavior of Organism 1938 a Science and Human Behavior 1953.

Princip a základní pojmy

Operantní podmiňování (někdy též učení úspěchem) je druh učení, při kterém se mění pravděpodobnost výskytu spontánních aktů chování (operantů), na základě jejich důsledků.

B. F. Skinner rozlišil dva druhy důsledků chování, z nichž posilování dále dělí na pozitivní a negativní:

  • Posílení (zpevnění) - kladný důsledek chování zvyšující pravděpodobnost budoucího výskytu chování (operantu).
    • Pozitivní posílení (zpevnění) - proces, při kterém je určité chování odměněno něčím pozitivním, příjemným.
    • Negativní posílení (zpevnění) - jde o chování, které je posilováno a tím i více opakováno, jako důsledek potřeby vyhnout se nepříjemným podnětům (př. otevření okna v přetopené místnosti).
  • Trest - proces, při kterém je jako důsledek chování přidáno něco nepříjemného. Zvláště averzivní(násilná) forma trestu vede ke snaze vyhnout se působení trestu jakýmikoli prostředky a způsoby chování, které mohou být více nežádoucí než původní trestané chování.

Procesy provázející operantní podmiňování

Osvojení operantní reakce - z počátku, kdy jedinec ještě nedokáže dokonale provést daný operant, by měla být odměněna, každá žádoucí reakce (viz tvarování). Po osvojení to už není nezbytně nutné. Zpevnění (odměnou) by mělo následovat bezprostředně po operantním chování a mělo by být takového druhu, aby bylo pro danou osobu opravdu cenné. Jinak budeme odměňovat laboratorního potkana a jinak dospělého člověka (dar, pochvala, potrava, pohlazení).

Generalizace a diskriminace podnětů - při pokusech se zvířaty, byla podmínka sešlápnutí pedálu rozšířena o akustický signál (diskriminační podnět). Potrava tak byla dodána pouze tehdy, když potkan sešlápl pedál při zvukovém signálu. Nenechal se však zmást změnou výšky tónu signálu, a nadále správně prováděl operant při zaznění i zkresleného tónu. Došlo k takzvané generalizaci podnětu.

Diskriminační učení se u lidí projevuje například zvýšeným pracovním nasazením (operantu) v přítomnosti nadřízeného. Generalizace se v tomto případě může projevit například tak, že pokud se objeví osoba, která se nadřízenému podobná, dojde alespoň po určitou dobu ke zvýšení výkonnosti také. U známého Watsonova experimentu malý Albert, došlo ke generalizaci přítomnosti živého potkana. Úzkost tak vyvolávala třeba i plyšová hračka apod.

Vyhasínání a spontánní obnovení - v dalších pokusech bylo zjištěno, že operantní chování po určitém počtu neodměněných pokusů přestane laboratorní potkan provádět, tedy vyhasne. Pokud ho ovšem další den do Skinnerova boxu vrátíme, opět několik pokusů operantního chování provede. Naučené operantní chování se obnoví.

U lidí se s vyhasnutím můžeme setkat například u vztekajících se dětí, kterým rodiče v tomto případě nevěnují pozornost. Po nějaké době, dítě zjistí, že svým křikem změnu situace nevyvolá a přestane. Podobně, ignoruje-li učitel u žáků některé drobné přestupky nekázně, pak postupně slábnou nebo úplně vymizí.

Pozitivní posílení (zpevnění)

Rozvržení kladného posilování (zpevnění)

Po zkoumání průběhu učení v roce 1957 navrhli C. Ferser a B.F. Skinner 4 druhy přerušovaného posilování. Při posilování nepřetržitém, dochází k rychlému osvojení si operantu.

Posilování podle stálého časového intervalu (fixed intervat FI) - přísun odměny zde nezávisí pouze na operantu, ale také na době, která uplynula od minulého odměnění. To zákonitě vede ke zvyšování frekvence operantů s blížícím se koncem časového intervalu.

S tímto druhem posilování se můžeme setkat třeba v politice, kde jsou na začátku funkčního období prováděna nepopulární opatření a s jeho blížícím se koncem jsou prováděna opatření populární až populistická.

Posilování podle proměnlivého časového intervalu (variable interval VI) - při tomto posilování jsou odměňovány úkony, které se objevují po náhodně dlouhém intervalu. Tento způsob není příliš efektivní při učení. Na druhou stranu, pokud má osoba již operant vštípený, posilování podle proměnlivého časového intervalu vede k relativně stabilnímu výskytu požadovaného chování.

S tímto způsobem posilování se můžeme setkat například při chválení dobrého chování dětí, rodiči. Bylo prokázáno, že náhodné zpevnění dokáže udržet "dobré mravy" v repertoáru chování dospělého natrvalo. Ale pokud tento druh posílení použijeme k zlepšení výkonů zaměstnance, který podává stabilní relativně neměnné výkony, neuspějeme.

Posilování ve stálém poměru k počtu operantů (fixed rate FR) - posilování (odměna) zde následuje pravidelně po daném počtu operantů (1:2, 1:5, 1:20 apod.). Vede k velkému počtu stabilně prováděných operantů.

U lidí se s tímto způsobem posilování můžeme setkat například při výkupu ovoce na brigádě. Pokud pracovník dostane za 10kg jablek 100Kč bude pracovní výkonnost relativně vysoká.

Posilování v nepravidelném (náhodném) poměru k počtu reakcí (variable ratio VR) - odměny při tomto druhu posilování následují po různém počtu operantů. Poměr odměn k výskytu operantů se s každou reakcí mění (1:4, 1:9, 1:1 etc.). Jedinec si tak nikdy není jistý, kdy dojde k dalšímu posílení a jen obtížně zaznamená, že bylo posilování zcela ukončeno. V tom spočívá vysoká efektivita tohoto způsobu a může vést až k závislosti. Jedinec je totiž dlouho ponechán v nejistotě a naději, že přijde další odměna, pro kterou je ochoten provést veliký počet požadovaných operantů.

U lidí se s posilováním v náhodném poměru k počtu operantů můžeme setkat například u hracích automatů a dalších hazardních her, jako je internetový poker. Dá se jím vysvětlit jejich návykovost.

Pověrčivé chování

Skinner používal pro své pokusy, mimo jiné, i holuby.

B. F. Skinner provedl sérii pokusů, při kterých byli holubi v boxu odměňováni nezávisle na jejich chování, každých 15 sekund. Ti s každou odměnou stále více opakovali operanty, které prováděli bezprostředně před tím, než do krmítka spadla potrava. Někteří tak stále opakovali chování jako kývání hlavou nahoru a dolů, otáčení hlavou dopředu, dozadu a nebo se celí otáčeli dokolečka. Skinner toto chování označil za pověrčivé. Osoby se jím snaží přivolat úspěch, ačkoliv spolu jejich chování a následná odměna nijak nesouvisí.

Při pověrčivém chování si lidé sami vytvoří diskriminační podnět, nebo opakují operanty o kterých se domnívají, že přinesou úspěch. Prvky náhodného posilování zřejmě zapříčiňují, že se člověk pověrčivého chování drží a jen těžko zbavuje. Příkladem jsou talismany, pověry (zaťukávání) apod.

Efekt kontrastu

Začnou-li laboratorní zvířata dostávat za operant větší odměnu než dosud, zvýší výkon a frekvenci výkonu. Podobně při snížení dávky odměny se jejich výkon a častost opakování sníží.

U lidí se s tímto efektem můžeme setkat v zaměstnání – postupné zvyšování odměn vede ke zvýšení výkonu. Důležitý a rozhodující je rozdíl mezi původní a vyšší odměnou, který určuje naše očekávání. Dobrým příkladem je citace z filmu Když Harry potkal Sally: Nenavykněte partnera na začátku vztahu na to, že jej pokaždé doprovodíte na letiště. Jakmile s tím přestanete, bude vám to vyčítat.

Tvarování (shaping, postupná aproximace)

Tvarování (shaping), je specifický druh pozitivního posílení. Při klasickém kladném posílení je vždy odměněn zcela splněný operant, u tvarování následuje odměna i po dílčích úspěších. Výhoda tvarování tkví v tom, že lze subjekt naučit zcela novým prvkům chování. To se postupně posunuje a formuje směrem k cíli, který může představovat relativně složité úkony.

U lidí se tvarování využívá například při vyučování nejrůznějších pohybových dovedností. Lyžařský instruktor odměňuje dílčí úspěchy svého žáka, stejně jako rodiče, kteří ze začátku ocení i nedokonale uklizený pokoj svého potomka. V programech pro mentálně retardované se principy tvarování využívají při nácviku běžných denních dovedností. U lidí je tvarování složitější, kvůli individuální hodnotě odměny (sociální, fyzické, psychické).

B. F. Skinner demonstroval účinek posilování na experimentu s holuby, které naučil hrát hru s míčkem připomínající ping pong. Je jasné, že v přirozeném repertoáru chování holubů tyto operanty nejsou a tak nebylo možné čekat až na výsledné chování - to by nikdy nepřišlo. Místo toho bylo nejprve posilováno přiblížení se k míčku jedním holubem. Pokud to zvládl, byl odměňován pouze, když klovl do míčku a poté pouze když posunul míček směrem k druhému konci stolu. Podobně byl vycvičen i druhý holub. Pak už stačilo odměňovat společnou souhru obou holubů.[1] Skinnerovi následovníci, později naučili králíka, aby vzal do tlamy minci a vhodil jí do kasičky ve tvaru prasátka. I dnes se tvarování používá, například při specifickém výcviku psů apod.

Negativní posílení (zpevnění)

Jde o důsledek odstranění nebo zmírnění nepříjemných pocitů. Zpevňují se tak operanty, díky kterým nepříjemné podněty vůbec nemusejí začít působit. Negativní posílení vede ke zvýšení frekvence tohoto ulehčujícího chování.

V běžném životě se s negativním posílením můžeme setkat, například pokud půjdeme za příliš hlučným sousedem a asertivně ho požádáme, aby nedělal hluk. Pokud naše jednání povede k úspěchu, bude posíleno. Tento druh zpevnění se podílí na vzniku některých závislostí, pokud například alkoholem úspěšně odstraníme svou nervozitu, třeba před veřejným vystoupením, bude použití pití, jako léku na úzkost posíleno. Podobně může vzniknout závislost na prášcích proti bolestí hlavy na spaní apod. S negativním posílením se můžeme často setkat v reklamě, kde nějaký produkt, zázračně odstraní nepříjemné pocity.

Záporné zpevňování často vede k vyhýbavému chování i v situacích, kdy je žádoucí problému čelit. Je velmi účinné takže učení probíhá snadno a velice obtížně zažité operanty vyhasínají. Jedinec se tak často uchyluje k zajetému chování, ačkoliv se situace, po které obvykle následovaly nepříjemné pocity, změnila. Negativní posílení se podílí na vzniku poruch chování, jako je obsedantně kompulzivní porucha.

Podmiňování úniku a vyhýbavého chování

Podmiňování úniku - jde o posilování operantu, díky němuž se podařilo uniknout nepříjemnému pocitu. Například pokud je na koupališti příliš velké horko, přesuneme svou deku do stínu. Podobně chlapec, který se rozbrečí poté co ho rodiče za trest poslali do svého pokoje a který si tímto chováním vymůže obměkčení rodičů, posílí v sobě tuto možnost úniku před trestem.

Podmiňování vyhýbavého chování - jde o posilování chování, díky kterému se do nepříjemné situace jedinec vůbec nedostane. Jde o jakési předcházení možným nepříjemnostem. Například, je-li víno zakalené nebudeme ho pít, nemáme-li někoho rádi, budeme se mu vyhýbat, máme-li špatné zkušenosti s partnerskými vztahy budeme se jim spíše vyhýbat.

Toto posilování se podílí na vzniku tzv. sekundárního zisku z nemoci. Tím je myšlen zisk z výjimečného postavení, které nemocný díky nemoci získá. Jeho okolí se k němu chová pozorněji a s větší ochotou pomáhá řešit problémy běžného života, které si jinak nemocný řeší sám.

Trest

Jde o nepříjemný důsledek určitého chování, který by měl snižovat pravděpodobnost jeho dalšího výskytu. Výzkum však prokázal, že je méně efektivní než pozitivní či negativní zpevňování. Změna operantu se tak vůbec nemusí dostavit a především averzivní tresty doprovází několik nežádoucích účinků. Pokud jsou ovšem tresty využívány zřídka, mohou být dobrým způsobem, pro odstranění nežádoucího chování.

Existují dva druhy trestů:

  • Působení nepříjemného (averzivního) podnětu (pozitivní trest) - jde o bolestivé tresty, nadávky, nepřiměřenou kritiku, ponižování apod.
  • Zastavení působení příjemných podnětů (negativní trest) - jde o trest v podobě omezení nebo celkového odstranění působení příjemných podnětů. V praxi se může jednat o zákaz hraní si na počítači, zákaz účasti na společenské akci, odepření slibovaného dárku, odepření lásky a náklonnosti apod.

Zejména averzivní chování může být doprovázeno těmito nežádoucími účinky:

  • Bolestivé tělesné tresty vyvolávají nenávist k trestajícímu, která se později může projevit jinde

nepřiměřeně tvrdý trest může vést nepřiměřenému strachu až k úzkosti.

  • Trest může mít generalizovaný inhibiční efekt, pokud tak dítěti budeme ustavičně vtloukat do hlavy aby neodmlouvalo, může s námi zcela přestat mluvit. Diskriminační procesy zas zapříčiní účinnost trestu jen v přítomnosti trestající osoby.
  • Trestání se pro trestajícího může stát odměnou v podobě rychlé změny neposlušnosti druhých, směrem k požadovanému chování.
  • Některé tresty jako například veřejná kritika v sobě zahrnují i prvky pozitivního posilování (rebelie, pozornost všech zúčastněných), což může paradoxně vést k zvýšení nežádoucího chování. Kritika, tak může pro samotného kritika představovat past.
  • Trestající rodiče nedávají příliš dobrý vzor toho, jak by se měli řešit problémy. Podporují ve svých potomcích stejný způsob chování.

Reakce na trest jsou poměrně komplikované a krom podmiňování strachu a vyhýbavého chování se při něm také uplatňuje kognitivní faktor očekávání.

Naučená bezmocnost

Vzniká tehdy, pokud žádné operantní chování nevede k ukončení působení nepříjemných pocitů. Pokud tedy jedinec zažije situace ve kterých nemá možnost uniknout nepříjemným podnětům, bude se později spíše chovat rezignovaně a nebude jevit snahu, změnit současnou situaci i v případě, že má možnost úniku.

Reference

  1. FRAŇKOVÁ, Slávka; BIČÍK, Vítězslav. Srovnávací psychologie a základy etologie. Praha: Karolinum, 1999. ISBN 80-7184-835-2. S. 148. 

Literatura

  • PLHÁKOVÁ, Alena. Učebnice obecné psychologie. Praha: Academia, 2004. ISBN 80-200-1086-6. 
  • PLHÁKOVÁ, Alena. Dějiny psychologie. Praha: Grada, 2006. ISBN 80-247-0871-X. 
  • HOSKOVEC, Jiří; NAKONEČNÝ, Milan; SEDLÁKOVÁ, Miluše. Psychologie XX. století. Praha: Karolinum, 2002. ISBN 80-246-0300-4. 
  • FRAŇKOVÁ, Slávka; BIČÍK, Vítězslav. Srovnávací psychologie a základy etologie. Praha: Karolinum, 1999. ISBN 80-7184-835-2. 
  • SLATER, Lauren. Pandořina skříňka. Praha: Dokořán ; Argo, 2008. ISBN 978-80-7203-985-2, ISBN 978-80-7363-090-4. 

Externí odkazy

Média použitá na této stránce

Feral pigeon about to land-8.jpg
Autor: claudiogennari, Licence: CC BY 2.0
A feral pigeon about to land.
Skinner boxes 01.jpg
Old picture of a couple of Skinner boxes at Unb - Universidade of Brasilia, circa 2001.