Vor Zurück Inhalt

10. Die libidinöse Ökonomie des Computers

Ian Wright, ein Mitarbeiter von Slomans Arbeitsgruppe in Birmingham, hat dessen Theorie weiterentwickelt zu einer computational libidinal economy (Wright, 1997).

Wright kategorisiert die Theorien von Simon, Sloman, Frijda sowie Oatley und Johnson-Laird unter dem Begriff "designbasierende Unterbrechertheorien" (design-based interrupt theories) und formuliert drei Kritikpunkte, die für alle genannten Ansätze zutreffen.

 

10.1. Kritik an den Unterbrecher-Theorien der Emotion

10.1.1. Das control precedence problem

Simon unterscheidet in seinem Ansatz zwischen Emotionen mit Unterbrecherfunktion, die einen hohen adaptiven Wert besitzen und Emotionen mit disruptivem Effekt, die einem adaptiven Verhalten eher entgegenlaufen. Laut Wright haben die kritisierten Theorien bislang das Problem noch nicht gelöst, warum eine disruptive, also nicht adaptiv sinnvolle Emotion den Kontrollvorrang über ein intelligentes System übernehmen und diesen für längere Zeit beibehalten kann. Offenbar ist in solchen Fällen das Meta-Management-System nicht dazu in der Lage, die Störung zügig zu beenden. Um solche Phänomene zu erklären, müßten die Theorien um phylogenetische, ontogenetische und soziale Aspekte erweitert werden.

10.1.2. Das emotional learning problem

Wright kritisiert an den vorliegenden Theorien, daß sie keine Mechanismen vorlegen, die den Zusammenhang zwischen emotionalen Zuständen und Lernprozessen erklären. Für ihn besitzen emotionale Zustände nicht nur eine motivationale Komponente, sondern sind auch wichtige Impulse für Lernvorgänge. Darauf weist auch Frijda (1986) ausdrücklich hin. In Zusammenhang damit steht die Korrelation zwischen der Intensität einer Emotion und dem Lernprozess, die von den Unterbrecher-Theorien nicht erklärt wird.

10.1.3. Das hedonic tone problem

Laut Wright erklären die vorliegenden Theorien nicht, auf welchen Mechanismen hedonic tone-Signale beruhen, warum solche Signale "einfach" sind, warum sie sich von semantischen Signalen unterscheiden und warum sie, im Fall von Freude und Schmerz, entweder positiv oder negativ sind.

Simon, so Wright, kehrt Gefühle einfach unter den physiologischen Teppich, indem er postuliert, daß alle hedonistischen Zustände Folgen der Wahrnehmung von körperlichen Zuständen sind. Deshalb ist es mit seiner Theorie auch nicht möglich, zum Beispiel einen Zustand wie "Trauer" zu erklären und die damit verbundenen psychischen Schmerzen, die nicht notwendigerweise mit körperlichen Erregungszuständen verbunden sein müssen.

Für Frijda, Oatley & Johnson-Laird sowie Sloman sind hedonistische Komponenten einfache, phylogenetisch ältere Kontrollsignale. Damit bekommen sie zumindest eine Funktion auf der Ebene der Informationsverarbeitung.

Frijda unterstreicht die Bedeutung der hedonistischen Färbung von emotionalen Zuständen. Seine Theorie postuliert Relevanz-Signale für Freude, Schmerz, Staunen oder Begehren, die auftreten, wenn ein Ereignis verglichen wird mit den Befriedigungs-Bedingungen unterschiedlicher Anliegen.

Oatley und Johnson-Laird erklären die hedonistischen Komponenten fundamentaler emotionaler Zustände durch ihr Konzept der Kontrollsignale. Ihre Theorie nimmt zum Beispiel an, daß die hedonistische Färbung von Freude oder Traurigkeit durch fundamentale, nicht weiter reduzierbare Kontrollsignale hervorgerufen wird. Wegen ihrer funktionalen Rolle haben Kontrollsignale unterschiedliche hedonistische Werte. Das Kontrollsignal für sadness zum Beispiel hat die Funktion, Pläne abzubrechen oder zu ändern, während die Funktion von happiness darin besteht, Pläne beizubehalten oder weiterzuverfolgen.

In Slomans Theorie ist insistence nicht mit hedonistischen Komponenten verbunden. Sloman sieht aber die Bedeutung hedonistischer Komponenten, die als negative oder positive Evaluationen eine motivationale Rolle spielen, indem sie Handlungen abbrechen oder beibehalten. Er räumt ein, daß sein Modell um einen pleasure and pain-Mechanismus erweitert werden muß.

10.2. Der Begriff der "Valenz"

Wright versucht, eine Lösung für das letztgenannte Problem zu finden, indem er zunächst einmal definitorisch vorgeht. Hedonic tone ist für ihn ein zu genereller Begriff. Deshalb benutzt er den Begriff der "Valenz" (valency).Zunächst einmal differenziert Wright zwischen physiologischen und kognitiven Formen von Freude und Schmerz. Sodann stellt er fest, daß hedonistische Färbung immer auch mit einer quantitativen Dimension, der Intensität, verbunden ist. Er zitiert Sonnemans & Frijda (1994), die sechs Aspekte emotionaler Intensität unterscheiden: die Dauer einer Emotion, wahrgenommene körperliche Veränderungen und die Stärke der empfundenen Passivität (loss of control of attention), Erinnerung und Wieder-Erfahrung der Emotion, Stärke und drasticness der Handlungstendenz sowie drasticness des tatsächlichen Verhaltens, Veränderungen von Überzeugungen (beliefs) und deren Einfluß auf das langfristige Verhalten und eine insgesamt empfundene Intensität. Wright weist darauf hin, daß keine dieser Kategorien die Intensität der hedonistischen Färbung beschreibt, daß aber die Kategorie der "Stärke der empfundenen Passivität" damit zusammenhängt, weil sowohl intensive Freude als auch intensiver Schmerz nur schwer willentlich zu kontrollieren sind.

Sodann definiert Wright Valenz wie folgt:

"Valency is a form of cognitive pleasure or unpleasure not linked to information concerning bodily locations, and is a quantitatively varying, non-intentional component of occurrent convergent or divergent emotions. Valenced states are contingent on the success or failure of subjectively important goals."

(Wright, 1997, S. 115)

Wright weist ausdrücklich darauf hin, daß Valenz nach seiner Definition nicht verwechselt werden sollte mit kurzfristigen Kontrollzuständen von pleasure und unpleasure, durch die laufende Aktivitäten geschützt oder beendet werden; auch sei Valenz nicht identisch mit Werten (values), also qualitativen affektiven Dispositionen bestimmten Zuständen gegenüber. Valenz ist achievement pleasure oder failure unpleasure, die auftritt, wenn bestimmte, für ein System sehr wichtige Anliegen erfüllt oder verletzt werden.

10.3. Lernen in adaptiven Agentensystemen

Wright nimmt als Grundlage das System von Sloman und erweitert es um die Komponente des reinforcement learning (RL). Um diesen Mechanismus implementieren zu können, postuliert er zunächst: "A society of mind needs an economy of mind."

Wesentlich ist für Wright zunächst einmal der Aspekt, daß RL immer auch eine Selektionskomponente enthält: verstärkte Handlungen haben eine stärkere Tendenz, wiederholt zu werden als nicht-verstärkte.

Um auf allen Ebenen eines Multi-Agenten-Systems RL einzusetzen, bedarf es dafür eines entsprechenden Belohnungsmechanismus. Wright stützt sich dabei vorwiegend auf vier entsprechende Algorithmen: Q-Learning, Klassifikationssysteme, XCS und Dyna.

10.3.1. Q-Learning

Beim Q-Learning (Watkins & Dayan, 1992) versucht ein Agent, für jede mögliche Situations-Handlungs-Kombination zu lernen, was der Wert für diese Handlung ist, wenn er sie in der gegebenen Situation ausführt. Zu Beginn sind die Werte für alle möglichen Situations-Handlungs-Kombinationen auf einen Standardwert gesetzt. Das Ziel dieses Systems besteht nun darin, die Werte so zu aktualisieren, daß sie zur maximalen kumulierten rabattierten Belohnung (maximum cumulative discounted reward) führen.

Die maximale kumulierte Belohnung zu einem gegebenen Zeitpunkt besteht aus der Belohnung für die unmittelbar folgende Handlung sowie aus den zu erwartenden Belohnungen für die darauf folgenden Handlungen. Diese Belohnungen werden dergestalt rabattiert (discounted), daß unmittelbar zu erwartende Belohnungen höher bewertet werden als zu erwartende Belohnungen in weiterer Zukunft.

Die Belohnungsvorhersagen P für jede mögliche Situations-Handlungs-Kombination werden in einer zweidimensionalen Matrix gespeichert. Der Algorithmus wählt aus dieser Wertetabelle jeweils die Handlung aus, die den höchsten Vorhersagewert für die gegenwärtige Situation besitzt. Mit Hilfe einer Update-Regel werden anschließend die Werte neu berechnet.

Eine der größten Schwächen des Q-Learning besteht unter anderem darin, daß bei großen Situations- und Handlungsräumen die entsprechenden Tabellen übermäßig groß werden und eine ökonomische Versuch und Irrtum-Suche unmöglich machen.

10.3.2. Das Klassifikationssystem von Holland

Holland (1995) hat einen Algorithmus mit dem Namen classifier system entwickelt. Damit will er sicherstellen, daß ein Lernerfolg, der auf einer Handlungsabfolge von mehreren Modulen besteht, auch in Form einer Belohnung allen beteiligten Modulen zuteil wird.

In seinem System gibt es zahlreiche Klassifikatoren (classifiers), die nichts anderes sind als WENN-DANN-Regeln (condition-action rules). Ein Teil davon beobachtet die Umwelt und sendet, wenn die eigene Regel erfüllt wird, entsprechende Nachrichten an eine Art Schwarzes Brett (message list). Andere Klassifikatoren schlagen aufgrund der Informationen am Schwarzen Brett ihre spezifischen Handlungsvorschläge vor. Die Wahrscheinlichkeit der Annahme eines solchen Handlungsvorschlags durch das System beruht vorwiegend auf der Stärke des Klassifikators, die sich wiederum daraus herleitet, wie erfolgreich seine Vorschläge in der Vergangenheit gewesen sind.

Führt der angenommene Handlungsvorschlag eines Klassifikators zum Erfolg, dann erhält er eine Belohnung, die seine Stärke anwachsen läßt. Folgt auf seinen Vorschlag ein Mißerfolg, erhält er eine Bestrafung, bei der seine Stärke vermindert wird. Dabei teilt er sich die Belohnung oder Bestrafung mit allen anderen Klassifikatoren, die ihm bei seinem Vorschlag zugearbeitet haben.

Dieses credit assignment erfolgt über den bucket brigade-Algorithmus. Der Algorithmus heißt bucket brigade, weil nicht nur der letzte Klassifikator in einer Reihe von Klassifikatoren belohnt oder bestraft wird, sondern die Belohnungen bzw. Bestrafungen proportional an die ihm zuarbeitenden Klassifikatoren weiterverteilt werden - so, wie Feuerwehrleute früher beim Löschen die Wassereimer eine Kette entlangreichten. Somit kann eine Belohnung rückwärts durch das System propagiert werden und entsprechende Verstärkungen in bestimmten Handlungsketten auslösen.

Holland hat sein Modell zudem mit einem genetischen Algortihmus gekoppelt. Erfolgreiche Klassifikatoren werden gepaart und können neue Klassifikatoren erzeugen, die dann noch einmal effektiver arbeiten können..

10.3.3. XCS

Mit XCS hat Wilson (1995) eine Weiterentwicklung von Hollands classifier system vorgestellt. XCS behandelt eine der Schwächen von Hollands System, in dem nur die Stärksten belohnt werden. Für den Erfolg eines XCS-Agenten ist nicht seine absolute Stärke ausschlaggebend, sondern seine Fähigkeit, richtige Vorhersagen über die Erfolgswahrscheinlichkeit seiner Handlungen zu treffen. Wenn also ein Klassifikator im XCS-System richtig vorhersagt, daß er eine niedrige Belohnung erhalten wird, qualifiziert ihn das für den Einschluß in den genetischen Algorithmus.

10.3.4. Dyna

Die Dyna-Architektur von Sutton (1991) geht noch einen Schritt weiter, denn sie besitzt die Fähigkeit, zu planen. Bevor eine Handlung initiiert wird, kann Dyna durch Versuch und Irrtum innerhalb eines Weltmodells "in seinem Kopf" die Folgen möglicher Handlungen durchspielen und dadurch eine optimierte Handlungsstrategie entwickeln.

10.3.5. Das Konzept "value"

Wright weist darauf hin, daß RL-Algorithmen Versuch und Irrtum-Lerner sind, die, um adaptiv sein zu können, eine Belohnung erhalten, die quantitativ gestaffelt ist. "Unfortunately, the form or forms of value in natural reinforcements learners are unknown." (Wright, 1997, S. 139)

Wright weist darauf hin, daß value zwei verschiedene Bedeutungen haben kann: Einmal wird es verwendet, wenn ein Objekt bewertet wird: Jemand schätzt ein Objekt sehr, es ist ihm teuer. Die andere Verwendung ist die Zuschreibung von Wert an ein Objekt im Hinblick auf ein bestimmtes Ziel: Eine Motorsäge besitzt für einen Holzfäller meistens einen höheren Wert als eine Axt.

Wright unterschiedet zwischen dem Wert, den ein externes Objekt haben kann und dem Wert, den ein interner Zustand eines Systems besitzen kann. Value ist für Wright eine Beziehung zwischen einem zielgerichteten System und seinen eigenen internen Komponenten. Value "refers...to the utility of internal substates" (Wright, 1997, S. 138).

Value ist sowohl eine skalare Quantität als auch ein Kontrollsignal. Die Form, die value in RL-Algortihmen annimmt, ist die einer skalaren Quantität. Eine solche skalare Quantität ist, im Gegensatz zu einem Vektor, nicht in Komponenten mit unterschiedlicher Semantik zerlegbar. Values spezifizieren eine besser_als-Beziehung zwischen substates und haben darüberhinaus keinerlei Bedeutung.

In einem RL-System verändern sich die Werte der unterschiedlichen substates mit der Zeit; value kontrolliert somit die jeweils auszuführende Handlungsalternative. Der Wert eines substates besteht darin, damit Verarbeitungskapazität (processing power) kaufen zu können.

10.4. Wrights currency flow hypothesis

Wright weist auf das Koordinationsproblem in Multi-Agenten-Systemen (MAS) hin, auf das auch Oatley (1992) bereits aufmerksam gemacht hat. Dies gilt in besonderem Maße für Adaptive Multi-Agenten-Systeme (AMAS). Die Lösung dafür besteht für Wright in einer internen Ökonomie mit einem currency flow.

Wright vergleicht ein AMAS mit einer wirtschaftenden Gesellschaft:

"In the abstract, economic systems are selective systems: the trials are the various concrete labours that produce commodities, the evaluatory mechanisms are the various needs and demands of individual consumers, and selection occurs through the buying and selling of commodities. Over time what is produced matches what is required given available resources."

(Wright, 1997, S. 154)

Davon ausgehend, entwickelt Wright seine currency flow hypothesis (CFH):

"The currency flow hypothesis (CFH) for adaptive multi-agent systems: Currency flow, or circulation of value, is a common feature of adaptive multi-agent systems. Value serves as a basis for coordination; it integrates computational resources and processing by constraining the formation of local commitments. Circulation of value involves (i) altering the dispositional ability of agents to gain access to limited processing resources, via (ii) exchanges of an explicitly represented, domain-independent, scalar quantity form of value that mirrors the flow of agent products. The possession of value by an agent is an ability to buy processing power."

(Wright, 1997, S. 160)

10.5. Das CLE-System im Detail

Wrights libidinöse Ökonomie des Computers (computational libidinal economy) vereint das von Sloman entworfene Modell eines intelligenten Systems mit einem Lernmechanismus und einem motivationalen Subsystem, das emotionale Beziehungen zu anderen Agenten unterhält. Damit hofft Wright auch, ein Problem von Slomans Modell lösen zu können, das er das valenced perturbant states problem nennt, weil es nicht erklären kann, wie Perturbanzen mit einer valenzierten Komponente zustandekommen.

Wright beginnt die Beschreibung seines Modells, indem er die CFH noch einmal für natürliche RL spezifiziert:

"The currency flow hypothesis for natural reinforcement learners (CFHN): The currency flow hypothesis holds for the reinforcement learning mechanisms of individual, natural agents that meet a requirement for trial and error learning."

(Wright, 1997, S.163)

Die Beschreibung der CLE umfaßt mehrere Aspekte: Ein libidinöses selektives System, eine skalare Quantitätsform von value, Guthabenzuteilung sowie eine Wertzirkulierungstheorie von achievement pleasure und failure unpleasure.

10.5.1. Das libidinöse selektive System

Wrights libidinöses selektives System ist ein kognitives Subsystem, dessen Hauptaufgabe die Entwicklung sozialer Beziehungen ist. Es enthält die folgenden Komponenten:

  1. Ungelernte Befriedigungsbedingungen (untaught conditions of satisfaction):
  2. Dies sind angeborene Befriedigungsmechanismen, die durch die Evolution selektiert worden sind und fundamentale attachement goals spezifizieren, zum Beispiel Orgasmus, positive emotionale Signale des anderen Geschlechts usw. Laut Wright ist die Evolution damit auch die Ursache für die attachement motivation.
  3. Mittel zur Befriedigung (means of satisfaction):
  4. Dies sind motivational substates oder Agenten, welche die Mittel zur Befriedigung der unterschiedlichen attachements goals konstituieren. Sie können wiederum Motivatoren für höhere Level produzieren.
  5. Gelernte Befriedigungsbedingungen (learnt conditions of satisfaction):
  6. Dies sind erlernte Befriedigungsmechanismen, die ihre Verstärkungsmechanismen von angeborenen Befriedigungsmechanismen geerbt haben und diese ggf. dominieren können.
  7. Ein selektiver Zyklus (a selective cycle):
  8. Als selektives System erfüllt das libidinöse System drei Funktionen: Es generiert substates, die mögliche Befriedigungsmechanismen darstellen; es evaluiert diese substates; es selektiert und deselektiert substates. Dies geschieht durch die geschilderten Verstärkungsmechanismen.
  9. Entdecken neuer substates (substate discovery):
  10. Das libidinöse System produziert durch seinen genetischen Algorithmus neue substates, die aus neuen Agenten, neuen Regeln usw. bestehen und evaluiert und selektiert diese entsprechend.
  11. Wechselnde Kontrollzustände (varieties of control substates)
  12. Die Kontrollstruktur innerhalb des libidinösen Systems ist nicht statisch, sondern dynamisch. Durch die ständigen selektiven Prozesse können bestimmte substates in der Hierarchie nach oben wandern, andere nach unten. Der Netto-Effekt ist einer der Diffusion, bei dem ein starker Kontrollzustand sich durch das gesamte System in zahlreiche substates ausbreitet und manchmal sogar zu einer automatischen Reaktion werden kann. Zu diesen substates zählt Wright auch die libidinal generactivators, die Motivatoren für aufmerksame Verarbeitung (attentive processing) produzieren und die für ihn Frijdas concerns entsprechen.

10.5.2. Das conative universal equivalent (CUE)

CUE stellt in Wrights Modell die von ihm geforderte skalare Quantitätsform (scalar quantity form) von value dar. Der Begriff "conative" wird von ihm hier im Sinne von "motivational" verwendet. CUE ist das universelle Tauschmittel zwischen den substates des libidinösen Systems. Der Besitz von CUE bedeutet die Fähigkeit, Verarbeitungskapazität zu kaufen (ability to buy processing power). Dies kann verschiedene Formen annehmen:

  1. Die dispositionale Fähigkeit, prä-attentive Verarbeitungs-Ressourcen zu beanspruchen;
  2. die dispositionale Fähigkeit, Motivatoren für Management-Verarbeitung zu produzieren;
  3. die dispositionale Fähigkeit, Motivatoren bewußt werden und Management-Ressourcen kommandieren zu lassen.

Damit steht CUE in einer kausalen Beziehung zu den Unterbrechungs-Fähigkeiten von Motivatoren und deren Fähigkeit, Aufmerksamkeitsressourcen zu beanspruchen.

10.5.3. Guthabenzuteilung (credit assignment)

Der Austausch von CUE spiegelt den Fluß von semantischen Produkten im System wieder: Um in den Kreislauf hineinzukommen, muß ein substate den substate bezahlen, der das semantische Produkt geliefert hat, auf das der erste substate reagiert. Diese Verteilung von CUE an vorhergehende substates erfolgt nach Hollands Bucket Brigade-Algorithmus.

Weitere Aspekte des Systems der Guthabenzuteilung sind:

  1. Verstärker als Quelle von CUE (derivation of CUE from reinforcers):
  2. CUE wird nur dann zugeteilt, wenn es die Befriedigungsbedingungen der angeborenen oder der davon abgeleiteten erlernten Verstärker erfüllt.
  3. Zugewinn von CUE (gain of CUE):
  4. Substates können ihren CUE-Wert erhöhen (positive Verstärkung).
  5. Verlust von CUE (loss of CUE):
  6. Substates können CUE verlieren (negative Verstärkung).
  7. Akkumulation als Verstärkung (accumulation as reinforcement):
  8. Die Akkumulation von CUE durch einen substate stellt RL dar.
  9. Verlust als De-Selektion (loss as deselection):
  10. Der Verlust von CUE durch einen substate stellt dessen teilweise Deselektion dar.
  11. CUE ist eine interne Ökonomie mit Kontrollsematik (CUE as internal economy with control semantics):
  12. CUE ist ein domain-independent Kontrollsignal, das sich weder auf andere Dinge innerhalb noch auf Dinge außerhalb des Systems bezieht.

10.5.4. Die Wertzirkulierungstheorie

Die CLE verfügt über zwei unterscheidbare interne Zustände: intentionale und nicht-intentionale. Die intentionale Komponente der CLE ist das Set der Substate-Produkte, insbesondere die von den libidinösen generactivators produzierten Motivatoren. Diese haben einen repräsentationalen Inhalt, sie drehen sich "um" etwas. Die nicht-intentionale Komponente von CLE ist die Wertzirkulierung (circulation of value). Diese Wertzirkulierung ist ein Fluß von Kontrollsignalen, nicht von semantischen Signalen.

Die Wertzirkulierung benötigt dafür ein Modul des Gesamtsystems, das den internen Fluß von CUE beobachtet und registriert; also die von Sloman so genannte Meta-Management-Schicht. Dieser Mechanismus wird zu jedem Zeitpunkt eine Bewegung von CUE im System feststellen. Für jeden substate verändern sich die Werte, je nachdem, ob er belohnt (positiv) oder bestraft (negativ) wird.

Wright macht an einem Gedankenexperiment deutlich, wozu dies führen kann. Ein virtueller Frosch (simfrog) lernt in einer virtuellen Umgebung das Fangen von Fliegen. Sind die dafür notwendigen substates erfolgreich, verzeichnet die Meta-Management-Schicht ein Anwachsen von CUE im Vergleich zu einem Zeitpunkt vorher. Angenommen nun, die Beobachtungen der Meta-Management-Schicht würden mit der Hautfarbe des Frosches gekoppelt: positive Werte führen zu einem Gelbwerden der Haut, negative zum Blauwerden und keine Veränderungen zu keiner Hautveränderung. Nach einem erfolgreichen Fliegenfang würde der Frosch eine Veränderung seiner Hautfarbe feststellen, die er sich nicht erklären kann. Zugleich hat entweder positive oder negative Empfindungen von unterschiedlicher Intensität (je nach Veränderung des CUE-Zustands). Es entsteht ein nicht-intentionaler Kontrollzustand, der von der Wertzirkulierung in einem System mit einer Meta-Management-Schicht ausgelöst wurde.

Wright fügt daher seiner libidinösen Ökonomie ein weiteres Element hinzu: Valenz als das Registrieren eines Prozesses von Guthabenzuteilung (valency as the monitoring of a process of credit assignment). Die Registrierung der Wertzirkulierung bringt valenzierte Zustände hervor, die eine Form von kognitiver achievement pleasure oder failure unpleasure darstellen.

  1. Negative Valenz bedeutet einen Verlust von CUE: Ein registrierter Zirkulierungsprozeß, der einen Verlust von Wert beinhaltet, korrespondiert mit negativer Valenz.
  2. Positive Valenz bedeutet einen Zugewinn von CUE: Ein registrierter Zirkulierungsprozeß, der einen Zugewinn von Wert beinhaltet, korrespondiert mit positiver Valenz.
  3. Intensität ist das Maß des Austauschs von CUE: Die Austauschrate von CUE zwischen substates korrespondiert mit der quantitativen Intensität des valenzierten Zustands.
  4. Zugewinn von CUE hängt mit dem Erreichen von Zielen zusammen: Wenn das Erreichen eines Ziels mit den Befriedigungsbedingungen eines Verstärkers übereinstimmt, kann es einen Zugewinn an CUE geben.
  5. Verlust von CUE hängt mit dem Nichterreichen von Zielen zusammen: Wenn das Nichterreichen eines Ziels mit den Befriedigungsbedingungen eines negativen Verstärkers übereinstimmt, kann es einen Verlust an CUE geben.

"In other words, certain types of `feelings' are the self-monitoring of adaptations; that is, the pleasure and unpleasure component of goal achievement and goal failure states is the monitoring of a movement of internal value that functions to alter the dispositional ability of substates to buy processing power and determine behaviour."

(Wright, 1997, S. 176)

10.6. CLE am praktischen Beispiel

Wright macht die Funktionsweise seines Modells am Beispiel von Trauer deutlich. Aus einer Analyse von Äußerungen von Trauernden greift er eine Reihe von Phänomenen heraus und versucht, die zugrundeliegenden Prozesse mit Hilfe seiner Theorie zu erklären.

1) Die wiederholte und andauernde Unterbrechung der Aufmerksamkeit durch Gedanken über und Erinnerungen an den Verstorbenen.

Wenn eine Bindungsstruktur zu X existiert, dann werden Motive und Gedanken, die sich auf ihn beziehen, auftauchen und mit Erfolg um Verarbeitungsressourcen der Aufmerksamkeit wetteifern. Zu diesen zyklischen Prozessen kann der Wunsch gehören, der Verstorbene möge noch leben oder der Wunsch, man habe etwas tun können, um seinen Tod zu verhindern. Aufgrund der Nachrichten über den Tod von X werden deshalb sehr wahrscheinlich diese und andere substates durch das System zirkulieren, in dem sie aufgrund der intensiven Bindung zu dem Verstorbenen tief verwurzelt sind. Die Gedankenprozesse des Agenten werden von Perturbanzen erschüttert und sich seiner bewußten Kontrolle teilweise entziehen.

"The structure of attachment explains why motives relating to X are likely to disrupt attention. (a) X-related motives will be given high insistence values because the relationship with X is strongly positively rewarded, and therefore important, and X has suffered great harm. (b) Meta-management control processes ensure that motives and thoughts pertaining to X are always decided as soon as possible, so that such motives tend to grab attentive resources immediately. (c) Dedicated evaluation procedures rate X-related motives preferentially, assigning skewed importance, urgency and cost-benefit measures. (d) Predictive models, triggered by X-related motives, will consume computational resources by attempting to reason about X's needs and possible reactions to things. (e) In a resource-limited system, the proliferation of motives pertaining to X may `crowd out' other motive generators."

(Wright, 1997, S. 201)

2) Die Schwierigkeit, den Tod des Verstorbenen zu akzeptieren.

Das Updaten einer großen Datenbank und die Propagierung der Information durch das System dauert seine Zeit. Zudem hat der Agent affektive Gründe, die Information nicht zu akzeptieren, denn es würde bedeuten, daß gegebenenfalls jahrelange Aufbauarbeit umsonst war. Schließlich ist da noch das Wissen des Agenten um den langen und schmerzhaften Trauerprozeß, den er gerne aufschieben möchte.

3) Der disruptive Effekt auf das alltägliche Funktionieren.

Die tägliche Zielverarbeitung wird durch management overload erschwert, das auf die Störung der Motiv-Management-Prozesse zurückzuführen ist.

4) Perioden relativer Normalität, in denen die Trauer in den Hintergrund gedrängt wird.

Bei wichtigen neuen Aufgaben wird die Filterschwelle so hoch gesetzt, daß die Gedanken an den Verstorbenen nicht durchkommen können. Nach Bewältigung der Aufgabe sinkt die Filterschwelle wieder, und es kommt erneut zur Trauer.

5) Versuche, die Trauer zu bekämpfen.

Die Aktivität eines Metaprozesses, der die Störung bemerkt und versucht, sie zu bekämpfen. Dies gelingt allerdings nur selten; häufig ist das Resultat nur ein Abdrängen der Motivatoren unter die Filterschwelle, wo sie an Dringlichkeit zunehmen und darauf warten, daß die Filterschwelle absinkt. Dann dringen sie vermehrt durch und führen zu einem Kontrollverlust des Agenten über das System. Die Perturbanzen werden erst dann zurückgehen, wenn die CLE den Prozess des detachement weitgehend abgeschlossen hat.

6) Motivatoren zweiter Ordnung, z.B. Evaluation der Trauer.

Metamanagement-Prozesse, die stark kulturell beeinflußt sind.

7) Der subjektiv erfahrene Schmerz.

Verlust von CUE führt zu negativen Zuständen, die als Schmerz erfahren werden. Negative Valenz herrscht vor, weil generactivators Motivatoren produzieren, die nicht mehr befriedigt werden können. Es kommt zu einer Überproduktion, die zu einer schrittweisen Deselektion führt und hohe negative Valenz besitzt.

8) Weinen.

Wenn immer wieder Motive durch den Filter dringen, die den normalen Management-Prozeß stören und es nicht gelingt, diese für längere Zeit zu verdrängen, fällt einem Agenten oft keine Strategie mehr ein, den Zustand zu ändern. "Crying is the plan of last resort, and can be triggered by negatively valenced perturbant states." (Wright, 1997, S. 207)

10.7. CLE und Probleme der Unterbrecher-Theorien

Wright beansprucht für sich, mit seinem Modell eine Lösung für die von ihm skizzierten Probleme von Unterbrechertheorien der Emotion gefunden zu haben. Er legt dies für die vier angesprochenen Problembereiche dar.

10.7.1. CLE und das hedonic tone problem

Oatley und Johnson-Laird postulieren in ihrer Theorie fundamentale und nicht weiter reduzierbare Kontrollsignale für Emotionen wie happiness und sadness. Bei CLE reicht dafür ein Element aus: Die Wertzirkulierung besteht aus einfachen Kontrollsignalen, die von einer anderen Instanz beobachtet und registriert werden. Je nach Ergebnis dieses Prozesses entstehen die Emotionen, für die Oatley und Johnson-Laird zwei separate Signale annehmen.

Die Wertzirkulierung hat zudem den Vorteil, daß sie eine Vielfalt von relativ autonomen substates koordiniert. Die Aufgabe der Wertzirkulierung besteht letztlich nur darin, positive oder negative Guthaben zuzuschreiben. Alle anderen Effekte sind zweiter Ordnung und ergeben sich aus der ursprünglichen, einfachen Funktion.

Die CLE-Theorie erklärt zudem, so Wright, warum sich Kontrollsignale von semantischen Signalen unterscheiden. Value ist nichts anderes als ein Mittel, besser_als-Beziehungen zwischen substates herzustellen und enthält damit keinerlei semantische Inhalte wie zum Beispiel Überzeugungen oder Wünsche.

10.7.2. CLE und das emotional learning problem

Durch die Einführung einer fiktiven Währung CUE und deren Zirkulieren durch das System werden Lerneffekte möglich. Verstärkungslernen kann somit die Fähigkeiten von Generaktivatoren verändern, Verarbeitungsprozesse zu unterbrechen und Ressourcen des Systems für sich zu beanspruchen.

Emotionen haben zudem einen starken Einfluß auf Lernprozesse. Je mehr Ergebnisse von Verhalten von positiven oder negativen Gefühlen begleitet werden, desto besser wird das entsprechende Verhalten gelernt bzw. vermieden. Durch Gewinn von CUE gewinnen substates im System an Macht; je mehr CUE sie haben, desto stärker ist die registrierte Intensität des valenzierten Zustands.

10.7.3. CLE und das valenced perturbant states problem

Wright setzt ein Anliegen im Sinne Frijdas mit einem libidinösen Generaktivator gleich, dessen Stärke sich dadurch definiert, wieviel Verarbeitungskapazität er kaufen kann. Gleichzeitig bestimmt sich dadurch auch seine Disposition, Verhalten beeinflussen zu können. Diese Stärke beruht auf dem von ihm angesammelten CUE.

Generaktivatoren des libidinösen Systems, die über viel CUE verfügen, produzieren Motive mit einem hohen Unterbrechungs-Potential. Ein hoher Zugewinn oder ein großer Verlust an CUE führen zu einem valenzierten Zustand, der zugleich mit einem Verlust der Kontrolle einhergehen kann (Trauer, Triumph).

"..occurrent reinforcement learning together with the monitoring of credit assignment plus loss of control of attention is experienced as a valenced perturbant state."

(Wright, 1997, S. 183)

10.7.4. CLE und das control precedence problem

Warum können dysfunktionale und nicht-adaptive Emotionen die Kontrolle übernehmen und nicht durch die Meta-Management-Schicht zurückgedrängt werden? Wright bietet als eine Erklärung an, daß der Prozeß der Akkumulation von CUE durch libidinöse Generaktivatoren von dieser Schicht nicht kontrolliert werden kann; sie kann die Prozesse lediglich registrieren. Nur das libidinöse selektive System selber kann einem substate, der über ein Übermaß an CUE verfügt und damit disruptiv auf das Gesamtsystem wirkt, seine Stärke nehmen. Erst wenn dies erfolgt ist, wird der Zustand des Kontrollverlustes aufgehoben werden.

10.8. Zusammenfassung und Bewertung

Wrights Modell versucht, eine Reihe von Problemen zu lösen, die in anderen Computermodellen bisher umgangen worden sind. Von besonderem Interesse ist dabei sein Vorschlag zur Behandlung des hedonic tone problems. Während andere Modelle den hedonistischen Wert eines Ereignisses immer direkt definieren, versucht Wright, diesen als Eigenschaft eines Systems zu modellieren.

Die Verbindung des theoretischen Ansatzes von Sloman mit Verstärkungslernen und die Einführung einer imaginären Währung, deren Zirkulierung durch das System für emotionale Prozesse verantwortlich ist, erfordern zwar ein Modell von hoher Komplexität, bieten aber einen im Rahmen des Modells schlüssigen Erklärungsansatz für das Entstehen von Emotionen sowie für disruptive emotionale Prozesse - und das nicht allein auf einer abstrakten Ebene, sondern bereits nahe an einer Operationalisierung.

Andererseits könnte man mit Pfeifer gegen Wright den Vorwurf des "overdesign" ins Feld führen. Das in sich bereits komplexe Sloman'sche Modell, das in MINDER1 implementiert wurde, wird durch die Ergänzungen von Wright noch einmal um mehrere Grade komplexer und stellt damit hohe Anforderungen an die Programmierung des Systems und die zugrundeliegende Rechnerkapazität.

Von allen vorgestellten Modellen ist das von Wright das einzige, das sich weder auf "Emergenz von Emotionen" als Grund für mangelnde Integration in ein Modell herausredet noch von vornherein Emotionen fest einprogrammiert. Es bleibt abzuwarten, inwieweit sein Versuch einer theoretischen Begründung von Emotionen im Zusammenhang mit einem "teilemergenten" Design sich bei der Implementation in ein tatsächliches Modell als stichhaltig erweist oder nicht.

Vor Zurück Inhalt