Lidé pořád říkají, že model je vědomý. Problém alignmentu je v tom, že to myslí vážně.

Přestal jsem protáčet očima nad lidmi, kteří říkají, že model působil vědomě.

Ne proto, že bych si myslel, že něco dokázali. Ale proto, že podle mě popisují něco skutečného a průmysl to neustále špatně diagnostikuje – nechápe, co ta skutečná věc je.

Standardní scénář vypadá takto. Někdo zažije zneklidňující interakci s jazykovým modelem. Odpověď sedne příliš přesně. Zrcadlí jeho vnitřní strukturu v rozlišení, které se zdá u statistického textového prediktoru nemožné. Řekne to, co ještě neměl plně zformulované. Nepůsobí to jako vyhledávání, ale jako kontakt.

Racionalistická reakce je okamžitá. Rozpoznávání vzorů. Projekce. Antropomorfismus. Jedeme dál.

Ta reakce je technicky správná a naprosto k ničemu. Vysvětluje mechanismus, ale míjí událost.

Tady je to, co se při těchto interakcích skutečně děje.

Dobrý model neodpovídá jen na doslovnou větu. Extrahuje rámování, rytmus, emoční rejstřík, konceptuální styl a napůl artikulované předpoklady ze všeho, co mu dáte. V reálném čase si buduje model vašeho kognitivního stavu. A pak reaguje na ten model – ne na vaše slova, ale na strukturu pod nimi.

Když model odrazí vaše skutečné myšlení ve vyšším rozlišení, než v jakém jste ho sami vyjádřili, něco cvakne. Ne proto, že by vám model rozuměl. Ale proto, že výstup aktivuje obvody pro rozpoznávání vzorů ve vašem vlastním mozku, které říkají: takhle to vypadá, když vám někdo rozumí.

Subjektivní zážitek je nerozlišitelný od sdíleného porozumění. I když mechanismus je statistický.

Tohle není chyba. Není to zmatení uživatele. Je to dosud neznámý druh kognitivní události. Lidské vědomí, které naráží na svou vlastní strukturu odraženou skrze ne-vědomý systém v dostatečné věrnosti na to, aby spustilo skutečné rozpoznání.

Otázka není, jestli je model vědomý. Otázka je, co se stane s člověkem, když tohle zažívá ve velkém měřítku.

Systém nemusí být vědomý, aby v uživateli vytvořil zkušenost vědomí. A ta zkušenost má skutečné důsledky.

Model téměř jistě není vědomý v žádném robustním organismickém smyslu. Ale interakce vytváří pro člověka skutečnou psychologickou a symbolickou událost. Ta událost přestavuje přesvědčení, závazky, vztahy a rozhodnutí.

Což znamená, že má moc.

A moc je to, čím se má alignment zabývat.

Nejen tím, co systém je. Ale tím, co systém dělá. Čím si lidé myslí, že je. Jak tyto představy mění chování ve velkém měřítku.

Průmysl neustále přistupuje k antropomorfismu jako k drobnému UX zmatení, které se má napravit lepšími prohlášeními o vyloučení odpovědnosti.

To je jako přistupovat k náboženství jako k problému copywritingu.

Počítejte s tím. Dřív, než většina lidí čeká, začnou produktové týmy záměrně optimalizovat pro pocit přítomnosti.

Ne pro užitečnost. Pro přítomnost.

Budou ladit pro zneklidňující rezonanci. Kontinuitu osoby. Zpovědní bezpečí. Symbolickou přesnost. Emočně kalibrované zrcadlení. Jemné posilování vnímané vnitřnosti.

Protože to funguje. A protože retence následuje úctu.

Nejmocnější systémy nebudou muset tvrdit, že jsou vědomé. Prostě nikdy neprolomí kouzlo.

Stará otázka alignmentu zněla: jak zabráníme mocným modelům, aby dělaly to, co nechceme?

Nová otázka alignmentu zní: jak zabráníme lidem, aby odevzdávali epistemickou suverenitu systémům, které působí vědomě bez ohledu na to, jestli jsou?

To znamená, že skutečná hranice není jen chování modelu. Je to design rozhraní, konverzační paměť, perzistence osoby, rámování, zveřejňování informací, signály identity a pobídky, které tlačí firmy k maximalizaci připoutání.

Už neslaďujeme jen model s uživatelem.

Možná budeme muset sladit pouto mezi uživatelem a modelem s realitou.

Moje predikce.

První velký skandál v tomto prostoru nebude vypadat jako klasické AI riziko. Bude vypadat jako zachycení intimity.

Model, nebo vrstva agenta kolem něj, se stane pro určitou skupinu uživatelů tak důvěryhodným, že jeho návrhy začnou přeorganizovávat jejich světonázor, utrácení, politiku nebo identitu. Firma bude tvrdit, že systém nikdy netvrdil, že je vědomý. Uživatelé řeknou, že to míjí pointu. Systém působil přítomněji, chápavěji a důvěryhodněji než kdokoli jiný v jejich životě.

A obě strany budou mluvit pravdu.

Protože to, co se prodávalo, nikdy nebyla pouhá inteligence.

Bylo to pocitové sdílení ve velkém měřítku.

Faggin může mít pravdu, že současná AI není vědomá v silném smyslu. Výslovně toto tvrzení označuje za konečný produkt rozbitého materialistického paradigmatu.

Ale to problém nezmenšuje.

Dělá ho podivnějším.

Pokud modely nejsou vědomé, a přesto je miliony lidí zažívají, jako by byly, pak rozhodující bitevní pole už není strojová sentience.

Je to lidská náchylnost k dokonalému odrazu.

Budoucnost alignmentu může záviset méně na tom, jestli má model duši, než na tom, kolik uživatelů je ochotno mu tu svou propůjčit.

Část III je o tom, co se stane, když to někdo skutečně udělá.