Snažíme se intuici převést do algoritmu, a naučit ji počítače

„Nejcennější data bývají ta, o nichž předem nevíte, že je budete potřebovat. Na takovém principu funguje i náš software,“ říká v rozhovoru Šmuel Bar, izraelský zakladatel softwarové firmy IntuView.

Umělá intuice. | na serveru Lidovky.cz | aktuální zprávy Umělá intuice. | foto: Ilustrace Richard CortésČeská pozice
Umělá intuice.

Jako zaměstnanec izraelských tajných služeb chtěl Šmuel Bar původně rozumět tomu, co se skrývá za texty arabských radikálů. Nakonec na hledání skrytých významů a emocí v textech na internetu založil svůj byznys. Zakladatel softwarové firmy IntuView v rozhovoru říká, že skutečné porozumění začíná tam, kde končí strojový překlad. Namísto umělé inteligence proto „své“ vyhledávací roboty učí na internetu používat umělou intuici. Naučit stroj myslet je chvályhodné, je ale třeba, aby strojovou mysl věci také napadaly. Stejně mimoděk jako nás.

Šmuel Bar, izraelský zakladatel softwarové firmy IntuView.

ČESKÁ POZICE: Jste vystudovaný historik, často komentujete jako politolog extremistická hnutí v islámu, léta jste působil v izraelských tajných službách. Jak se člověk s takovým životopisem rozhodne založit softwarovou firmu?

BAR: Všechny ty profese spolu ve skutečnosti souvisejí. Spojuje je naše snažení světu porozumět. Když jsem pracoval ve zpravodajské službě, často jsem narážel na to, že jsem sice měl k dispozici opravdu dobrý překlad nějakého textu z arabštiny, ale unikaly mi souvislosti. Rozuměl jsem tomu textu, ale nechápal jsem, co bylo za ním, co bylo sdělení a pro koho bylo určené.

Když jsme zakládali firmu IntuView, vyšel jsem z toho, co jsem znal ze zpravodajské komunity. Agenti dostávali informace, ale nerozuměli jim. To není jen zkušenost z Izraele.

Když jsme zakládali firmu IntuView, vyšel jsem z toho, co jsem znal ze zpravodajské komunity. Agenti dostávali informace, ale nerozuměli jim. To není jen zkušenost z Izraele. Podívejte se například na útoky na bruselské letiště v roce 2016. Zatímco v anglicky psaných postech na sociálních sítích se tehdy psalo o „attacks“ (útocích), v arabštině se často objevovalo slovo ghazwa.

Teď si představte, že jste policista, který se jen letmo orientuje v arabštině, ví, že nějaký příspěvek na sociální síti je o letišti a výbuchu. Pak je pro vás nejjednodušší cesta použít automatický překladač. Ten vám jako výsledek slova ghazwa nabídne termín útok. Čistě lexikálně je to správně. Jenže v překladu vám zaniknou konotace a emoce. A ghazwa jsou v tradiční arabštině také bitvy, kterými prorok Muhammad v raných fázích expanze islámu šířil víru, tedy něco veskrze pozitivního.

Z neutrálního významu najednou máte slovo, které naznačuje, že pisatel za útoky vidí i chvályhodnou stránku. Na takové „potíže v překladu“ naráží nejen belgická, ale i francouzská policie. Není to jejich chyba, ale když myslí, myslí ve vlámštině nebo francouzštině, pak si to přeloží a podle toho hledají diskuse na internetu. Je to jako v tom vtipu, kdy pán hledá klíče pod pouliční lampu, a když se ho policista zeptá, zda je ztratil opravdu tam, odpoví, že ve skutečnosti někde úplně jinde, ale tady pod lampou je alespoň světlo.

Volba schůdné a jednoduché cesty vás nikam nedovede. Je to metoda dobrá pro 20., nikoli 21. století. Jestli chcete skutečně chápat souvislosti, je třeba obrátit celé schéma uvažování. Místo toho, abyste informace stahovali a pasivně vyhodnocovali, je třeba je tlačit a postrkovat dopředu.

Volba schůdné a jednoduché cesty vás nikam nedovede. Je to metoda dobrá pro 20., nikoli 21. století. Jestli chcete skutečně chápat souvislosti, je třeba obrátit celé schéma uvažování. Místo toho, abyste informace stahovali a pasivně vyhodnocovali, je třeba je tlačit a postrkovat dopředu. Hledat jinde než pod tou svítící lampou.

Data je třeba vytěžovat chytře. A nejcennější bývají ta, o nichž předem nevíte, že je budete potřebovat. Na takovém principu funguje i náš software, protože hledá po internetu skryté významy, navazující a příbuzná témata nebo emoce, ukazuje jejich výskyt v celé nějaké geografické nebo společenské entitě. Jinými slovy umí číst i mezi řádky.

ČESKÁ POZICE: Internet je nepřebernou zásobárnou různých textů – od odborných až po ty s nulovou výpovědní hodnotou. Co vše může jazyk, kterým komunikujeme, prozradit o tom, odkud pocházíme, kde jsem sociálně zakotvení, jak smýšlíme?

BAR: Pracujeme s analýzou psaných textů, a to v celé šíři všech možných stylistických forem – od tweetů a zpráv na sociálních sítích až po formální texty, jako jsou úřední dopisy nebo politická prohlášení. V první fázi je leccos možné o pisateli usoudit, aniž bychom se zabývali obsahem.

Pracujeme s analýzou psaných textů, a to v celé šíři všech možných stylistických forem – od tweetů a zpráv na sociálních sítích až po formální texty, jako jsou úřední dopisy nebo politická prohlášení

Vzdělaný člověk obvykle píše jinak, než mluví, jinak stylizuje. Nicméně existuje něco jako kanonizovaná forma jazyka, v níž si všichni uživatelé rozumějí. Tento kánon se v uplynulých deseti letech dost rozvolnil, stále více lidí používá neologismy, slova převzatá z angličtiny, svět IT nebo reklamních agentur je jich plný. Funguje to třeba i v čínštině, kde se radikály znaků stávají novými slovy s jiným významem, a expert, který ovládá tradiční čínštinu, jim nebude rozumět.

Druhá věc je, že když chcete zaznamenat nějakou promluvu, bude záležet na tom, kdo ten protokol pořídí. Stejnou řeč jinak interpretuje právník, jinak stavební inženýr a jinak třeba kněz. Dobře to funguje na příkladu novin. Nevím, jak v Česku, ale sleduji britské noviny, a kdybyste mi dal jen přepsaný text z nějakého deníku, abych to nemohl tipnout podle layoutu, řekl bych, že docela spolehlivě určím, jestli to vyšlo v levicovém deníku The Guardian, nebo v konzervativních Timesech. Nejsou to jen konkrétní slova, ale celá konstrukce textu.

Řečeno terminologií, kterou používá sociolingvistika, tedy máme nějaký jazykový registr, varianty jazyka používané v návaznosti na konkrétní situaci a styl komunikace. Z takového širokého repertoáru jazyka můžeme vyjít. A nejen to. Je třeba si uvědomit, že jazyk je také politický konstrukt. Když vám dám text napsaný v polštině, kolik z toho budete rozumět?

ČESKÁ POZICE: Řekl bych tak dvě třetiny.

Vzdělaný člověk obvykle píše jinak, než mluví, jinak stylizuje. Nicméně existuje něco jako kanonizovaná forma jazyka, v níž si všichni uživatelé rozumějí. Tento kánon se v uplynulých deseti letech dost rozvolnil, stále více lidí používá neologismy, slova převzatá z angličtiny, svět IT nebo reklamních agentur je jich plný.

BAR: Vidíte. Přitom když dáte třeba Maročanovi přečíst arabský text, který napsal Saúd a jemu zase marockou arabštinu, budou tomu rozumět tak z jedné pětiny. A přitom je to úředně jeden jazyk, který se děti učí ve školách. Proč jsou potom čeština a polština dva různé jazyky? Nebo dánština a švédština, které jsou si také blízké? Podstatou není úplně odlišná slovní zásoba nebo syntax, tedy lingvistické odlišnosti, ale politické dějiny – v určitém okamžiku nastala potřeba národního jazyka, který se takto vědomě vymezil vůči okolí.

ČESKÁ POZICE: To jsme ale stále u běžného jazyka, jak jej obecně chápeme. Jazyka, který lze přeložit. Algoritmus IntuScan vašeho speciálního vyhledávače jde ale dál, je založen na umělé intuici. Co si pod tím lze představit?

BAR: Základní myšlenka je podobná konceptu rychlého myšlení, který proslavil izraelsko-americký psycholog Daniel Kahneman. Když to hodně zestručním – každý má uložené nějaké vědomosti, a když něco čte nebo píše, na něco reaguje, s těmito vědomostmi se to propojí. Tato propojení, která často vycházejí ze sociální, kulturní či náboženské tradice, vytvářejí závěry, které přijímáme, aniž bychom si toho byli vědomi. Je to automatické.

Často vám někdo řekne, že neví, proč se rozhodl zrovna takto, prostě to tak cítil. Nejsou to ale jen emoce, které rozhodují. Rozhodnutí, která činíme v rámci „rychlého myšlení“ vycházejí z intuitivního kroku. My se tento intuitivní proces snažíme převést do algoritmu a naučit tak vnímat zadané úkoly i počítače. Jdeme na to tak, že vytváříme strukturované sbírky textů a propojujeme je s konkrétním jazykovým registrem.

Sleduji britské noviny, a kdybyste mi dal jen přepsaný text z nějakého deníku, abych to nemohl tipnout podle layoutu, řekl bych, že docela spolehlivě určím, jestli to vyšlo v levicovém deníku The Guardian, nebo v konzervativních Timesech. Nejsou to jen konkrétní slova, ale celá konstrukce textu.

Vznikají různé vrstvy, které už nejsou totožné s obyčejným překladem, protože vystihují nejen styl, ale také jeho výskyt v konkrétním jazykovém prostředí a směr, jakým text komunikuje – kým a pro koho je určen. Když dám jednoduchý příklad – v arabštině, ale také třeba v polštině nebo ruštině budou odkazy na nábožensky laděné texty frekventovanější než v češtině. A to samozřejmě něco říká o dané společnosti.

ČESKÁ POZICE: Kolik takových jazykových sbírek máte v databázi? Jinými slovy – o kolika společnostech jste schopni něco vypovědět na základě analýzy jazyka, kterým se tam mluví a píše?

BAR: IntuView pracuje s arabštinou, angličtinou, francouzštinou, španělštinou, perštinou, urdštinou, paštúnštinou, jazykem darí, malajštinou, hindštinou, ruštinou a češtinou.

ČESKÁ POZICE: S hebrejštinou ne?

BAR: Také, ale to je spíš pro zábavu. Protože když v Izraeli něco vytvoříte a chcete to prodat, pak si stát myslí, že to získá zadarmo, a pro vás to ještě bude čest.

ČESKÁ POZICE: Existuje jazyk, který by se umělou intuicí nedal probádat?

Proč jsou čeština a polština dva různé jazyky? Nebo dánština a švédština, které jsou si také blízké? Podstatou není úplně odlišná slovní zásoba nebo syntax, tedy lingvistické odlišnosti, ale politické dějiny – v určitém okamžiku nastala potřeba národního jazyka, který se takto vědomě vymezil vůči okolí.

BAR: V principu ne. My ale nevytváříme jazykové slovníky, jdeme hlouběji. Naše metoda se opírá o robotické zpracování přirozeného jazyka, což je jeden z oborů počítačové lingvistiky. Zajímavá jsou pro nás mnohovýznamová slova, mapujeme, kde a v jaké četnosti se vyskytují. Vezměte si třeba anglické slovo court. To může být podle kontextu soudní dvůr, dvorana nějakého paláce nebo gentlemanství. Takový vzorec rozložení významu slova různými texty je matematická formule a jako taková již je na jazyku nezávislá.

ČESKÁ POZICE: IntuView v sobě nezapře ani špionážní prvky. Pracuje také s vlastními jmény. Co všechno může jméno a jeho výskyt třeba na sociálních sítích napovědět?

BAR: Jméno samo o sobě prozrazuje relativně hodně. Vezměte si třeba moji vizitku. Je na ní Dr. Shmuel Bar. Takže hned víte, že mám vysokoškolské vzdělání. Šmuel je hebrejské jméno, zároveň ale není moc frekventované mimo Izrael. A není oblíbené u mladší generace, zřídka ho najdete u lidí středního věku.

Bar je sekulární příjmení. Takže si můžete s vysokou pravděpodobností tipnout, že jsem muž, kterému je přes 50 let, žije v Izraeli, a když jinde, pak se tam nenarodil, a není ortodoxní Žid. A tipoval byste dobře. Ještě pestřejší je to u arabských jmen, která často odkazují nejen k sunnitským či šíitským kořenům, ale i k jednotlivým zemím, kmenům nebo etnikům.

ČESKÁ POZICE: Co když si nějaké jméno vymyslím? Zejména v době migrační krize tajné služby různých evropských států varovaly, že se některým migrantům v Evropě daří usadit pod falešnou identitou, pod níž mohou maskovat třeba svou radikální minulost.

Základní myšlenka je podobná konceptu rychlého myšlení, který proslavil izraelsko-americký psycholog Daniel Kahneman. Každý má uložené nějaké vědomosti, a když něco čte nebo píše, na něco reaguje, s těmito vědomostmi se to propojí. Tato propojení, která často vycházejí ze sociální, kulturní či náboženské tradice, vytvářejí závěry, které přijímáme, aniž bychom si toho byli vědomi. Je to automatické.

BAR: To bude záležet na tom, kdo vám tu skrytou identitu vymyslí. Pokud to bude ruská tajná služba, pak je velmi složité na to přijít. Rusové jsou opravdoví profesionálové. Převaděči nebo jedinci, kteří si identitu chtějí změnit sami, na to obvykle jdou jednoduše. Nová identita musí být v něčem podobná té původní, upraví třeba příjmení nějakou přesmyčkou, vypůjčí si jméno od příbuzného, prohodí datum narození a podobně.

Důvod je zřejmý – když nejste profesionál, svou novou identitu se jen tak nenaučíte. A musíte se ji naučit věrohodně. V mé bývalé profesi platilo heslo, že smyšlená identita začíná fungovat až v okamžiku, kdy vy sám uvěříte, že vlastně vůbec smyšlená není.

ČESKÁ POZICE: Jsou obavy před smyšlenými identitami oprávněné?

BAR: Testovali jsme náš software v Německu pro Spolkový úřad pro migraci a uprchlíky (BAMF) a dospěli k závěru, že 70 procent jmen migrantů, které úředníci zavedli do databáze, vykazuje nesrovnalosti. Často zřejmé na první pohled. Když objevíte v databázi nějakého Ahmada Muhammada, který říká, že je Syřan, nemůže to být pravda. Protože Syřané, běžně jako třeba Rusové, používají prostřední jméno po otci, nemají důvod ho zamlčovat.

Nevytváříme jazykové slovníky, jdeme hlouběji. Naše metoda se opírá o robotické zpracování přirozeného jazyka, což je jeden z oborů počítačové lingvistiky. Zajímavá jsou pro nás mnohovýznamová slova, mapujeme, kde a v jaké četnosti se vyskytují.

Zároveň nelze tvrdit, že by sedm z deseti jmen bylo smyšlených. Někdy nastávaly vyloženě humorné situace. Narazili jsme třeba v databázi uprchlíků na jméno 50letého migranta, který se jmenoval Angela Merkel. Přesně takto to tam stálo. Úředníci z BAMF totiž ze začátku používali překladač Google, jehož prostřednictvím kladli otázky. A výsledek mechanicky přepsali do latinky. Třeba ten člověk neuměl číst, chtěl jen říct, jak je rád v Německu, a tak řekl jediné německé jméno, které znal. Každopádně mu do záznamu dali, že je pan Angela Merkel.

ČESKÁ POZICE: Mezi klienty IntuView jsou také politické strany. Nejsou to pro ně zbytečně vynaložené peníze? Průzkum toho, jak si stojí na sociálních sítích, jim přece udělá kdejaká PR agentura…

BAR: Jenže ono to není tak jednoduché, to není jen palec nahoru nebo dolů. Představte si, že o nějakém politikovi napíšu, že je brilantní, charismatický, schopný a zkorumpovaný. Co si z toho vyberete? Uděláte si čárku, že mu fandím, nebo ho odepisuji? Vypovídá to spíš o potenciálu, který má směrem k voličům. Pokud ta adjektiva udávám v jedné řadě, pak tím říkám, že si vážím jeho vystupování, organizačních dovedností, ale o jeho morálce si nemyslím nic dobrého.

Také bude záležet na tom, jestli jsem jeho politický sympatizant. Když volič pravice třeba v Izraeli prohlásí, že premiér je ničema, a nějaký jeho ministr, že je idiot, má to úplně jiné vyznění, než když si to myslí sympatizant opozice.

Pokud skrytou identitu vymyslí ruská tajná služba, pak je velmi složité na to přijít. Rusové jsou opravdoví profesionálové. Převaděči nebo jedinci, kteří si identitu chtějí změnit sami, na to obvykle jdou jednoduše.

Dělali jsme v USA výzkum pro Demokratickou stranu a zjistili jsme, že mnohem větší propad sympatizantů a zároveň větší nárůst kritiky zaznamenala v prezidentských volbách Hillary Clintonová nikoliv v táboře republikánů, ale právě u voličů demokratů. Proč? Republikáni neměli důvod, proč se Clintonovou zabývat, byla pro ně buď nezajímavá, nebo ji rovnou hodnotili negativně. Jenže demokraté do ní vkládali očekávání, které zmizelo. To je jen příklad, jenž ukazuje, k čemu je dobré hodnotit a měřit také pocit.

ČESKÁ POZICE: Umělou intuicí se zabýváte více než deset let. Jde přitom o aplikovaný výzkum, protože se odvíjí od zadání klientů. Kdo mezi ně patří a jaké nové služby pro ně zajišťujete?

BAR: Není tajemstvím, že IntuView dodává software pro některé zpravodajské služby v USA, Velké Británii a na Blízkém východě. Mezi naše klienty patří i velké evropské banky, které se zajímají o indikátory, které by dokázaly předpovědět makroekonomické trendy. Evropská centrální banka i centrální banky členských států Evropské unie většinou říkají pravdu, v tom není problém. Ale ne celou pravdu a ne vždy.

Takže se dají srovnávat například výroky centrálních bankéřů, respektive nálada či emoce v těchto výrocích, s vývojem trhu v delším časovém horizontu. A leckdy vysledujete, že změnám třeba v monetární politice předcházely emotivněji zabarvené výroky. Když jako vlivný bankéř řeknete, že z něčeho máte obavu, pak ji trh mít začne. A do jisté míry to lze na základě naší analýzy předpovídat.

Testovali jsme náš software v Německu pro Spolkový úřad pro migraci a uprchlíky (BAMF) a dospěli k závěru, že 70 procent jmen migrantů, které úředníci zavedli do databáze, vykazuje nesrovnalosti. Často zřejmé na první pohled.

Úspěšní jsme ve stopování jmen a sestavování profilů osob, které lze vyčíst z internetu. O to se zajímají zase pojišťovny, když si potřebují otipovat zákazníky. Ze státních úřadů jsem již zmiňoval německý BAMF, spolupracujeme i s podobnou institucí v Nizozemsku. Zaměřujeme se také na duplicitní podoby arabských jmen, které není běžná databáze schopná rozeznat. Vezměte si třeba někdejšího libyjského vůdce Muammara Kaddáfího. Jednou se psal jako Gaddafi, jindy jako Qaddafi, Qaddhafi nebo Qazzafi. V nějaké státem spravované databázi by mohl mít více identit, přitom šlo o jediného člověka.

ČESKÁ POZICE: V Česku nějaké zákazníky máte?

BAR: U vás spolupracujeme s pobočkou Oracle, přes nějž se dostaneme k některým vládním agenturám. Jinak musím říct, že česká jazyková verze IntuView nám dala zabrat, mimo jiné proto, že čeština má sedm pádů a jediné slovo může být napsáno s různou koncovkou. Spíš než lingvistické otázky je ale na evropském trhu pro nás mnohem větší obtíží nová unijní legislativa.

ČESKÁ POZICE: Narážíte na Obecné nařízení o ochraně osobních údajů (GDPR)?

BAR: Přesně tak. Nepochybuji, že nařízení o ochraně osobních dat psali zkušení právníci. Ale nedomysleli do důsledků, co stvoří. Nadnárodní právo se většinou omezuje na věci, jako je převaděčství, obchod s drogami, zkrátka přeshraniční kriminalita. Soukromí ale nemůže být nadnárodní. Představte si situaci, kdy náš izraelský software v Saúdské Arábii náhodou narazí na osobní data o nějakém občanovi EU. My je ani nemůžeme předat dál a upozornit třeba evropské tajné služby.

Mám pocit, že Evropa soukromí povýšila na takovou vysokou hodnotu v právu, jakou má třeba lidský život. Právo skupiny jednotlivců, kteří se obávají zneužití svých osobních dat, bylo povýšeno nad právo většiny, která chce chránit svůj život.

Mám pocit, že Evropa soukromí povýšila na takovou vysokou hodnotu v právu, jakou má třeba lidský život. Právo skupiny jednotlivců, kteří se obávají zneužití svých osobních dat, bylo povýšeno nad právo většiny, která chce chránit svůj život. V americké Deklaraci nezávislosti Thomas Jefferson napsal, že nezcizitelná práva jsou na život, svobodu a usilování o štěstí. Soukromí patří do sféry usilování o štěstí. Jenže klíčové je, že ta práva nejsou na stejné úrovni, ale seřazená za sebou. Bez života není svoboda a bez svobody nemůžete usilovat o štěstí.

Problém GDPR je, že z hlediska bezpečnostních služeb vrací Evropu do 20. století. Podezřelý jste, když budete na sociální síti sdílet obsahy nebo psát posty, které mají jasnou souvislost s jazykem extremistů. Když se vrátím na začátek – policisté vás budou hledat pod pouliční lampou. Když ale budete jen trochu chytrý a naučíte se komunikovat nějakou kódovou řečí, nikdo vás sledovat nemůže, i kdybyste chystal atentát. Protože pokud nepřekročíte jasně daná vymezení, můžete se spolehnout na ochranu podle evropského nařízení o ochraně osobních dat.

Je mi líto, že se Evropa sama vmanévrovala do takové situace. Ale bojím se, že dopady GDPR na bezpečnostní sféru si EU uvědomí až po nějakém dalším atentátu. To už ale bude hodně pozdě.

Šmuel Bar (64)

  • Vystudoval židovské dějiny na Hebrejské univerzitě v Jeruzalémě, doktorát z dějin Blízkého východu získal na Univerzitě v Tel Avivu.
  • Ještě za studií nastoupil k vojenské rozvědce, kde působil jako analytik.
  • Do roku 1998 pracoval jako bezpečnostní expert na islámský terorismus při Úřadu vlády Izraele.
  • Působil také v diplomacii, v letech 1998 až 2002 byl prvním tajemníkem izraelského velvyslanectví v nizozemském Haagu.
  • V roce 2005 založil softwarovou firmu na rozpoznávání skrytých významů textů IntuView a stal se jejím ředitelem.
  • Vede Institut pro politiku a strategii v Herzliji, je spolupořadatelem tradiční řady Herzliya Conference.
  • Jako výzkumník (Senior Fellow) působil v USA v Hudsonově institutu a také na Stanfordově univerzitě.
  • Přednáší na univerzitě Technion v Haifě, působí jako soukromý konzultant.
  • Je autorem několika monografií o islámském radikalismu, například Warrant for Terror (2008).
  • Mezi koníčky řadí jazyky, plynule mluví mimo jiné anglicky, francouzsky, španělsky nebo arabsky.

Diskuse neobsahuje žádné příspěvky.