Projekt Memex: Jak odkrýt neviditelný obsah internetu

Vývojový program Memex americké výzkumné agentury DARPA má v první řadě nabídnout nástroje k získávání informací z internetu. Nejvíce budou preferovány požadavky bezpečnostních sil, ale výsledky vývoje zamíří i do komerční sféry.

Internet. | na serveru Lidovky.cz | aktuální zprávy Internet. | foto: Montáž ISIFA, Richard CortésČeská pozice
Internet. | na serveru Lidovky.cz | aktuální zprávy

Výzkumný program Memex se do povědomí veřejnosti dostal především díky schopnosti prohledávat takzvaný hluboký nebo temný web. Ten komerční vyhledávače ignorují, mimo jiné proto, že nenabízí téměř žádné možnosti pro byznys, zejména legální. Americká výzkumná Agentura ministerstva obrany pro pokročilé výzkumné projekty (DARPA) chce v rámci projektu Memex tyto nedostatky současných internetových vyhledávačů odstranit.

Výzkumný program Memex získal název od hypotetického zařízení, jež v roce 1945 v článku As We May Think (Jak můžeme přemýšlet) popsal Vannevar Bush, ředitel americké organizace Office of Scientific Research and Development (OSRD). Popisuje v něm analogový počítač, jenž by doplňoval lidskou mysl či paměť. Pojem memex sestává z kombinace pojmů memory a index.

Tři oblasti

Zařízení mělo ukládat a automaticky propojovat veškeré záznamy lidské mysli, včetně knih a nahrávek. V Bushově pojetí šlo o technické rozšíření intelektuálních možností člověka.

Projekt Memex se technicky zaměřuje na tři oblasti: oborově specifické indexování, oborově specifické vyhledávání a obranné aplikace

Provázané odkazy, respektive proces jejich vzniku, označil Bush termínem asociativní indexování (přidružovací nebo slučovací). Jeho myšlenka inspirovala vědce i při tvorbě hypertextu, internetu, osobních počítačů nebo on-line encyklopedií.

Nyní na technologickou scénu vstupuje samostatný projekt, jenž se v mnohém původnímu pojetí memexu přiblíží. Program Memex začal loni v létě a skončí za necelé tři roky. Na jeho realizaci se podílejí například vědci z Carnegie Mellon University.

Projekt Memex se technicky zaměřuje na tři oblasti: oborově specifické indexování, oborově specifické vyhledávání a obranné aplikace. Mezi jeho cíle nepatří odanonymnění identit, serverů nebo služeb. Autoři také nechtějí získávat přístupy k neveřejnému obsahu. Tato prohlášení si s největší pravděpodobností vynutily nedávné aféry americké Národně bezpečnostní agentury (NSA), s nimiž poměrně populární DARPA nechce být spojovaná.

Temný web

Komerční vyhledávače, jak vysvětluje Jeff Schneider, profesor Robotického institutu při Carnegie Mellon University, se věnují pouze takzvanému povrchnímu webu. Jeho stránky jsou propojeny na další veřejné portály a servery, což je činí viditelné pro robotické moduly, jež hledají obsah.

Temný, případně hluboký web bývá často spojován s obsahem zločinného charakteru. Nejvíce se na něm ale podílejí takzvané prchavé stránky technického zaměření, jež běžným lidem nedávají téměř žádný smysl.

Předpokládá se, že vyhledávače typu Google registrují zhruba deset procent skutečného webového prostoru. Zbytek nedokáží podchytit, protože mnoho stránek neexistuje trvale, případně se takzvaně pohybují nebo záměrně nevyužívají standardní formáty www.

Temný, případně hluboký web bývá často spojován s obsahem zločinného charakteru. Nejvíce se na něm ale podílejí takzvané prchavé stránky technického zaměření, jež běžným lidem nedávají téměř žádný smysl. A protože v internetovém byznysu chtějí být všichni vidět ve sledovaném prostoru, většina obsahu webu zůstává skryta. Lze jej ovšem strojově vytěžit a využít. Technologie Memexu umožní, aby byl dosud neviditelný obsah indexován a klasifikován. Umožní jim to mimo jiné postupy strojového učení a zpracovávání velkých objemů dat, jež běžné vyhledávače ignorují.

Odanonymnění

Vývojový program Memex má v první řadě nabídnout vládním institucím nástroje k získávání oborově relevantních informací z internetu. Různé složky veřejné moci mají v podstatě individuální potřeby v oblasti vyhledávání. Vzhledem k zaměření agentury DARPA budou nejvíce preferovány požadavky bezpečnostních sil. První uplatnění technologií Memexu se věnují odhalování obchodů s lidmi. Ale výsledky vývoje zamíří i do komerční sféry.

Lze předpokládat, že v případě zájmu dojde i na odanonymnění, což však manifest projektu odmítá. Zajistit ho lze či půjde s jinými oprávněními a pověřeními, aby myšlenka a provoz Memexu na veřejnost nepůsobila jako hrozba.

Agentura DARPA je známá tím, že její výstupy dříve či později přejdou do civilní sféry a umějí v něm generovat zajímavé obchodní příležitosti. Za příklad může posloužit navigační systém GPS nebo telekomunikační technologie CDMA. Memex se má věnovat také organizování výsledků a spolupráci při hledání oborově specifických informací. Nabídne tudíž nástroje pro automatizaci zpracování získaných dat, jejich správu, klasifikaci a vyhodnocování.

Výzkumníci se chtějí zaměřit na uvedený hluboký web a na netradiční formy obsahu, mimo jiné sdíleného nebo odkazovaného. Bezpečnostní charakter projektu Memex však nabídne i oborově specifické výstupy. Současný internet tvoří různě propojené služby. A právě rozkrytí jejich vazeb a zdrojů bude představovat jeden z potenciálních výstupů.

Lze předpokládat, že v případě zájmu dojde i na jejich odanonymnění, což však manifest projektu odmítá. Zajistit ho lze či půjde s jinými oprávněními a pověřeními, aby myšlenka a provoz Memexu na veřejnost nepůsobila jako hrozba.

Diskuse neobsahuje žádné příspěvky.