Muž, který pomohl vytvořit Siri

29 mar 2021

6 min

Muž, který pomohl vytvořit Siri
autor
Anne-Laure Civeyrac

Tech Editor @ WTTJ

Spolutvůrce hlasového asistenta Siri a současný technologický ředitel a první viceprezident Centra pro strategii a inovace společnosti Samsung (SSIC) Luc Julia nám vysvětlil, proč se o interakce mezi člověkem a počítačem začal zajímat. Dále nám vyprávěl, jak v Applu vytvářel zázemí pro Siri, a sdělil nám svoji vizi budoucnosti umělé inteligence.

Hrátky s osobními počítači

Ještě jako dítě jsem si začal hrát s elektronikou a počítače se objevily, když mi bylo 15. Tehdy to začalo. Na trh přicházely první počítače, já se o ně začal zajímat a už mě to nepustilo. V té době byl dostupný pouze BASIC. Já ale programoval v jazyce symbolických adres.

Interakce mezi člověkem a počítačem

Chtěl jsem zjistit, zda počítače mohou s lidmi mluvit a naopak. Vytvořil jsem rozhraní HCI (human-computer interaction) a potřeboval jsem zapracovat na zpracování signálů. Pokud chcete, aby s vámi počítač mluvil, musíte mu ukázat, jak signály zachytit a porozumět jim. Moje specialita byla rozpoznávání řeči, gest a čehokoli dalšího. Pak se z toho stala UI. Když počítač začne rozumět signálům, je to umělá inteligence. Doktorát jsem dělal tady ve Francii, ale postdoktorandský výzkum jsem dělal na MIT a Stanfordu. Jelikož technologie byla již na dostatečné úrovni, někteří lidé v laboratoři se rozhodli, že nastal čas založit vlastní společnost. Takhle vznikl institut SRI (Stanford Research Institute). Pracoval jsem na něčem, čemu se říká multimodalita. Ta spočívá ve snaze sloučit dohromady veškeré modality, které vytvářejí zprávy pro počítač. V té době byla řeč nejjednodušší, jelikož jste na počítači měli spíše mikrofon než kameru. To ovšem neznamená, že rozpoznávání řeči bylo jednoduché. Dodnes si nad tím lámeme hlavu. Nejde o rozpoznání vlastních slov, ale jejich významů, čemuž se říká přirozený jazyk. Cokoli, co není vyjádřeno slovy, lze velmi těžko uchopit.

Internet jako hřiště

V SRI jsme pracovali na aplikovaném výzkumu. Byl mnohem více aplikovaný než kdekoli jinde v rámci skupiny. Spustili jsme CHIC (Computer Human Interaction Center), tedy laboratoř pro aplikovaný výzkum, kde jsme vytvořili různé produkty. Zhruba v roce 2000 jsem si řekl, že už jsme to dotáhli dostatečně daleko a že s tím můžeme na veřejnost. Můžeme vytvořit start-upy, které budou dělat to samé, co my, jen bude produkty testovat veřejnost. Na tom období bylo fajn, že byl internet ještě v plenkách, a bylo jednodušší produkty testovat se skutečnými lidmi. Stačilo je dát na internet a lidé se o ně začali zajímat sami.

Zrození Siri

V roce 1997 začínal být internet dostupný veřejnosti. Pomalu se rozrůstal, ale ještě nebyl žádný Google, takže vyhledávání na internetu nebylo prakticky možné. Říkali jsme si, proč nezkusit něco vyhledat pomocí řeči. Tak vznikl nápad na asistenta, který nám pomůže vyhledávat ty správné informace. Ten produkt nám zabral 10 let a byl hotový až v roce 2007, kdy Adam Cheyer založil svou společnost Siri. Já v ní nebyl, jelikož jsem již spolupracoval s dalšími společnostmi a od roku 2000 jsem vytvářel další start-upy. V roce 2007 na základě tohoto asistenta vytvořili produkt. Ve stejný rok byl uveden na trh iPhone, takže nám přišlo přirozené u něj použít řeč, jelikož telefon měl samozřejmě mikrofon. Steve Jobs měl vizi, že z toho vytvoří něco unikátního – asistenta v telefonu. Apple nakonec Siri koupil v roce 2010 a veřejnosti byla dostupná od roku 2011.

Vytváření zázemí pro Siri

Cheyer mě požádal, abych se vrátil zpátky, jelikož to byl náš výtvor a měli jsme pokračovat v jeho rozvoji. Společnost Siri měla jen kolem 150 000 uživatelů. Když máte server, můžete taková data zpracovávat i z domu, takže to nebyl problém. Když jsme ale začali spolupracovat s Applem, očekávali jsme 300 milionů uživatelů, což je trochu rozdíl. Hlavní výzvou bylo zajistit, že systém bude škálovatelný a že budeme schopni zaručit potřebný výkon. Když pracujete s rozpoznáváním řeči, potřebujete, aby doba odezvy nebyla příliš dlouhá. Měl jsem na starosti vše, co se týkalo Siri. Běžný uživatel vidí pouze hlasové rozhraní, ale za tím stojí spousta serverů. Je to složitý systém s robustním zázemím. A přesně to jsme v té době neměli, přestože Apple již měl iTunes a podobné služby. Ale to není stejné. iTunes je v podstatě „jen“ úložiště a my jsme pro Siri potřebovali hodně výpočetní kapacity. Takže jsme to celé museli vybudovat od základů. Věděli jsme, jakou potřebujeme architekturu, aby to fungovalo, ale museli jsme ji celou vybudovat. Museli jsme nakoupit a fyzicky sestavit servery a datová centra, což s sebou přinášelo spoustu výzev. Nebylo jednoduché vysvětlovat velké společnosti – hlavně takové, která z toho může chtít vycouvat, což se u Applu stává –, že k produktu, který vyvíjíte, chcete přidat nějaké nové služby. Siri jako společnost měla asi 17 služeb. V rámci Applu bylo těch služeb zhruba pět, a samozřejmě jsme chtěli přidávat nové a nové. Ale když přidáváte službu, znamená to, že musíte přidat partnera. A velké společnosti někdy nechtějí spolupracovat s partnery, ale dělat si věci po svém. To jsme viděli například u funkce Mapy. Chtěli si udělat vlastní aplikaci a byla to pohroma.

Zavádění agilní metodiky v HP

Rozdíl mezi start-upem a velkou společností jsou prostředky, které máte k dispozici. Přišel jsem do HP (Hewlett-Packard), kde měli prostředků více než dost. Hned první den mi dali 250 inženýrů, což je asi desetkrát více, než jsem měl k dispozici předtím. Tolik lidí musíte řídit jinak a tohle byl rok 2010. Před deseti lety velké společnosti agilní metodiku tak nepoužívaly. Tehdy používaly vodopádový model. To znamená, že plánujete na šest měsíců dopředu – což je přesně to, co u dnešního softwaru nechcete. Jedna z věcí, se kterou jsem tam přišel, byla agilní metodika. Byla to výzva, když pracujete s 250 lidmi, kteří na to nejsou zvyklí, ale byla to velmi zajímavá výzva. Také jsme vytvořili nový produkt, který se lišil od čehokoli, co společnost HP dělala. V HP jsou mistři tiskáren a podobných věcí, ale neměli ponětí, jak by měla vypadat tiskárna připojená online. Vytvořili jsme systém, kterému se dnes říká ePrint, tedy první online tiskárny. V prvním roce jsme prodali něco kolem 80 milionů kusů.

Otevření laboratoře Samsungu pro UI v Paříži

Dnes máte aplikaci SmartThings, kterou Samsung koupil před pár lety a která taky potřebuje zázemí. V tomhle případě je to něco, co umožňuje existenci cloudu pro internet věcí (IoT). Tento IoT cloud vám umožňuje propojovat zařízení Samsung a některá další zařízení. Je to velmi heterogenní prostředí a musíte zajistit, aby spolu zařízení mohla komunikovat. Pracovali jsme na tom 5 let. Chtěl jsem pracovat tady v Paříži, takže v červnu 2018 jsme otevřeli laboratoř Samsungu pro UI. Francouzští inženýři odvádějí skvělou práci. Chtěl jsem využít nové éry, do které se Francie dostala kolem roku 2012, když podnikání přišlo opět do módy. Jelikož je teď ve Francii a hlavně v Paříži tolik start-upů, chtěl jsem toho využít. Když jsem byl student, inženýři šli po škole hned pracovat pro velké společnosti, ve kterých zůstali. Nedávno jsem slyšel, že 60 % těchto studentů chce vytvořit vlastní start-upy nebo v nich alespoň pracovat. Dnes existuje dynamičtější prostředí, což znamená, že tito lidé budou svědky velkých věcí – nemusí být nezbytně schopnější, ale budou se muset s více věcmi vyrovnávat. Budou flexibilnější z hlediska projektů, které navrhujeme. Proto mám rád francouzské inženýry.

Ekologické náklady UI

UI je jednoduchá v tom smyslu, že stačí dát dohromady spoustu dat a nějaké CPU a GPU, a dostanete nějaké výsledky. Můžete na to jít metodou pokus omyl. Potřebujete k tomu ale hodně zdrojů, jak z hlediska úložiště kvůli datům, tak z hlediska výpočetní kapacity, protože zkoušíte různé věci. Uvědomuji si, že jsme tomu úplně nevěnovali pozornost, jelikož ty procesory a zdroje v datových centrech nemáte na očích. Když máte počítače vedle sebe, uvědomíte si, že skutečně pracují a vytvářejí teplo, které vnímáte. Když ale používáte AWS nebo Microsoft Azure, nevšimnete si toho. Nedochází vám pak, kolik energie skutečně spotřebováváte pro to, co děláte. Musíme o tom začít mluvit. Proto se vždy snažím vysvětlovat, že musíme být velmi opatrní. Doufám, že si na to lidé budou dávat v budoucnu větší pozor. A jelikož máme stále větší tendenci tyto zdroje využívat, v určitém okamžiku bude třeba přijmout určitá omezení.

Budoucnost UI

První asistent, se kterým jsme v 90. letech pracovali, byl řečový asistent, ale brzy budete mít asistenta na všechno. Budete mít soubor různých asistentů, ne univerzální UI. Nevěřím, že bychom k tomu došli. Používáme matematiku způsobem, jakým ji známe dnes. Eventuálně budete mít řadu asistentů v každém oboru. Uvidíme asistenty ve zdravotnictví a v dopravě. UI bude všude. Už teď víme, že se UI bude vyvíjet třeba v oblasti medicíny. Například víme, že DNA je velmi zajímavá ze statistického hlediska. Uvidíme dekódování DNA pomocí strojového a hlubokého učení, jelikož se jedná o velké množství dat, což můžeme využít k nápravě spousty věcí. Získáte tím hodně zajímavých statistických informací. Podobní asistenti se začnou rozšiřovat i v jiných oborech. Další přemýšlí nad odlišným využitím, například ve fyzice a kvantových počítačích nebo v biologii a biologických počítačích. Tyhle věci jsou ale stále v zárodku. Kvantové počítače jsou možná trochu dále, ale stále je tam spousta práce, a v případě biologie jsme na začátku. Pokud chceme věřit tomu, že jednoho dne vytvoříme něco podobného lidské inteligenci nebo obecné inteligenci, o které mnozí mluví, nedosáhneme toho pomocí matematiky. Ani pomocí fyziky, jelikož kvantová fyzika jen aplikuje matematiku v jiném rozměru. Může to být biologie, jelikož ta nejblíže zkoumá náš mozek, ale to se uvidí. Náš mozek před námi skrývá ještě plno tajemství a bude to ještě dlouhá cesta, než budeme nějaký schopni vytvořit uměle.

Přeložil Jindřich Klimeš

Foto: Welcome to the Jungle

Sledujte Welcome to the Jungle na Facebooku, začněte odebírat novinky a nechte si posílat inspiraci každý týden.

Las temáticas de este artículo