Hogy lehetséges, hogy az egyébként lenémított mikrofon emlékeztet arra, hogy lenémították, amikor valaki beszélni kezd?

- merül fel a jogos kérdés.

A válasz pedig nem az, hogy a kamera felismeri a beszélő fejet, pláne akkor, ha az sincs bekapcsolva.

A kutatók - akiknek a munkáját a Kaspersky foglalta össze - több szolgáltatást vettek górcső alá és megnézték, milyen adatokat gyűjt vagy éppen továbbít.

A webes kliens

Adatvédelmi szempontból a legjobb megoldásnak a konferenciahívások esetében a webes kliens tűnik. Az összes webalapú konferencia-szolgáltatást a Chromium nyílt forráskódú motoron alapuló böngészőben tesztelték (ez az alapja számos böngészőnek, köztük a Google Chrome-nak és a Microsoft Edge-nek).

Ebben az üzemmódban minden szolgáltatásnak meg kell felelnie a mikrofoninterakcióra vonatkozó szabályoknak, amelyeket a böngészőmotor fejlesztői állapítottak meg. Azaz, ha a webes felületen a mikrofon elnémítása gomb aktiválva van, a szolgáltatásnak egyáltalán nem szabad hangot vennie.

Natív alkalmazások

A natív asztali alkalmazásoknak több joguk van, de ezt nem feltétlenül használják rosszra.

A Zoom például tisztességes megoldást választott: néma üzemmódban nem rögzíti a hangfolyamot, vagyis nem hallgatózik a körülöttünk zajló eseményekről, azonban hozzáférést kér olyan információkhoz, amely meghatározza a mikrofon közelében lévő zajszintet. Vagyis ha a csend hirtelen megszűnik, akkor figyelmeztetést tud küldeni a felhasználónak, hogy kapcsolja ki a némítást.

A Microsoft Teams esetében a kutatók nem tudtak vizsgálódni, ugyanis a kliens közvetlenül a Windows-al kommunikál, nem pedig a szabványos rendszerfelületet használja a mikrofonos interakcióhoz.

A Cisco Webex kliens mutatta a legszokatlanabb viselkedést. A tesztelt megoldások közül egyedüliként folyamatosan feldolgozta a mikrofonból érkező hangot a hívás során, függetlenül az alkalmazáson belüli némítás gomb állapotától. A klienst részletesebben vizsgálva azonban a kutatók megállapították, hogy a Webex nem továbbítja a hangot egy távoli szerverre, csak metaadatokat, egészen pontosan a hangerő szintjét gyűjti.

Első látásra ez nem tűnik nagy dolognak. Azonban pusztán ezen metaadatok alapján, a tényleges hangfolyamhoz való hozzáférés nélkül a kutatók mégis képesek voltak meghatározni számos alapvető paramétert arról, hogy mi történik a felhasználó oldalán. Így például elfogadható megbízhatósággal meg lehetett állapítani, hogy a felhasználó kikapcsolta a mikrofont és a kamerát, és bekapcsolta a porszívót. Vagy főzött. Vagy hogy egy kutya ugatott. Lehetett tudni, hogy mások is jelen voltak-e a szobában (például, hogy a hívás nyilvános helyről érkezett).

Ehhez egy olyan algoritmust kellett használni, amely bizonyos szempontból hasonlít a Shazam és más zenefelfedező alkalmazások algoritmusához. Minden egyes "zajmintához" egy mintakészletet hoznak létre, és összehasonlítják a Cisco Webex kliensből rögzített adatokkal.

A tanulmány egyik fontos megállapítása, hogy

a népszerű konferenciaeszközök nem követnek el bűncselekményt, azonban a felhasználónak nincsen teljes kontrollja afelett, hogy milyen adatokat gyűjtenek róla.

Ha valakit zavar, hogy a mikrofonja hallgatózik, akkor vagy használjon webes kliens - amelyek funkciói ugyanakkor korlátozottak a natívokhoz képest - vagy használja a hardweres némító gombot, ha van ilyen az eszközön.

A fő veszélyt a rosszindulatú programok jelentik, amelyek valóban továbbíthatják a beszélgetéseket bűnözőknek, de a kliensek nem ilyenek.