Kufjet me anulim zhurme kanë arritur të krijojnë një izolim absolut të dëgjimit, duke eleminuar shumicën e zhurmave të ambientit. Megjithatë, sfida mbetet për të lejuar depërtimin e disa tingujve të veçantë. Për shembull, edicioni i fundit i AirPods Pro të Apple automatikisht rregullon nivelet e zërit për përdoruesit dhe ndjen kur ata janë në bisedë, por përdoruesi ka pak kontroll mbi kë të dëgjojë dhe kur ndodh kjo.
Një ekip nga Universiteti i Washingtonit ka zhvilluar një sistem inteligjence artificiale që lejon përdoruesit e kufjeve të identifikojnë një person që flet, duke e parë atë për tre deri në pesë sekonda për ta “regjistruar” atë. Ky sistem, i quajtur “Target Speech Hearing,” anulon të gjitha zhurmat e tjera në ambient dhe kalon në kufje vetëm zërin e personit të regjistruar në kohë reale, edhe kur dëgjuesi lëviz në vende të zhurmshme dhe nuk është më përballë folësit.
Ky sistem është prezantuar më 14 maj në Honolulu në Konferencën ACM CHI mbi Faktorët Njerëzorë në Sistemet e Kompjuterëve. Kodimi për këtë pajisje është në dispozicion për ndërtim nga programues të tjerë të interesuar, por sistemi nuk është ende në treg për shitje masive.
“Ne zakonisht e lidhim AI-në me chatbot-et në internet që përgjigjen pyetjeve,” thotë autori kryesor Shyam Gollakota, profesor në Shkollën e Kompjuterëve dhe Inxhinierisë të Paul G. Allen në UW. “Por në këtë projekt, zhvillojmë AI-në për të ndryshuar perceptimin dëgjimor të çdo personi që përdor kufje, duke marrë parasysh preferencat e tyre. Me pajisjet tona tani mund të dëgjoni qartë një folës të vetëm, edhe nëse ndodheni në një ambient të zhurmshëm me shumë njerëz që flasin.”
Për të përdorur sistemin, një person që përdor kufje të zakonshme të pajisura me mikrofonë shtyp një buton ndërsa e drejton kokën ndaj dikujt që flet. Valët e zërit nga ky folës arrijnë në mikrofonët në të dy anët e kufjeve njëkohësisht, me një marzh gabimi prej 16 gradësh. Kufjet dërgojnë këtë sinjal në një kompjuter të integruar, ku softueri i machine learning mëson modelet vokale të folësit të dëshiruar. Sistemi kap zërin e atij folësi dhe vazhdon ta luajë atë për dëgjuesin, edhe kur personi lëviz. Aftësia e sistemit për të përqendruar në zërin e regjistruar përmirësohet ndërsa folësi vazhdon të flasë, duke ofruar më shumë të dhëna për trajnimin e sistemit.
Ekipi e testoi sistemin në 21 subjekte, të cilët e vlerësuan qartësinë e zërit të regjistruar gati dy herë më të lartë se audio e zakonshme pa filtrim,.
Ky punë ndihmon në zhvillimin e kërkimeve të mëparshme të ekipit mbi “dëgjimin semantik,” i cili lejon përdoruesit të përzgjedhin klasa të veçanta tingujsh – siç janë zogjtë apo zërat – që duan të dëgjojnë dhe anulon zhurmat e tjera në ambient.
Aktualisht, sistemi TSH mund të regjistrojë vetëm një folës në një kohë dhe vetëm kur nuk ka një zë tjetër të lartë që vjen nga i njëjti drejtim si zëri i synuar. Nëse përdoruesi nuk është i kënaqur me cilësinë e zërit, ata mund të bëjnë një regjistrim tjetër për të përmirësuar qartësinë. Ekipi po punon për të zgjeruar sistemin në kufje dhe aparate dëgjimi në të ardhmen.
Kërkimet u financuan nga një shpërblim Moore Inventor Fellow, një Profesor i Cabel i Fondacionit Thomas J. dhe një Fond i Inovacionit UW CoMotion.