Egy olyan nyelvi modellt használtak, melyet eredetileg az emberi nyelvek felismerésére képeztek ki. Azonban úgy tűnik, egy egészen új lehetőség nyílt meg azzal, hogy képes a kutyák ugatásának jelentését is megfejteni, idézi Rada Mihalcea professzort, a Michigani Egyetem (U-M) mesterséges intelligenciát kutató laboratóriumának igazgatóját a TechXplore.
Az egyik akadálya annak, hogy az MI-t az állatok hangjának megfejtésére kiképezzék az, hogy nagyon kevés nyilvánosan elérhető ilyen adatbázis van. A rendelkezésre álló emberi hangok tárháza közel végtelen, azonban egy hasonló gyűjtemény összeállítása állatok esetében már jóval bonyolultabb.
„Az állatok hangjainak igénylése és felvétele már logisztikailag is jóval nehezebb” – mutatott rá Artem Abzaliev, a kutatás vezető szerzője, a U-M informatika és mérnökszakos doktori hallgatója. „Ezeket passzív módon kell felvenni a vadonban, vagy háziállatok esetében a gazdák engedélyével.”
A hangok világa a kutyaugatáson túl
Ez a megközelítés lehetővé tette a tudósok számára, hogy olyan létező, robusztus rendszereket használják fel, melyek számtalan hangvezérlésű technológia gerincét alkotják már most is. Ezek képesek az emberi beszédben lévő apró különbségek felismerésére, mint a hangfekvés, hangmagasság és akcentus. Mindezt a gépek számára is értelmezhető információvá alakítják, így tudják például a szavakat felismerni vagy az egyéneket egymástól megkülönböztetni.
„Ezek a modellek képesek megtanulni és felismerni a rendkívül komplex mintázattal rendelkező emberi nyelveket és beszédet” – mondta Abzaliev. „Látni szerettük volna, hogy lehetséges-e ezt a kutyák által kiadott hangok megkülönböztetésére és értelmezésére használni.”
A kutatók 74, különböző fajtájú, korú és nemű kutya különböző kontextusban rögzített hangjának adathalmazát használták fel. Humberto Pérez-Espinosa, az Mexikói Nemzeti Asztrofizikai, Optikai és Elektronikai Intézet (INAOE) munkatársa vezette az adatokat begyűjtő csoportot. Abzaliev ezután a felvételeket egy gépi tanulási modell – ami egy számítógépes algoritmus – módosítására használta fel, amely képes azonosítani az adathalmazokban lévő mintázatokat. A csapat a Wav2Vec2 nevű beszéd modellt választotta, amelyet eredetileg emberi beszédadatokkal tanítottak be.
Ez volt az első eset, hogy az emberi beszédre optimalizált technika képes volt állati hangok felismerésére és dekódolására is. A sikeressége miatt azonban a jövőben az emberi beszédből ismert hangok és mintázatok további segítséget nyújthatnak más hangok akusztikai mintázatának megértésében, például az állatok esetében.
Amellett, hogy az emberi beszédmodellek hasznos eszközként szolgálnak az állati kommunikáció elemzésében – amiből a biológusok, az etológusok és mások is profitálhatnak -, ez a kutatás az állatjólét szempontjából is fontos. A kutyák hangjában rejlő árnyalatnyi különbségek megértésével jobban tudunk reagálni az érzelmi és fizikai szükségleteikre. Ez hozzájárul a jólétükhöz, illetve megelőzhetőek lesznek a potenciálisan veszélyes helyzetek is, tették hozzá a kutatók.