A beszédfelismerő rendszerek története

Előző

A múlt század kilencvenes éveiben a "Vissza a jövőbe" című film nagy népszerűségnek örvendett, így a második részben volt egy jelenet, amelyben Martin McFly belép egy szobába, bekapcsolja a TV-t és csatornát vált, csak a hangját használva, de semmit. más. Egy időben az ilyen manipulációk fantasztikusnak és lehetetlennek tűntek az emberek számára. Azonban manapság ezek egészen hétköznapi dolgok. De ennek az iparágnak a fejlesztése meglehetősen nehéz volt. Több tíz évbe és több százezer dolláros befektetésbe került. Ez a cikk a beszédfelismerő rendszerek fejlődésének történetével foglalkozik.

1952tekinthető hivatalosan a beszédfelismerő rendszerek születési évének. Ennek oka az amerikai Bell Laboratories cég, amely a számítógépes és elektronikus rendszerek területén jelentős kutató. Ebben az évben ez a szervezet bemutatta ötletét, az Audrey rendszert. Őszintén szólva, Audreynek nem is volt a szokásos értelemben vett szókincse, csak számokkal operált. De ez még nem minden. A rendszernek számos korlátozása volt, amelyek be nem tartása Audrey pontosságát 60-70 százalékra csökkentette. Ha minden a követelményeknek megfelelően történt, a pontosság körülbelül 90%.

Audrey munkájával kapcsolatos fő korlátozások:

A diktáló embernek férfinak kellett lennie
Ennek a személynek korábban dolgoznia kellett volna a rendszerrel
A szavak közötti szünetnek körülbelül 350 ezredmásodpercnek kell lennie

A modern valóságban ez egyáltalán nem mutató. Azonban nagy lépést tettek az emberi hang gépi megértése felé.

1962-bena beszédfelismerő rendszerek fejlődésének újabb jelentős dátuma következett be. Seattle-ben történt a világkiállításon. A Shoebox számítógépet az IBM mutatta be. Ez a gép tizenhat szót tudott felismerni az angol nyelvben. Nem nehéz észrevenni, hogy az átmenetegész tíz év telt el a számtól a dologig.

IBM Shoebox számítógépen dolgozik

A hatvanas évek második felébenaz USA, Nagy-Britannia, Japán és a Szovjetunió laboratóriumaiban kísérleteket végeztek olyan beszédfelismerő rendszerek fejlesztésére, amelyek képesek külön-külön kimondott hangok felismerésére. A technológiák lassan, de biztosan fejlődtek.

1971-benaz ígéretes technológia felkeltette az amerikai hadsereg figyelmét. A Honvédelmi Minisztérium forrásokat különített el a beszédfelismerő rendszerek kutatására és fejlesztésére. A végterméknek végül legalább ezer szót kellett felismernie, és meg kellett értenie a koherens beszédet, vagyis a szavak közötti jól meghatározott szünetek nélküli beszédet.

1972-benjelent meg az első szoftver a beszédfelismerő rendszerekhez, és kereskedelmi alapokra helyezték. Vip-100 program volt, több száz szót tudott felismerni, de az összekapcsolt beszédet nem támogatta. És ugyanazok a problémák, mint a korábbi hasonló termékeknél, a rendszer előzetes betanítása", azaz a szavak diktálása.

1976-rahat olyan rendszert fejlesztettek ki, amelyek valamilyen szinten megfeleltek a szükséges kritériumoknak. A legsikeresebb talán a Carnegie Mellon Egyetem kutatóközpontja által kifejlesztett "hárpia" volt. Az öt perc alatt kidolgozott négy másodperces javaslat, plusz ugyanaz a "kiképzés" nem nevezhető jó eredménynek. De 1011 szóból álló szókincse volt, értett a koherens beszédhez, és volt egy hatékony algoritmusa a helyes konstrukciók megtalálására. Mindezek a tulajdonságok messze hátrahagyták elődjeit, és a maga idejében a legjobbak közé tették ezt a programot.

Az 1980-as évekbena beszédfelismerő rendszerek gyorsan fejlődtek. Az amerikai Bell Laboratories és az IBM zászlóshajók. Újak bemutatásamegközelítések és technológiák e rendszerek fejlesztésében, szókincsüket több ezer szóra bővítették. Az IBM kutatásait az N-gramokra (egy adott szöveg vagy nyelv N elemének folyamatos sorozataira) és a beszélőtől függő, más szóval betanított rendszerekre összpontosította. Míg a Bell Laboratories olyan rendszerek fejlesztésével foglalkozott, amelyek képesek akusztikus diszperzióval, hangsúlyokkal dolgozni, és nem igényelnek előzetes képzést.

E rendszerek fejlesztésében a 80-as években az egyik fő szerepet az úgynevezett statisztikai módszer játszotta. Ennek a módszernek a lényege az ismeretlen paraméterek felismerése volt a megadottak alapján. Egyszerűen fogalmazva, a beszédfelismerő rendszereket arra tanítják, hogy a legprimitívebb szinten ismerjék fel a kontextust, és ismerjék fel a szavakat a zaj, akcentus stb. által okozott hiányos adatok alapján.

Ebben az időszakban a mesterséges neurális hálózatok beszédfelismerésére irányuló kísérlete óriási kudarccal végződött. Olyan kereskedelmi ajánlatok jelennek meg, mint a Kurzweil text-to-speech. De mindegyikkel nagyon kényelmetlen volt dolgozni, és csak a diktálást támogatták.

1987-benmegjelent az első beszédfelismerő funkcióval rendelkező, nagyközönség számára készült kereskedelmi termék. Ez egy baba volt, amelynek feladata a gyerekek beszédének felismerése volt edzés alapján. Emellett a vele megtörtént egyszerű eseményekre is képes volt reagálni, legyen szó fénynek vagy sötétségnek való kitettségről, sőt, az ujjain lévő szenzorok segítségével speciális könyveket is "olvashat" a készletből.

Az első kereskedelmi termék, amely képes felismerni a beszédet, a Julie Talking Doll

1990-benmegjelent a Dragon Dictate program – az első ilyen kereskedelmi program a hétköznapi felhasználók számára. Nagyon szerény tulajdonságokért, még mindig elérhető diktálás és nem a legjobb kényelemEgy hétköznapi felhasználónak kilencezer dollárt kellett kifizetnie, őszintén szólva, nem csak arra az időre, hanem a miénkre is jelentős összeget.

1996-banmegjelent a BellSouth VAL - az első hangportál. Ezt a rendszert telefonos megkeresések, nagy bevásárlóközpontok információs standjainak stb. feldolgozására tervezték. Meghatározott kérések, szolgáltatások és védjegyek alapján keresett információkat a vásárlók és az előfizetők számára.

1997-benmegjelent a Dragon program új, továbbfejlesztett változata, a NaturallySpeaking. Ez a program már képes volt felismerni a normál beszédet. Körülbelül száz szó percenként. És ez értékes, 695 dollárra zuhant, ami nem tudott segíteni, de kérem!

A Dragon program logója NaturallySpeaking

2001-bena Microsoft kiadja beszédfelismerő rendszerét. Office XP-vel dolgozott, amely akkoriban az irodai programcsomag legfejlettebb verziója volt. Hiányosságai ellenére (a "képzés" jelenléte, a munkaterületi változókkal történő újrakonfigurálás vagy a nem egyértelmű kiejtés) ez a program igazán népszerűvé vált.

2002-bena Google – bár tesztüzemmódban – elindítja a Hangalapú keresést, amelyet az interneten végzett hangalapú keresésekhez terveztek. Ezt a fejlesztést azonban azonnal meg kellett szakítani. A helyzet az, hogy a keresés végrehajtásához egy speciális számot kell hívnia, ami nagyon kényelmetlen volt. A Google azonban nem adta fel, és folytatta a fejlesztést ebben az irányban.

2005-benmegjelenik az első beszédfelismerő funkcióval rendelkező operációs rendszer. Az úttörő a Mac OS X Tiger volt. Meg kell azonban említeni, hogy hasonló fejlesztések a Windows 95-ben is voltak, de ott inkább volt tesztverzió, mint teljes értékű termék. A VoiceOver nemcsak beszédfelismerésre volt képes, hanem ő isszintetizátor Ez a program szöveges dokumentumok, levelek és weboldalak tartalmát tudta olvasni. Nagy előnye volt, hogy hangszórófüggetlen volt, sőt több felhasználóval is működött egyszerre.

VoiceOver felület

2006-bannem akarva lemaradni örök versenytársa Apple mögött, a Microsoft kiad egy operációs rendszert, amely teljes mértékben támogatja a Windows Vista beszédfelismerő funkcióját.

2009-benkiadják a Google Hangalapú keresési alkalmazását iPhone-ra. Ennek az alkalmazásnak a munkája a szuperszámítógépek egekig terjedő számításaira támaszkodik. Ezek a számítások lehetővé tették a nagyszámú adatelemzés elvégzését a felhasználók nagyszámú hangkérelme és szavai közötti egyezések keresésében. Ez az eljárás hozzájárult a rendszer gyors növekedéséhez és fejlesztéséhez.

A Hangalapú keresés fokozatosan a Google legnépszerűbb alkalmazásává válik mobileszközökön. Androidos verzió érkezik.

Hangalapú keresés iPhone okostelefonokon

2011-bena Google figyelembe vette az elmúlt évek hibáit, aminek eredményeként a Chrome böngésző hangfelismerő funkciója lett. A felesleges hívások és egyéb kellemetlenségek megszűntek. Ma az adatbázis körülbelül 230 milliárd szót tartalmaz a világ számos nyelvén.

A Siri először iPhone 4S okostelefonokon jelent meg

És végül, anélkül, hogy alábecsülnénk a beszédfelismerő rendszerek fejlődésének történetében meghatározó és korszakos dátumot. 2011. október 14.Az Apple megkezdi a Siri telepített iPhone 4S készülékeinek tömeges értékesítését. Ez a program nem csak a beszédet ismeri fel, hanem személyes virtuális asszisztensként is működik, amely képes a természetes nyelv feldolgozására, kérdések megválaszolására és ajánlások megfogalmazására. Ami figyelemre méltó benne, hogy nem azszabványos programokat használ, élénk kommunikáció zajlik a felhasználó és a készülék között. Kíváncsi vagy buta kérdésekre is tud viccekkel válaszolni. A mai napig ez a program támogatja az angol, francia és német nyelveket.

Következő

A beszédfelismerő rendszerek története

Olvassa el tovabba: