A beszédfelismerő rendszerek története
ElőzőA múlt század kilencvenes éveiben a "Vissza a jövőbe" című film nagy népszerűségnek örvendett, így a második részben volt egy jelenet, amelyben Martin McFly belép egy szobába, bekapcsolja a TV-t és csatornát vált, csak a hangját használva, de semmit. más. Egy időben az ilyen manipulációk fantasztikusnak és lehetetlennek tűntek az emberek számára. Azonban manapság ezek egészen hétköznapi dolgok. De ennek az iparágnak a fejlesztése meglehetősen nehéz volt. Több tíz évbe és több százezer dolláros befektetésbe került. Ez a cikk a beszédfelismerő rendszerek fejlődésének történetével foglalkozik.
1952tekinthető hivatalosan a beszédfelismerő rendszerek születési évének. Ennek oka az amerikai Bell Laboratories cég, amely a számítógépes és elektronikus rendszerek területén jelentős kutató. Ebben az évben ez a szervezet bemutatta ötletét, az Audrey rendszert. Őszintén szólva, Audreynek nem is volt a szokásos értelemben vett szókincse, csak számokkal operált. De ez még nem minden. A rendszernek számos korlátozása volt, amelyek be nem tartása Audrey pontosságát 60-70 százalékra csökkentette. Ha minden a követelményeknek megfelelően történt, a pontosság körülbelül 90%.
Audrey munkájával kapcsolatos fő korlátozások:
- A diktáló embernek férfinak kellett lennie
- Ennek a személynek korábban dolgoznia kellett volna a rendszerrel
- A szavak közötti szünetnek körülbelül 350 ezredmásodpercnek kell lennie
A modern valóságban ez egyáltalán nem mutató. Azonban nagy lépést tettek az emberi hang gépi megértése felé.
1962-bena beszédfelismerő rendszerek fejlődésének újabb jelentős dátuma következett be. Seattle-ben történt a világkiállításon. A Shoebox számítógépet az IBM mutatta be. Ez a gép tizenhat szót tudott felismerni az angol nyelvben. Nem nehéz észrevenni, hogy az átmenetegész tíz év telt el a számtól a dologig.
IBM Shoebox számítógépen dolgozik
A hatvanas évek második felébenaz USA, Nagy-Britannia, Japán és a Szovjetunió laboratóriumaiban kísérleteket végeztek olyan beszédfelismerő rendszerek fejlesztésére, amelyek képesek külön-külön kimondott hangok felismerésére. A technológiák lassan, de biztosan fejlődtek.
1971-benaz ígéretes technológia felkeltette az amerikai hadsereg figyelmét. A Honvédelmi Minisztérium forrásokat különített el a beszédfelismerő rendszerek kutatására és fejlesztésére. A végterméknek végül legalább ezer szót kellett felismernie, és meg kellett értenie a koherens beszédet, vagyis a szavak közötti jól meghatározott szünetek nélküli beszédet.
1972-benjelent meg az első szoftver a beszédfelismerő rendszerekhez, és kereskedelmi alapokra helyezték. Vip-100 program volt, több száz szót tudott felismerni, de az összekapcsolt beszédet nem támogatta. És ugyanazok a problémák, mint a korábbi hasonló termékeknél, a rendszer előzetes betanítása", azaz a szavak diktálása.
1976-rahat olyan rendszert fejlesztettek ki, amelyek valamilyen szinten megfeleltek a szükséges kritériumoknak. A legsikeresebb talán a Carnegie Mellon Egyetem kutatóközpontja által kifejlesztett "hárpia" volt. Az öt perc alatt kidolgozott négy másodperces javaslat, plusz ugyanaz a "kiképzés" nem nevezhető jó eredménynek. De 1011 szóból álló szókincse volt, értett a koherens beszédhez, és volt egy hatékony algoritmusa a helyes konstrukciók megtalálására. Mindezek a tulajdonságok messze hátrahagyták elődjeit, és a maga idejében a legjobbak közé tették ezt a programot.
Az 1980-as évekbena beszédfelismerő rendszerek gyorsan fejlődtek. Az amerikai Bell Laboratories és az IBM zászlóshajók. Újak bemutatásamegközelítések és technológiák e rendszerek fejlesztésében, szókincsüket több ezer szóra bővítették. Az IBM kutatásait az N-gramokra (egy adott szöveg vagy nyelv N elemének folyamatos sorozataira) és a beszélőtől függő, más szóval betanított rendszerekre összpontosította. Míg a Bell Laboratories olyan rendszerek fejlesztésével foglalkozott, amelyek képesek akusztikus diszperzióval, hangsúlyokkal dolgozni, és nem igényelnek előzetes képzést.
E rendszerek fejlesztésében a 80-as években az egyik fő szerepet az úgynevezett statisztikai módszer játszotta. Ennek a módszernek a lényege az ismeretlen paraméterek felismerése volt a megadottak alapján. Egyszerűen fogalmazva, a beszédfelismerő rendszereket arra tanítják, hogy a legprimitívebb szinten ismerjék fel a kontextust, és ismerjék fel a szavakat a zaj, akcentus stb. által okozott hiányos adatok alapján.
Ebben az időszakban a mesterséges neurális hálózatok beszédfelismerésére irányuló kísérlete óriási kudarccal végződött. Olyan kereskedelmi ajánlatok jelennek meg, mint a Kurzweil text-to-speech. De mindegyikkel nagyon kényelmetlen volt dolgozni, és csak a diktálást támogatták.
1987-benmegjelent az első beszédfelismerő funkcióval rendelkező, nagyközönség számára készült kereskedelmi termék. Ez egy baba volt, amelynek feladata a gyerekek beszédének felismerése volt edzés alapján. Emellett a vele megtörtént egyszerű eseményekre is képes volt reagálni, legyen szó fénynek vagy sötétségnek való kitettségről, sőt, az ujjain lévő szenzorok segítségével speciális könyveket is "olvashat" a készletből.
Az első kereskedelmi termék, amely képes felismerni a beszédet, a Julie Talking Doll
1990-benmegjelent a Dragon Dictate program – az első ilyen kereskedelmi program a hétköznapi felhasználók számára. Nagyon szerény tulajdonságokért, még mindig elérhető diktálás és nem a legjobb kényelemEgy hétköznapi felhasználónak kilencezer dollárt kellett kifizetnie, őszintén szólva, nem csak arra az időre, hanem a miénkre is jelentős összeget.
1996-banmegjelent a BellSouth VAL - az első hangportál. Ezt a rendszert telefonos megkeresések, nagy bevásárlóközpontok információs standjainak stb. feldolgozására tervezték. Meghatározott kérések, szolgáltatások és védjegyek alapján keresett információkat a vásárlók és az előfizetők számára.
1997-benmegjelent a Dragon program új, továbbfejlesztett változata, a NaturallySpeaking. Ez a program már képes volt felismerni a normál beszédet. Körülbelül száz szó percenként. És ez értékes, 695 dollárra zuhant, ami nem tudott segíteni, de kérem!
A Dragon program logója NaturallySpeaking
2001-bena Microsoft kiadja beszédfelismerő rendszerét. Office XP-vel dolgozott, amely akkoriban az irodai programcsomag legfejlettebb verziója volt. Hiányosságai ellenére (a "képzés" jelenléte, a munkaterületi változókkal történő újrakonfigurálás vagy a nem egyértelmű kiejtés) ez a program igazán népszerűvé vált.
2002-bena Google – bár tesztüzemmódban – elindítja a Hangalapú keresést, amelyet az interneten végzett hangalapú keresésekhez terveztek. Ezt a fejlesztést azonban azonnal meg kellett szakítani. A helyzet az, hogy a keresés végrehajtásához egy speciális számot kell hívnia, ami nagyon kényelmetlen volt. A Google azonban nem adta fel, és folytatta a fejlesztést ebben az irányban.
2005-benmegjelenik az első beszédfelismerő funkcióval rendelkező operációs rendszer. Az úttörő a Mac OS X Tiger volt. Meg kell azonban említeni, hogy hasonló fejlesztések a Windows 95-ben is voltak, de ott inkább volt tesztverzió, mint teljes értékű termék. A VoiceOver nemcsak beszédfelismerésre volt képes, hanem ő isszintetizátor Ez a program szöveges dokumentumok, levelek és weboldalak tartalmát tudta olvasni. Nagy előnye volt, hogy hangszórófüggetlen volt, sőt több felhasználóval is működött egyszerre.
VoiceOver felület
2006-bannem akarva lemaradni örök versenytársa Apple mögött, a Microsoft kiad egy operációs rendszert, amely teljes mértékben támogatja a Windows Vista beszédfelismerő funkcióját.
2009-benkiadják a Google Hangalapú keresési alkalmazását iPhone-ra. Ennek az alkalmazásnak a munkája a szuperszámítógépek egekig terjedő számításaira támaszkodik. Ezek a számítások lehetővé tették a nagyszámú adatelemzés elvégzését a felhasználók nagyszámú hangkérelme és szavai közötti egyezések keresésében. Ez az eljárás hozzájárult a rendszer gyors növekedéséhez és fejlesztéséhez.
A Hangalapú keresés fokozatosan a Google legnépszerűbb alkalmazásává válik mobileszközökön. Androidos verzió érkezik.
Hangalapú keresés iPhone okostelefonokon
2011-bena Google figyelembe vette az elmúlt évek hibáit, aminek eredményeként a Chrome böngésző hangfelismerő funkciója lett. A felesleges hívások és egyéb kellemetlenségek megszűntek. Ma az adatbázis körülbelül 230 milliárd szót tartalmaz a világ számos nyelvén.
A Siri először iPhone 4S okostelefonokon jelent meg
És végül, anélkül, hogy alábecsülnénk a beszédfelismerő rendszerek fejlődésének történetében meghatározó és korszakos dátumot. 2011. október 14.Az Apple megkezdi a Siri telepített iPhone 4S készülékeinek tömeges értékesítését. Ez a program nem csak a beszédet ismeri fel, hanem személyes virtuális asszisztensként is működik, amely képes a természetes nyelv feldolgozására, kérdések megválaszolására és ajánlások megfogalmazására. Ami figyelemre méltó benne, hogy nem azszabványos programokat használ, élénk kommunikáció zajlik a felhasználó és a készülék között. Kíváncsi vagy buta kérdésekre is tud viccekkel válaszolni. A mai napig ez a program támogatja az angol, francia és német nyelveket.
KövetkezőOlvassa el tovabba:
- Grúzia rövid története
- Az ókori civilizáció története – az Inka Birodalom röviden
- Az ókori júdeai királyság története röviden
- Örményország története röviden
- Miért nincsenek hangulatjelek az Instagramon?Android és más operációs rendszerek