Gazdaság

Emberi hangon

A mobiltulajdonosok akár élőszóban is lehallgathatják sms-eiket hazai kutatók fejlesztéseinek köszönhetően.

Ma még gyakran megmosolyogtató, élettelen géphangon szólalnak meg a bankok telefonos szolgáltatásaként a számlaegyenleget közlő, vagy egyes mobiltársaságok e-mailt felolvasó beszédautomatái. Pedig a Budapesti Műszaki Egyetemen (BME) már kidolgozták a vájt fülűeket is megtévesztő beszédre képes rendszereket: a Beszédtechnológiai Laboratórium munkatársai az elmúlt években elsőként Magyarországon szám- és dátum-, e-mail-, sms-, valamint név- és címfelolvasó megoldásokat fejlesztettek ki, amelyeken ma már működő szolgáltatások is alapulnak.

Az ilyen fejlesztések során általában az a legnagyobb probléma, hogy az emberek minden szöveg esetén másképpen szólalnak meg, ezért a gépi megoldásokban is meg kell találni az azokhoz illő olvasási stílust. „A név- és címfelolvasó esetében több millió adatbázis felvételt elemeztünk, hogy megállapítsuk, milyen hangsúlyok fordulhatnak elő a címekben és a nevekben” – fejtegeti Németh Géza, a BME távközlési és médiainformatikai tanszékének egyetemi docense. Így most kifejezetten jól hangzik a szöveg, mivel a cím kötött formája sokat javít a minőségen.


Emberi hangon 1

Németh Géza, BME. Jól hangzó eredmények.

A BME által fejlesztett név- és címfelolvasó már az egyik nagy mobilszolgáltató tudakozójaként működik, és az egyetemi docens szerint olyan minőséget sikerült elérniük, hogy az érdeklődőnek általában már egyáltalán nincs szükségük ügyintéző segítségére. A tudakozó ugyan sms-ben is el tudja küldeni az információt, de kérésre fel is olvassa a kért nevet és címet, akár részletezve, és betűzve is. A BME szakembere elárulja: a kutatás egyik legnagyobb kihívása a betűzés volt, mivel eddig nem létezett arra vonatkozó szabvány, hogy a magyar neveket, vagy címeket hogyan kell betűnként felolvasni. Ezért a tanszék a betűzés egységesítésére kidolgozott egy javaslatot, s azt a kutatók a Magyar Tudományos Akadémia felé is továbbították.

„Az ügyfelek kellemes tapasztalatokról számolnak be, már ha egyáltalán észreveszik a gépi és az emberi hang közötti különbséget” – mondja Fekete László, a T-Mobile IT-fejlesztési igazgatója. Mint hangsúlyozza: a rendszer bevezetése nem az ügyfélszolgálati munkatársak számát, csak a terhelésüket csökkentette, s így az ügyfelek egyéb kérdéseivel többet tudnak foglalkozni.

A BME másik fejlesztése a már szintén működő szöveges üzenet felolvasó szolgáltatás, az SMSmondó, amelyet az egyre bővülő tudással felszerelt „okos telefonokra” dolgoztak ki a M.I.T. Systems Kft. munkatársaival együttműködve. Ez a készülék beállításaitól függően képes felolvasni az érkezett üzenetet: szabályozható a hangmagasság, a felolvasás sebessége, de a hangerő is, néma üzemmódban például egészen halkan szólal csak meg a készülék.

Kincset érő hang


A különböző igényeknek megfelelő beszédtechnológiai rendszerek költségei sokszor nagyban eltérnek, az ár függ attól, hogy az ügyfél mit kér, és mennyire kell személyre szabni a szisztémát” – beszél a tarifákról Fegyó Tibor, a beszédfelismerő és beszédszintézis rendszerekkel is foglalkozó AITIA Rt. kutatócég igazgatója. Fegyó úgy látja, a mai bővülő piacon egyelőre nincsenek kialakult árak. Az AITIA egyébként beszédtechnológiás megoldásaiból egyelőre nem termel profitot: bevételeikből minden szabad forintot a fejlesztésre fordítanak.

Az alkalmazás tervezett továbbfejlesztése során ráadásul felismeri majd, hogy milyen nyelvű az érkezett szöveg, és azt az adott nyelven olvassa fel. Így már jó minőségben lehet hallgatni a magyar, német és lengyel nyelvű üzeneteket is. Az SMSmondóhoz szükséges szoftvert ingyen telepítik a T-Mobile ügyfelek erre alkalmas, Symbian operációs rendszerrel rendelkező intelligens, elegendő memóriával rendelkező telefonjaira, (pl. Nokia 7650, 3650, 3660, 6600, 7610, N-Gage, Siemes SX1 stb.)

Német Géza szerint a mobiltelefonokra épülő beszédtechnológiának az üzenetolvasás mellett számos egyéb alkalmazása is lehet a jövőben. Így például elképzelhető, hogy a jogászok, közgazdászok mobilkészülékükről hallgassák le a munkájukhoz éppen szükséges jogszabályt, hiszen elméletileg már a telefonok is képesek a teljes jogtár tárolására. Azt is meg lehet majd oldani, hogy a közüzemi szolgáltatók beszédautomatákkal figyelmeztessék ügyfeleiket számláik befizetésére. A technológia jövőbeni lehetőségei elméletileg végtelenek, de még sok a kutatnivaló: a beszédfelismerő és beszédgeneráló rendszerek dinamikus együttműködésére – vagyis igazi beszélgetésre – ma még egyik rendszer sem képes. Így például komoly fejlesztést igényelne egy olyan megoldás is, amely tud kedvesen és dühösen is reagálni, attól függően, hogy az ügyfél milyen módon szólt hozzá.

Itt állíthatod be, hogy a Google kereső elöl hozza a 24.hu-s találatokat

Ajánlott videó

Olvasói sztorik