Ana içeriğe atla →

Android’de TTS Motorları: Geçmiş, Bugün ve Gelecek

Son Güncelleme 2 Ağustos 2023

TTS motorları, görme engelli kişilerin bilgisayarları ve cep telefonlarıyla günlük etkileşimlerinin önemli bir parçasıdır. Bir Metinden Konuşma motoru, bir ekran okuyucu veya başka bir program tarafından oluşturulan metni, son derece robotik seslerden yüksek kaliteli insan benzeri seslere kadar değişen sentezlenmiş sesleri kullanarak sözlü metne dönüştürmekten sorumludur. Bazı görme engelli kişiler tek bir TTS motoruna bağlı kalmayı tercih ederken, diğerleri farklı motorlar ve mevcut sesler arasında düzenli olarak geçiş yapmayı seviyor.

Yıllardır Android kullanıcıları, sınırlı TTS motoru ve iPhone’larda izin verilen sesler nedeniyle iOS kullanıcılarıyla alay etti. Ancak durum son zamanlarda önemli ölçüde değişti ve neredeyse tam tersine döndü.

Bu makalede, Android’de TTS motorlarının geçmiş durumuna, mevcut durumuna ve potansiyel geleceğine ışık tutacağım.

Bu makalenin, TTS motorlarının tarihçesi hakkında kapsamlı bir çalışma veya mevcut motorların özelliklerine yönelik bir kılavuz olma amacı taşımadığını belirtmem gerekiyor. Fikirlerim, Kişisel deneyimime ve yıllar boyunca TTS motorlarını gözlemlemeye olan ilgime dayanıyor. Ek olarak, ses tercihlerinin ve beğenilerinin bireyler arasında farklılık gösterdiği ve belirli motorların onlar için ne kadar işe yaradığı da dikkate alınmalıdır.

Geçmiş

Android’in açık doğası, platform için TTS motorlarının geliştirilmesini sağlayarak ünlü TTS şirketlerinin motorlarını ve seslerini Android’e taşımasını sağladı. Bu, TTS’nin yalnızca ekran okuyucular tarafından değil, aynı zamanda e-Kitap okuyucularda, yol tariflerinde ve diğer uygulamalarda da kullanıldığının fark edilmesiyle sağlandı.
Ancak bu durum uzun sürmedi. Zamanla TTS şirketleri platforma verdikleri desteği geri çekmeye başladı. Bazıları başka şirketler tarafından satın alındı, bazıları yetersiz satışlarla karşı karşıya kaldı ve diğerleri platforma adil bir şans vermedi. Kullanımdan kaldırılmış TTS motorlarının örneklerini aşağıda bulabilirsiniz:

SVOX:

Android’i ilk benimseyenler için SVOX, birden fazla dilde kabul edilebilir kalitede çeşitli sesler sunan TTS motoruyla biliniyordu. Satın aldığım ilk ses olduğu için Arapça sesi 3 dolara satın aldığımı çok iyi hatırlıyorum. Bu sesler, SVOX tarafından Pico adı altında geliştirilen ve birçok Android telefona önceden yüklenmiş olan ücretsiz, robotik, düşük kaliteli seslerden farklıydı. Sonunda bu seslerin yerini Google’ın kendi geliştirdiği TTS motoru aldı. Şu anda, SVOX sesleri artık satın alınamıyor ve ses verilerini bulmayı başarsanız bile, Android’in yeni sürümleriyle çalışmayacaklar.

Ivona:

Ivona, Android için TTS motorunun beta sürümünü yayınladı ve ne yazık ki bu sürüm hiçbir zaman kararlı sürüme ulaşamadı. Şirket Amazon tarafından satın alındı ve Android sürümü için geliştirme durduruldu. Beta sürümü tüm ünlü sesleri içermiyordu ve TTS performansı yavaştı. Kindle Ivona TTS gibi bazı Ivona portları hala mevcut olsa da, bunlar modası geçmiş ve muhtemelen gelecekteki Android sürümleriyle çalışmayı durduracaklar.

Eloquence:

Code Factory Android için popüler ETI Eloquence TTS’yi tanıttığında birçok kişi heyecanlanmıştı. Ancak fiyatı bazılarının hevesini kırdı (TTS’nin fiyatı yaklaşık 20 dolardı), ancak yine de birçok kişi onu satın aldı. Crackler da TTS’yi daha fazla cihazda kullanılabilir hale getirdi. Robotik seslerine rağmen Eloquence, yüksek hızlardaki netliği ve duyarlılığı ile övgü toplayarak çok sayıda görme engelli birey için başvurulan TTS haline geldi. Bir süre sonra Code Factory, beklenen kârı elde edemediği için Android için Eloquence’in geliştirilmesine son vermeye karar verdi. Yüksek fiyat ve cracklerin kullanımı satış eksikliğine katkıda bulundu.
Hala 32 bit uygulamaları destekleyen telefonlar Eloquence’i çalıştırabilir. Ancak, Android’de sessizliğe ulaşana kadar günler sayılıyor. Şimdi Eloquence iOS cihazlarda yüksek sesle ve net bir şekilde konuşuyor.

Voxygen:

Birçoğu Voxygen’i hala Wich sesi gibi komik sesleriyle hatırlayacaktır. ancak SVoxen sadece komik seslerin geliştiricisi değildi. aynı zamanda bazı iyi insan benzeri seslere de sahipti. Desteklenen dillerin sayısı çok fazla değildi ancak sesler android için mevcut olan en ucuz seslerdendi. Belki de desteklenen tek latince olmayan dil olan Arapça Adel gibi bazı sesler güzel bir kaliteye sahipti. Yıllar sonra şirket, şirketler tarafından ticari kullanım için seslere daha fazla odaklanmak için geliştirmeyi durdurdu. Diğer eski yazılımlar gibi, Voxygen seslerinin de herhangi bir zamanda çalışmayı durdurması bekleniyor.

Bahsetmeye değer diğerleri:

Emojileri benzersiz bir şekilde ifade etmesiyle bilinen Loquendo TTS motoru, Android’de uzun sürmeyen kısa bir çıkış yaptı. Şahsen herhangi bir Loquendo sesini test etme şansım olmadı.

Speak TTS çok daha kısa bir süre kendini gösterdi. Birden fazla dilde birkaç ses sunuyordu ancak hiçbir zaman düzgün çalışamadı. İlk sürümlerden kısa bir süre sonra geliştirme durduruldu.

Mevcut TTS motorları:

Android’i terk eden TTS motorlarını okuduktan veya belki de bazılarını kaybetmenin hayal kırıklığını yaşadıktan sonra, geriye hangi seçeneklerin kaldığını merak edebilirsiniz. Durum tamamen iç karartıcı değil, ancak aşırı iyimser de değil. Örneğin Vocalizer sesleri hala Android’de resmi olarak mevcut, ancak güncelleme almıyorlar ve sorunlar birikmeye devam ediyor.
Mevcut seçeneklere bir göz atalım:

Google Ses Hizmetleri:

Galaxy Nexus’umu güncellediğimde ve kulağa kötü gelen Pico TTS’nin yerine yeni bir ses duyduğumda hissettiğim heyecanı hala hatırlıyorum. Bu olay Android 4.2 sırasında gerçekleşmişti, ancak önceki 4.1 sürümünde değiştirilip değiştirilmediğinden emin değilim.

Google Ses Hizmetleri’nin bir parçası olan Google TTS, çeşitli diller için destek sunuyor ve çoğu telefona önceden yüklenmiş olarak geliyor. Seslerin kalitesini artırmak için çalışırken küçük bir dosya boyutunu korumaya odaklanılıyor. Daha kaliteli seslerin sunulması birçok kullanıcı tarafından iyi karşılandı. Ancak, bu sesler yoğun bir şekilde sıkıştırılmıştır. Bu seslerin çalışabileceği konuşma hızında sınırlamalar vardır. Belirli bir konuşma hızına ulaşıldığında, ses varsayılan olarak daha düşük kaliteli versiyonuna geçer. Ayrıca, bazı telefonlarda AuTo TTS gibi başka bir araç kullanılmadığı sürece TalkBack’in eski sesleri kullanmaya devam ettiği bir sorun vardır. Bu sorunun Jieshuo ekran okuyucuyu etkilemediğini belirtmek önemlidir.

Her dil için birden fazla ses mevcut olsa da, genellikle sadece küçük değişikliklerle benzer sesler ortaya çıkarmışlar, bu nedenle tamamen doğal gelmeyebilirler. Ayrıca, TTS birçok telefonda diğer bazı TTS motorlarından daha yavaş olabilir ve yanıt verme açısından iyileştirilmesi gerekmektedir.

eSpeak:

Robotik ve nahoş sesine rağmen, açık kaynaklı hafif bir TTS motoru olan eSpeak, performansı ve yüksek hızlarda anlaşılabilirliği nedeniyle birçok kişi tarafından tercih edilmektedir.
RedZoc Solutions tarafından Play Store’da reklam destekli ücretsiz bir sürümü de dahil olmak üzere Espeak’in Android için sürümleri mevcuttur. Bu TTS motoru çok çeşitli dilleri destekliyor. Ancak, örneğin Arapça diliyle ilgili kişisel deneyimim bana çok sayıda dili desteklemenin kaliteyi garanti etmediğini gösterdi. Bir dili destekleyebilirsiniz ancak sonuçta ana dili İngilizce olanların bile anlamakta zorlanacağı bir telaffuz elde edebilirsiniz.

Acapela TTS:

Acapela Group’un Acapela Sesleri Android’de 10 yılı aşkın bir süredir mevcuttur. Bu sesler ücretli seçeneklerdir. İyi kalite sunarlar ve noktalama duraklamaları, hız, perde, ses ve telaffuz gibi çeşitli yönler açısından özelleştirilebilirler. Uygulama, dikkate değer olan düzenli güncellemeler almaya devam ediyor. Ayrıca, çocuk sesleri ve çok sayıda dil desteği de dahil olmak üzere ses portföyü kapsamlıdır.

Acapela, kullanıcıların belirli cümleleri kaydederek kendi sentezlenmiş seslerini oluşturmalarına olanak tanıyan MyOwnVoice özelliğini kullanıma sundu. Ancak, oluşturulan seslerin kullanımı kısa bir süre ile sınırlıdır ve özellik öncelikle konuşma bozukluğu yaşayabilecek kişilere yöneliktir.

Acapela’nın cracklerle mücadele etmek için gösterdiği önemli çabadan kesinlikle bahsetmeye değer ve bu özveri, Acapela TTS’nin bugüne kadar Android’de kalmasının nedenlerinden biri olabilir.
Acapela TTS’nin bir başka kullanışlı özelliği de, şu anda Arapça sesleri diğer dillerle birleştirmekle sınırlı olmasına rağmen, otomatik dil değiştirme yeteneğidir.

CereProc:

CereProc, Android’de TTS pazarına yabancı değil. Ancak yakın zamanda eski TTS motorlarını yeni bir motorla değiştirdiler. Amaçları özel AI nöral built tekniğini kullanarak üstünlük sağlamak. Satın alınan eski sesler yeni motorla uyumsuz olduğundan ve satın almadan önce seslerin test edilmesi için herhangi bir deneme süresi bulunmadığından, bu iddianın geçerliliği henüz kanıtlanmamıştır.
Yine de satın alınan eski CereProc sesler beklendiği gibi çalışmaya devam ediyor. Sesleri elde etmek için kullanıcıların Play Store’dan CerePlay Text-to-Speech uygulamasını indirmeleri gerekir. Bildiğim kadarıyla, CereProc sesleri Android için en uygun fiyatlı seçenekler ve eski seslerle ilgili deneyimime dayanarak (yenilerini test etmedim), kalitesi fiyata göre makul. CereProc sesleriyle sınırlı özelleştirme seçenekleri olabileceğini ve desteklenen dil sayısının diğer ücretli alternatiflere kıyasla nispeten daha az olduğunu belirtmekte fayda var. CereProc öncelikle çeşitli İngiliz yerel aksanlarına odaklanıyor.

Vocalizer ya da hayır:

Vocalizer’ı geçmiş TTS motorları arasında mı yoksa şu anda mevcut olanlar arasında mı kategorize etmem gerektiğinden emin değilim. Code Factory’nin Android için resmi Vocalizer’ı piyasaya sürmesinden yaklaşık iki yıl önce, Vocalizer seslerinin bir sürümü zaten mevcuttu. Bu seslerin kalitesi etkileyiciydi ve Android ve iOS’ta bulunan her iki Vocalizer sürümünün mevcut kalitesini geride bıraktı. Vocalizer’ın bu sürümü, Windows için NVDA Vocalizer eklentisi temel alınarak geliştirilmişti.

Code Factory, Android sürümünü resmi olarak geliştirdikten sonra, her ses ayrı ayrı satın alınabilir hale geldi. Vocalizer TTS, beklendiği gibi çok çeşitli diller ve sesler sundu. Başlangıçta, genel deneyim tatmin ediciydi. Ancak zaman geçtikçe çözülmeyen sorunlar daha belirgin hale geldi. Motor çöküyor, zaman zaman susuyor veya varsayılan sesi rastgele değiştiriyordu. Ne yazık ki Code Factory, kullanıcıların seslendirme geliştirme durumuyla ilgili şüpheleri ve spekülasyonları karşısında sessiz kaldı.

Satın alınabilecek seslere rağmen, Eloquence’ın kaderinde gördüğümüz gibi, herhangi birine yatırım yapmadan önce motorun kullanımdan kaldırılma veya artık güncelleme almama olasılığını göz önünde bulundurmak önemlidir. Bu kesinlik eksikliği, kullanıcıları bu sesler için para harcama konusunda şüpheye düşürebilir ve bunun yerine resmi olmayan sürümleri tercih etmelerine yol açabilir.

Markalara özel TTS motorları:

Samsung, alışılageldiği üzere cihazlarında kendi TTS motorunu kullanmayı tercih etmiş. Motorun tepkiselliği özellikle zayıf cihazlarda en iyisi olmayabilir, ancak bazı sesler iyi bir kalite sunuyor. Desteklenen dil sayısı Google’ın TTS’sine kıyasla daha az, ancak ses kalitesi daha yüksek. Samsung dışı cihazlara yüklenebilen değiştirilmiş sürümler olmasına rağmen, bunlar resmi olarak desteklenmemektedir.

Google servislerinin kaybı nedeniyle Huawei, cihazlarına önceden yüklenmiş olarak gelen kendi TTS motorunu geliştirmek zorunda kaldı. Bu motor çeşitli diller ve sesler sunuyor.

Zorluklar ve Geleceğe bakış:

TTS şirketlerinin birbiri ardına Android’i terk etmesiyle, ünlü motorların gelişimini durdurmak için itici bir güç olarak kar eksikliği ile durum endişe verici hale geliyor. Yapay zeka, daha iyi çok yönlü TTS motorları ortaya çıkarma potansiyeli ile ses oluşturma ve klonlamada önemli ilerlemeler sağladı. İnsan benzeri seslerde sık görülen bir sorun olan konuşma hızını artırırken kalitenin düşmesi gibi mevcut sınırlamaları çözme yeteneğine sahiptir.
Ancak, ne yazık ki, Android için yeni TTS motorları oluşturmaya yönelik girişimleri henüz görmedik. Artık odak noktası, ticari şirketlere ürün ve hizmetleri için hizmet veren ve daha fazla kar getiren çevrimiçi nöral seslere odaklanıyor. Artık ana odak, ekran okuyucu kullanıcılarına fayda sağlayacak, çeşitli seslere sahip duyarlı ve çevrimdışı bir TTS olan TTS motorları değil.

Herkesi memnun etmek mümkün değil, yani ekran okuyucular tarafından kullanılabilen TTS motorları oluşturmak için ciddi girişimlerde bulunmayı düşünen insanlar olsa bile, sürdürülebilir kalkınma için gerekli finansmanı alma şansı kolay değil. Halihazırda sahip oldukları motora alıştıklarında yeni bir motoru test etmeye ikna olacak insanların sayısından bahsetmiyorum bile.

TTS motorlarının kullanılabilirliği, daha fazla seçenek ve daha kişiselleştirilmiş bir deneyim anlamına gelir. Ne kadar çeşitli ve kararlı olurlarsa, tüm kullanıcılar için o kadar iyi bir deneyim olur. Ancak, daha yüksek kârlılık için çevrimiçi ve ticari hizmetlere yönelik odak kaymasıyla, Android TTS meraklılarının endişelenmesi çok doğal. Android’de ilginç TTS motoru geliştirme günleri geride kaldı mı? Görme engelli Android ekran okuyucu kullanıcıları, ses sentezlemesindeki ilerlemelerin meyvelerini toplama konusunda geride mi kalacak?

Görüntüleme: 60

Yazar Hakkında

Kareen Kiwan

Kareen Kiwan 2013'ten beri Android kullanıyor. Teknolojiyi takip etmeyi ve yeni şeyleri test etmeyi seviyor.
Android ile ilk günlerinden beri Kareen, görme engelli insanlar arasında Android kullanılabilirliği hakkında önyargıların yanlış olduğunu her yerde söylüyor.

Kategori: Makaleler

Yorumlar

Bir yanıt yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir