**سنتز گفتار** یا **متن به گفتار** (Text-to-Speech یا TTS) فناوریای است که متن را به گفتار انسانمانند تبدیل میکند. این سیستمها با استفاده از الگوریتمهای پیچیده و مدلهای هوش مصنوعی، متن را تحلیل میکنند، ساختار زبانی (دستور، تلفظ و آهنگ کلام) را تفسیر میکنند و سپس waveform صوتی را تولید میکنند. فناوریهای مدرن، که بر پایه یادگیری عمیق استوارند، قادر به تولید گفتاری بسیار طبیعی و پویا با تنهای احساسی مختلف هستند. این فناوری در برنامههایی مانند دستیاران صوتی (مثل Siri و Google Assistant)، کتابهای صوتی، خدمات به افراد دارای معلولیت بینایی و سیستمهای خوانش متن به کار میرود.