Pythonで合成音声(テキスト読み上げ)を生成する方法は、Colab(Google Colaboratory)を使えば非常に簡単に実行できます。
ここでは、初心者でも扱いやすい「gTTS(Google Text-to-Speech)」ライブラリと「pyttsx3」ライブラリ、そして最新の高品質TTSライブラリ「TTS(by coqui.ai)」を使った方法を順に紹介します。
目次
方法①:gTTS(Google Text-to-Speech)【最も簡単】
GoogleのAPIを使った非常に簡単なTTS。
音声はmp3で保存されます。
インストール&コード(Colab用)
# gTTSのインストール
!pip install gTTS
# 音声を生成するコード
from gtts import gTTS
from IPython.display import Audio
text = "こんにちは、これはPythonで作った合成音声です。"
tts = gTTS(text=text, lang='ja') # lang='ja'で日本語
tts.save("output.mp3")
# 音声を再生
Audio("output.mp3")
特徴
- 日本語対応
- 超軽量
- 無料で使用可(インターネット必須)
- 音声のカスタマイズ不可(声質は固定)
方法②:pyttsx3【ローカル実行向け・オフライン可】
pyttsx3
はローカルでTTSを動かせるライブラリですが、Colabでの利用はやや制限があります。
※Colabでは再生できても音声品質が低めで、再生確認が難しいため、ローカル推奨。
以下は参考用。
# Colabでは正しく動作しないことが多いため、ローカル実行推奨
!pip install pyttsx3
import pyttsx3
engine = pyttsx3.init()
engine.say("こんにちは、これはpyttsx3を使った合成音声です。")
engine.runAndWait()
方法③:高品質なTTS「TTS(by coqui.ai)」【Colab対応・超リアル】
自然な音声を作りたい場合、Coqui TTSが最先端。
多言語&高精度。
参考コードは、容量の問題を考慮して割愛させて頂きます。
特徴
- 高品質な日本語合成音声
- 音声モデルが豊富(話者変更やスタイル変更も可能)
- オフライン動作(ColabでもOK)
- 容量がやや大きい
まとめ

方法 | 日本語対応 | 音質 | オフライン | 利用難易度 | 備考 |
---|---|---|---|---|---|
gTTS | ◎ | △(標準) | × | ◎ | 最も簡単、要ネット接続 |
pyttsx3 | △ | △(機械音) | ◎ | ○ | ローカル実行向け |
Coqui TTS | ◎ | ◎(高品質) | ◎ | △ | 最新のAI音声技術 |
Colabで手軽に合成音声を試すなら、まずはgTTS
が最適です。
クオリティにこだわるならCoqui TTS
のモデルを使いましょう。
日本語にも対応しており、プロトタイピングや動画のナレーションなどにも活用できます。
以上、Pythonで合成音声を生成する方法についてでした。
最後までお読みいただき、ありがとうございました。