Obsah:
2025 Autor: John Day | [email protected]. Naposledy změněno: 2025-01-13 06:57
Rozpoznávání řeči
Rozpoznávání řeči je součástí zpracování přirozeného jazyka, což je podoblast umělé inteligence. Jednoduše řečeno, rozpoznávání řeči je schopnost počítačového softwaru identifikovat slova a fráze v mluveném jazyce a převést je na text čitelný pro člověka. Používá se v několika aplikacích, jako jsou systémy hlasového asistenta, domácí automatizace, hlasové chatboty, hlasově interagující robot, umělá inteligence atd.
Pro rozpoznávání řeči existují různá rozhraní API (Application Programming Interface). Nabízejí služby buď zdarma, nebo placené. Tyto jsou:
- CMU Sfinga
- Rozpoznávání řeči Google
- Google Cloud Speech API
- Wit.ai
- Rozpoznávání hlasu Microsoft Bing
- Houndify API
- Řeč IBM na text
- Detekce klíčových slov Snowboy
Zde budeme používat rozpoznávání řeči Google, protože nevyžaduje žádný klíč API. Tento tutoriál si klade za cíl poskytnout úvod do používání knihovny rozpoznávání řeči Google v Pythonu pomocí externího mikrofonu, jako je ReSpeaker USB 4-Mic Array od Seeed Studio. Přestože není povinné používat externí mikrofon, lze použít i vestavěný mikrofon notebooku.
Krok 1: ReSpeaker USB 4-Mic Array
ReSpeaker USB Mic je zařízení se čtyřmi mikrofony navržené pro AI a hlasové aplikace, které bylo vyvinuto společností Seeed Studio. Má 4 vysoce výkonné, vestavěné všesměrové mikrofony navržené tak, aby zachytily váš hlas odkudkoli v místnosti, a 12 programovatelných RGB LED indikátorů. Mikrofon ReSpeaker USB podporuje operační systémy Linux, macOS a Windows. Podrobnosti najdete zde.
ReSpeaker USB Mic je dodáván v pěkném balení obsahujícím následující položky:
- Uživatelská příručka
- ReSpeaker USB mikrofonní pole
- Micro USB na USB kabel
Takže jsme připraveni začít.
Krok 2: Nainstalujte požadované knihovny
V tomto kurzu budu předpokládat, že používáte Python 3.x.
Pojďme nainstalovat knihovny:
pip3 nainstalujte SpeechRecognition
Pro macOS budete nejprve muset nainstalovat PortAudio s Homebrew a poté nainstalovat PyAudio s pip3:
brew install portaudio
Spustíme pod příkazem nainstalovat pyaudio
pip3 nainstalujte pyaudio
Pro Linux můžete PyAudio nainstalovat pomocí apt:
sudo apt-get install python-pyaudio python3-pyaudio
Pro Windows můžete PyAudio nainstalovat pomocí pip:
pip install pyaudio
Vytvořte nový soubor pythonu
nano get_index.py
Vložte na get_index.py pod úryvek kódu:
import pyaudio
p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') pro i v rozsahu (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i)get '))> 0: print ("Input Device id", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))
Spusťte následující příkaz:
python3 get_index.py
V mém případě příkaz poskytuje následující výstup na obrazovku:
ID vstupního zařízení 1 - ReSpeaker 4 Mic Array (UAC1.0)
Input Device id 2 - MacBook Air Microphone
Změňte device_index na indexové číslo podle svého výběru v níže uvedeném fragmentu kódu.
importujte řečové rozpoznávání jako sr
r = sr. Recognizer () řeč = sr. Mikrofon (device_index = 1) s řečí jako zdrojem: print („řekni něco!…“) audio = r.adjust_for_ambient_noise (zdroj) audio = r.listen (zdroj) zkus: rozpoznání = r.recognize_google (audio, language = 'en-US') print ("Řekl jste:" + rozpoznávání) kromě sr. UnknownValueError: print ("Rozpoznávání řeči Google zvuku nerozumí") kromě sr. RequestError jako e: print („Nelze požadovat výsledky ze služby Google Speech Recognition; {0}“. Formát (e))
Index zařízení byl vybrán 1, protože hlavním zdrojem bude ReSpeaker 4 Mic Array.
Krok 3: Převod textu na řeč v Pythonu s knihovnou Pyttsx3
K převodu textu na řeč v pythonu je k dispozici několik API. Jedním z takových API je pyttsx3, což je podle mě nejlepší dostupný balíček převodu textu na řeč. Tento balíček funguje ve Windows, Mac a Linux. Podívejte se na oficiální dokumentaci, abyste zjistili, jak se to dělá.
Nainstalujte balíček K instalaci balíčku použijte pip.
pip install pyttsx3
Pokud jste v systému Windows, budete potřebovat další balíček, pypiwin32, který bude potřebovat pro přístup k nativnímu rozhraní API řeči Windows.
pip install pypiwin32
Převod skriptu pythonu na převod textu na řeč Níže je úryvek kódu pro převod textu na řeč pomocí pyttsx3:
importovat pyttsx3
motor = pyttsx3.init ()
engine.setProperty ('rate', 150) # Procenta rychlosti
engine.setProperty ('volume', 0,9) # Volume 0-1
engine.say („Ahoj, světe!“)
engine.runAndWait ()
Krok 4: Dát to všechno dohromady: Budování rozpoznávání řeči v Pythonu pomocí API pro rozpoznávání řeči Google a knihovny Pyttsx3
Níže uvedený kód je zodpovědný za rozpoznávání lidské řeči pomocí rozpoznávání řeči Google a převádění textu na řeč pomocí knihovny pyttsx3.
importujte řečové rozpoznávání jako sr
import pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) with speech as source: audio = r.adjust_for_ambient_noise (zdroj) audio = r.listen (zdroj) zkusit: Řekli jste: „ + rozpoznávání) engine.runAndWait () kromě sr. UnknownValueError: engine.say („ Rozpoznávání řeči Google nerozumí zvuku “) engine.runAndWait () kromě sr. RequestError jako e: engine.say („ Nelze vyžádat si výsledky ze služby Google Speech Recognition; {0} . format (e)) engine.runAndWait ()
Tiskne výstup na terminál. Také bude převeden na řeč.
Řekl jste: Londýn je hlavní město Velké Británie
Doufám, že nyní lépe porozumíte tomu, jak rozpoznávání řeči funguje obecně, a co je nejdůležitější, jak jej implementovat pomocí API pro rozpoznávání řeči Google s Pythonem.
Pokud máte nějaké dotazy nebo zpětnou vazbu? Zanechte komentář níže. Zůstaňte naladěni!