Obsah:

Rozpoznávání řeči pomocí Google Speech API a Pythonu: 4 kroky
Rozpoznávání řeči pomocí Google Speech API a Pythonu: 4 kroky

Video: Rozpoznávání řeči pomocí Google Speech API a Pythonu: 4 kroky

Video: Rozpoznávání řeči pomocí Google Speech API a Pythonu: 4 kroky
Video: Trénování Paddle OCR na vlastních datech | YOLOv7 + OCR na Google Colab FREE GPU 2023 2024, Prosinec
Anonim
Rozpoznávání řeči pomocí Google Speech API a Pythonu
Rozpoznávání řeči pomocí Google Speech API a Pythonu

Rozpoznávání řeči

Rozpoznávání řeči je součástí zpracování přirozeného jazyka, což je podoblast umělé inteligence. Jednoduše řečeno, rozpoznávání řeči je schopnost počítačového softwaru identifikovat slova a fráze v mluveném jazyce a převést je na text čitelný pro člověka. Používá se v několika aplikacích, jako jsou systémy hlasového asistenta, domácí automatizace, hlasové chatboty, hlasově interagující robot, umělá inteligence atd.

Pro rozpoznávání řeči existují různá rozhraní API (Application Programming Interface). Nabízejí služby buď zdarma, nebo placené. Tyto jsou:

  • CMU Sfinga
  • Rozpoznávání řeči Google
  • Google Cloud Speech API
  • Wit.ai
  • Rozpoznávání hlasu Microsoft Bing
  • Houndify API
  • Řeč IBM na text
  • Detekce klíčových slov Snowboy

Zde budeme používat rozpoznávání řeči Google, protože nevyžaduje žádný klíč API. Tento tutoriál si klade za cíl poskytnout úvod do používání knihovny rozpoznávání řeči Google v Pythonu pomocí externího mikrofonu, jako je ReSpeaker USB 4-Mic Array od Seeed Studio. Přestože není povinné používat externí mikrofon, lze použít i vestavěný mikrofon notebooku.

Krok 1: ReSpeaker USB 4-Mic Array

ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
4-mikrofonní pole ReSpeaker USB
4-mikrofonní pole ReSpeaker USB

ReSpeaker USB Mic je zařízení se čtyřmi mikrofony navržené pro AI a hlasové aplikace, které bylo vyvinuto společností Seeed Studio. Má 4 vysoce výkonné, vestavěné všesměrové mikrofony navržené tak, aby zachytily váš hlas odkudkoli v místnosti, a 12 programovatelných RGB LED indikátorů. Mikrofon ReSpeaker USB podporuje operační systémy Linux, macOS a Windows. Podrobnosti najdete zde.

ReSpeaker USB Mic je dodáván v pěkném balení obsahujícím následující položky:

  • Uživatelská příručka
  • ReSpeaker USB mikrofonní pole
  • Micro USB na USB kabel

Takže jsme připraveni začít.

Krok 2: Nainstalujte požadované knihovny

V tomto kurzu budu předpokládat, že používáte Python 3.x.

Pojďme nainstalovat knihovny:

pip3 nainstalujte SpeechRecognition

Pro macOS budete nejprve muset nainstalovat PortAudio s Homebrew a poté nainstalovat PyAudio s pip3:

brew install portaudio

Spustíme pod příkazem nainstalovat pyaudio

pip3 nainstalujte pyaudio

Pro Linux můžete PyAudio nainstalovat pomocí apt:

sudo apt-get install python-pyaudio python3-pyaudio

Pro Windows můžete PyAudio nainstalovat pomocí pip:

pip install pyaudio

Vytvořte nový soubor pythonu

nano get_index.py

Vložte na get_index.py pod úryvek kódu:

import pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') pro i v rozsahu (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i)get '))> 0: print ("Input Device id", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Spusťte následující příkaz:

python3 get_index.py

V mém případě příkaz poskytuje následující výstup na obrazovku:

ID vstupního zařízení 1 - ReSpeaker 4 Mic Array (UAC1.0)

Input Device id 2 - MacBook Air Microphone

Změňte device_index na indexové číslo podle svého výběru v níže uvedeném fragmentu kódu.

importujte řečové rozpoznávání jako sr

r = sr. Recognizer () řeč = sr. Mikrofon (device_index = 1) s řečí jako zdrojem: print („řekni něco!…“) audio = r.adjust_for_ambient_noise (zdroj) audio = r.listen (zdroj) zkus: rozpoznání = r.recognize_google (audio, language = 'en-US') print ("Řekl jste:" + rozpoznávání) kromě sr. UnknownValueError: print ("Rozpoznávání řeči Google zvuku nerozumí") kromě sr. RequestError jako e: print („Nelze požadovat výsledky ze služby Google Speech Recognition; {0}“. Formát (e))

Index zařízení byl vybrán 1, protože hlavním zdrojem bude ReSpeaker 4 Mic Array.

Krok 3: Převod textu na řeč v Pythonu s knihovnou Pyttsx3

K převodu textu na řeč v pythonu je k dispozici několik API. Jedním z takových API je pyttsx3, což je podle mě nejlepší dostupný balíček převodu textu na řeč. Tento balíček funguje ve Windows, Mac a Linux. Podívejte se na oficiální dokumentaci, abyste zjistili, jak se to dělá.

Nainstalujte balíček K instalaci balíčku použijte pip.

pip install pyttsx3

Pokud jste v systému Windows, budete potřebovat další balíček, pypiwin32, který bude potřebovat pro přístup k nativnímu rozhraní API řeči Windows.

pip install pypiwin32

Převod skriptu pythonu na převod textu na řeč Níže je úryvek kódu pro převod textu na řeč pomocí pyttsx3:

importovat pyttsx3

motor = pyttsx3.init ()

engine.setProperty ('rate', 150) # Procenta rychlosti

engine.setProperty ('volume', 0,9) # Volume 0-1

engine.say („Ahoj, světe!“)

engine.runAndWait ()

Krok 4: Dát to všechno dohromady: Budování rozpoznávání řeči v Pythonu pomocí API pro rozpoznávání řeči Google a knihovny Pyttsx3

Níže uvedený kód je zodpovědný za rozpoznávání lidské řeči pomocí rozpoznávání řeči Google a převádění textu na řeč pomocí knihovny pyttsx3.

importujte řečové rozpoznávání jako sr

import pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) with speech as source: audio = r.adjust_for_ambient_noise (zdroj) audio = r.listen (zdroj) zkusit: Řekli jste: „ + rozpoznávání) engine.runAndWait () kromě sr. UnknownValueError: engine.say („ Rozpoznávání řeči Google nerozumí zvuku “) engine.runAndWait () kromě sr. RequestError jako e: engine.say („ Nelze vyžádat si výsledky ze služby Google Speech Recognition; {0} . format (e)) engine.runAndWait ()

Tiskne výstup na terminál. Také bude převeden na řeč.

Řekl jste: Londýn je hlavní město Velké Británie

Doufám, že nyní lépe porozumíte tomu, jak rozpoznávání řeči funguje obecně, a co je nejdůležitější, jak jej implementovat pomocí API pro rozpoznávání řeči Google s Pythonem.

Pokud máte nějaké dotazy nebo zpětnou vazbu? Zanechte komentář níže. Zůstaňte naladěni!

Doporučuje: