Rozpoznávání řeči pomocí Google Speech API a Pythonu: 4 kroky

Obsah:

Krok 1: ReSpeaker USB 4-Mic Array
Krok 2: Nainstalujte požadované knihovny
Krok 3: Převod textu na řeč v Pythonu s knihovnou Pyttsx3
Krok 4: Dát to všechno dohromady: Budování rozpoznávání řeči v Pythonu pomocí API pro rozpoznávání řeči Google a knihovny Pyttsx3

2025 Autor: John Day | [email protected]. Naposledy změněno: 2025-01-23 14:38

Rozpoznávání řeči

Rozpoznávání řeči je součástí zpracování přirozeného jazyka, což je podoblast umělé inteligence. Jednoduše řečeno, rozpoznávání řeči je schopnost počítačového softwaru identifikovat slova a fráze v mluveném jazyce a převést je na text čitelný pro člověka. Používá se v několika aplikacích, jako jsou systémy hlasového asistenta, domácí automatizace, hlasové chatboty, hlasově interagující robot, umělá inteligence atd.

Pro rozpoznávání řeči existují různá rozhraní API (Application Programming Interface). Nabízejí služby buď zdarma, nebo placené. Tyto jsou:

CMU Sfinga
Rozpoznávání řeči Google
Google Cloud Speech API
Wit.ai
Rozpoznávání hlasu Microsoft Bing
Houndify API
Řeč IBM na text
Detekce klíčových slov Snowboy

Zde budeme používat rozpoznávání řeči Google, protože nevyžaduje žádný klíč API. Tento tutoriál si klade za cíl poskytnout úvod do používání knihovny rozpoznávání řeči Google v Pythonu pomocí externího mikrofonu, jako je ReSpeaker USB 4-Mic Array od Seeed Studio. Přestože není povinné používat externí mikrofon, lze použít i vestavěný mikrofon notebooku.

Krok 1: ReSpeaker USB 4-Mic Array

ReSpeaker USB Mic je zařízení se čtyřmi mikrofony navržené pro AI a hlasové aplikace, které bylo vyvinuto společností Seeed Studio. Má 4 vysoce výkonné, vestavěné všesměrové mikrofony navržené tak, aby zachytily váš hlas odkudkoli v místnosti, a 12 programovatelných RGB LED indikátorů. Mikrofon ReSpeaker USB podporuje operační systémy Linux, macOS a Windows. Podrobnosti najdete zde.

ReSpeaker USB Mic je dodáván v pěkném balení obsahujícím následující položky:

Uživatelská příručka
ReSpeaker USB mikrofonní pole
Micro USB na USB kabel

Takže jsme připraveni začít.

Krok 2: Nainstalujte požadované knihovny

V tomto kurzu budu předpokládat, že používáte Python 3.x.

Pojďme nainstalovat knihovny:

pip3 nainstalujte SpeechRecognition

Pro macOS budete nejprve muset nainstalovat PortAudio s Homebrew a poté nainstalovat PyAudio s pip3:

brew install portaudio

Spustíme pod příkazem nainstalovat pyaudio

pip3 nainstalujte pyaudio

Pro Linux můžete PyAudio nainstalovat pomocí apt:

sudo apt-get install python-pyaudio python3-pyaudio

Pro Windows můžete PyAudio nainstalovat pomocí pip:

pip install pyaudio

Vytvořte nový soubor pythonu

nano get_index.py

Vložte na get_index.py pod úryvek kódu:

import pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') pro i v rozsahu (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i)get '))> 0: print ("Input Device id", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Spusťte následující příkaz:

python3 get_index.py

V mém případě příkaz poskytuje následující výstup na obrazovku:

ID vstupního zařízení 1 - ReSpeaker 4 Mic Array (UAC1.0)

Input Device id 2 - MacBook Air Microphone

Změňte device_index na indexové číslo podle svého výběru v níže uvedeném fragmentu kódu.

importujte řečové rozpoznávání jako sr

r = sr. Recognizer () řeč = sr. Mikrofon (device_index = 1) s řečí jako zdrojem: print („řekni něco!…“) audio = r.adjust_for_ambient_noise (zdroj) audio = r.listen (zdroj) zkus: rozpoznání = r.recognize_google (audio, language = 'en-US') print ("Řekl jste:" + rozpoznávání) kromě sr. UnknownValueError: print ("Rozpoznávání řeči Google zvuku nerozumí") kromě sr. RequestError jako e: print („Nelze požadovat výsledky ze služby Google Speech Recognition; {0}“. Formát (e))

Index zařízení byl vybrán 1, protože hlavním zdrojem bude ReSpeaker 4 Mic Array.

Krok 3: Převod textu na řeč v Pythonu s knihovnou Pyttsx3

K převodu textu na řeč v pythonu je k dispozici několik API. Jedním z takových API je pyttsx3, což je podle mě nejlepší dostupný balíček převodu textu na řeč. Tento balíček funguje ve Windows, Mac a Linux. Podívejte se na oficiální dokumentaci, abyste zjistili, jak se to dělá.

Nainstalujte balíček K instalaci balíčku použijte pip.

pip install pyttsx3

Pokud jste v systému Windows, budete potřebovat další balíček, pypiwin32, který bude potřebovat pro přístup k nativnímu rozhraní API řeči Windows.

pip install pypiwin32

Převod skriptu pythonu na převod textu na řeč Níže je úryvek kódu pro převod textu na řeč pomocí pyttsx3:

importovat pyttsx3

motor = pyttsx3.init ()

engine.setProperty ('rate', 150) # Procenta rychlosti

engine.setProperty ('volume', 0,9) # Volume 0-1

engine.say („Ahoj, světe!“)

engine.runAndWait ()

Krok 4: Dát to všechno dohromady: Budování rozpoznávání řeči v Pythonu pomocí API pro rozpoznávání řeči Google a knihovny Pyttsx3

Níže uvedený kód je zodpovědný za rozpoznávání lidské řeči pomocí rozpoznávání řeči Google a převádění textu na řeč pomocí knihovny pyttsx3.

importujte řečové rozpoznávání jako sr

import pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) with speech as source: audio = r.adjust_for_ambient_noise (zdroj) audio = r.listen (zdroj) zkusit: Řekli jste: „ + rozpoznávání) engine.runAndWait () kromě sr. UnknownValueError: engine.say („ Rozpoznávání řeči Google nerozumí zvuku “) engine.runAndWait () kromě sr. RequestError jako e: engine.say („ Nelze vyžádat si výsledky ze služby Google Speech Recognition; {0} . format (e)) engine.runAndWait ()

Tiskne výstup na terminál. Také bude převeden na řeč.

Řekl jste: Londýn je hlavní město Velké Británie

Doufám, že nyní lépe porozumíte tomu, jak rozpoznávání řeči funguje obecně, a co je nejdůležitější, jak jej implementovat pomocí API pro rozpoznávání řeči Google s Pythonem.

Pokud máte nějaké dotazy nebo zpětnou vazbu? Zanechte komentář níže. Zůstaňte naladěni!

Doporučuje:

Umělá inteligence a rozpoznávání obrazu pomocí HuskyLens: 6 kroků (s obrázky)

Umělá inteligence a rozpoznávání obrazu pomocí HuskyLens: Hej, co se děje, lidi! Akarsh zde od CETech. V tomto projektu se podíváme na HuskyLens od DFRobot. Jedná se o kamerový modul poháněný AI, který je schopen provádět několik operací umělé inteligence, jako je Face Recognitio

Rozpoznávání řeči s Arduino (Bluetooth + LCD + Android): 6 kroků

Rozpoznávání řeči s Arduino (Bluetooth + LCD + Android): V tomto projektu budeme dělat rozpoznávání řeči s Arduino, modulem Bluetooth (HC-05) a LCD. pojďme vytvořit vlastní zařízení pro rozpoznávání řeči

Asistenční technologie pro potíže s řečí pomocí MakeyMakey W/ Scratch: 4 kroky

Asistenční technologie pro potíže s řečí pomocí MakeyMakey W/ Scratch: Zařízení mé asistenční technologie slouží k pomoci s vadami řeči nebo omezenou řečí. To je. má pomoci v procesu učení

Monitorování akcelerace pomocí Raspberry Pi a AIS328DQTR pomocí Pythonu: 6 kroků

Monitorování akcelerace pomocí Raspberry Pi a AIS328DQTR pomocí Pythonu: Podle některých fyzikálních zákonů je akcelerace konečná.- Terry Riley Gepard při pronásledování využívá úžasné zrychlení a rychlé změny rychlosti. Nejrychlejší tvor na břehu jednou za čas využije svého nejvyššího tempa k ulovení kořisti

Jak propojit aplikaci pro Android s AWS IOT a porozuměním API pro rozpoznávání hlasu: 3 kroky

Jak propojit aplikaci pro Android s AWS IOT a porozuměním API pro rozpoznávání hlasu: Tento tutoriál uživatele naučí, jak připojit aplikaci pro Android k serveru AWS IOT a porozumět API pro rozpoznávání hlasu, které ovládá kávovar. Aplikace ovládá kávovar prostřednictvím systému Alexa Hlasová služba, každá aplikace je

Rozpoznávání řeči pomocí Google Speech API a Pythonu: 4 kroky

Obsah:

Rozpoznávání řeči

Krok 1: ReSpeaker USB 4-Mic Array

Krok 2: Nainstalujte požadované knihovny

Krok 3: Převod textu na řeč v Pythonu s knihovnou Pyttsx3

Krok 4: Dát to všechno dohromady: Budování rozpoznávání řeči v Pythonu pomocí API pro rozpoznávání řeči Google a knihovny Pyttsx3

Doporučuje:

Umělá inteligence a rozpoznávání obrazu pomocí HuskyLens: 6 kroků (s obrázky)

Rozpoznávání řeči s Arduino (Bluetooth + LCD + Android): 6 kroků

Asistenční technologie pro potíže s řečí pomocí MakeyMakey W/ Scratch: 4 kroky

Monitorování akcelerace pomocí Raspberry Pi a AIS328DQTR pomocí Pythonu: 6 kroků

Jak propojit aplikaci pro Android s AWS IOT a porozuměním API pro rozpoznávání hlasu: 3 kroky

Generátor - Fidget Spinner napájející 9W LED žárovku 230 V: 3 kroky (s obrázky)

Inteligentní LED noční lampa: 5 kroků

Inteligentní lampa Alexa s ESP8266: 4 kroky (s obrázky)

Transformace starého notebooku na přehrávač MP3: 9 kroků (s obrázky)

Hackujte špionážní ucho a naučte se obracet obvod: 4 kroky (s obrázky)

Vytvořte si vlastní dálkové vypínače: 9 kroků (s obrázky)

ISight Stativ Mounting Bracket: 3 Steps

Pivo může USB Hub Hack: 5 kroků

Držák pera na disketu: 5 kroků

Chraňte svůj Mac před zloději: 7 kroků (s obrázky)

Jak nastříkat lak PDA: 6 kroků (s obrázky)

DIY Taser +30, 000V: 4 kroky

Nevyhazujte pájku: 5 kroků

Micro: bit Hazardní hra: 8 kroků

MIA-1 Open Source Advanced Hand Made Humanoid Robot!: 4 kroky

Arduino + Bluetooth ovládaný tank: 10 kroků (s obrázky)