Lucrarea de față analizează și implementează un sistem modern de recunoaștere vocală bazat pe rețele neuronale profunde, adresând provocările și oportunitățile oferite de tehnologiile avansate de procesare a limbajului natural. Într-un context în care interacțiunea dintre om și tehnologie devine din ce în ce mai vocală, lucrarea explorează aspecte teoretice, arhitecturale și practice ale acestui domeniu, oferind o soluție scalabilă și adaptabilă pentru recunoașterea vorbirii în limba română.În partea introductivă, lucrarea subliniază relevanța recunoașterii vocale în diverse domenii, cum ar fi educația, sănătatea și tehnologia IoT, și evidențiază evoluția istorică a tehnologiei, de la modele statistice până la arhitecturi de rețele neuronale avansate. Este oferită o bază teoretică solidă, incluzând concepte precum spectrogramele Mel, coeficienții cepstrali (MFCC) și funcția de pierdere Connectionist Temporal Classification (CTC).
This thesis analyzes and implements a modern speech recognition system based on deep neural networks, addressing the challenges and opportunities offered by advanced natural language processing technologies. In a context where human-computer interaction is increasingly vocal, the thesis explores theoretical, architectural, and practical aspects of the field, providing a scalable and adaptable solution for Romanian speech recognition. The introduction highlights the relevance of speech recognition in various fields, such as education, healthcare, and IoT technology, and traces the historical evolution of the technology from statistical models to advanced neural network architectures. A solid theoretical foundation is provided, including concepts such as Mel spectrograms, Mel-frequency cepstral coefficients (MFCC), and the Connectionist Temporal Classification (CTC) loss function.