Sistem de audioconferințe cu traducere vocală sincronă

GAȘIMOV, Ramin

Home
→
Facultatea Calculatoare, Informatică şi Microelectronică
→
Teze de master
→
Program de studii - Calculatoare şi Rețele Informaționale (CRI)
→
2026
→
View Item

Sistem de audioconferințe cu traducere vocală sincronă

GAȘIMOV, Ramin

URI: https://repository.utm.md/handle/5014/35123

Date: 2026

Abstract:

Acest proiect se concentrează pe dezvoltarea unei platforme de comunicații online cu traducere vocală sincronă în timp real. Aplicația oferă o interfață intuitivă, permițând utilizatorilor să se autentifice, să creeze sau să se alăture conferințelor și să comunice natural în limbile lor materne fără bariere lingvistice. Proiectul integrează FastAPI ca framework web asincron, WebRTC pentru transmisia audio-video în timp real și modele de inteligență artificială (Whisper, NLLB-200, Piper) pentru procesarea locală (edge-AI) a traducerii speech-to-speech. FastAPI gestionează semnalizarea WebSocket și coordonarea sesiunilor, în timp ce PyJWT și OAuth2 asigură autentificarea securizată și gestionarea sesiunilor utilizatorilor. Arhitectura proiectului include un front-end reactiv pentru interacțiunea cu utilizatorii, un back-end pentru coordonarea întâlnirilor și semnalizare, precum și procesare complet locală pe dispozitiv pentru recunoașterea vorbirii, traducere și sinteză vocală. Sistemul are un design modular, permițând gestionarea eficientă a diferitelor funcții, inclusiv înregistrarea utilizatorilor, crearea conferințelor, selecția limbii țintă și traducerea bidirecțională în timp real. Tehnologiile utilizate: Python pentru logica pe partea de server, ReactJS pentru frontend, WebRTC pentru transmiterea datelor audio, Whisper pentru recunoașterea vorbirii. Memoriul explicativ include introducerea, 3 capitole, concluzii, bibliografia din 13 linkuri, 19 imagini, 3 tabele. Capitolul 1: Descrie cercetarea domeniului de studiu, abordează obiectivele principale ale proiectului. Capitolul 2: Descrie mediile de dezvoltare a proiectului și tehnologiile utilizate în cadrul procesului de elaborare a aplicației. Capitolul 3: Descrierea arhitecturii proiectului la nivel structural și algoritmic. Descrierea funcționării sistemului informațional

This project focuses on the development of an online communication platform with real-time synchronous voice translation. The application provides an intuitive interface, allowing users to authenticate, create or join conferences, and communicate naturally in their native languages without language barriers. The project integrates FastAPI as an asynchronous web framework, WebRTC for real-time audio-video transmission, and state-of-the-art AI models (Whisper, NLLB-200, Piper) for fully local (edge-AI) speech-to-speech translation processing. FastAPI handles WebSocket signaling and session coordination, while PyJWT and OAuth2 ensure secure authentication and user session management. The project architecture includes a reactive front-end for user interaction, a back-end for meeting coordination and signaling, as well as fully local on-device processing for speech recognition, translation, and voice synthesis. The system features a modular design, enabling efficient management of various functions, including user registration, conference creation, target language selection, and bidirectional real-time translation. Technologies used: Python for server-side logic, ReactJS for the frontend, WebRTC for transmitting audio data, Whisper for speech recognition The report contains introduction, 3 chapters, conclusions, bibliography of 13 links, 19 images, 3 tables. Chapter 1: Describes the domain research and approaches the main objectives of the project. Chapter 2: Describes the development environments of the project and the technologies used during the elaboration process of the application. Chapter 3: Describes the project architecture at the structural and algorithmic level. Describes the functioning of the informational system.

Данный проект посвящён разработке платформы онлайн-коммуникаций с синхронным голосовым переводом в реальном времени. Приложение предоставляет интуитивно понятный интерфейс, позволяющий пользователям аутентифицироваться, создавать или присоединяться к конференциям и общаться естественно на своих родных языках без языковых барьеров. Проект интегрирует FastAPI в качестве асинхронного веб-фреймворка, WebRTC для передачи аудио- и видеопотоков в реальном времени, а также современные модели искусственного интеллекта (Whisper, NLLB-200, Piper) для полностью локальной (edge-AI) обработки перевода speech-to-speech. FastAPI отвечает за сигнализацию WebSocket и координацию сессий, в то время как PyJWT и OAuth2 обеспечивают безопасную аутентификацию и управление пользовательскими сессиями. Архитектура проекта включает реактивный фронтенд для взаимодействия с пользователями, бэкенд для координации встреч и сигнализации, а также полностью локальную обработку на устройстве для распознавания речи, перевода и синтеза голоса. Система обладает модульным дизайном, позволяющим эффективно управлять различными функциями, включая регистрацию пользователей, создание конференций, выбор целевого языка и двунаправленный перевод в реальном времени. Использованные технологии: Python для серверной логики, ReactJS для фронтенда, WebRTC для обеспечения передачи аудиоданных, Whisper для распознавания речи. Отчет состоит из введения, 3 глав, выводов, библиографии из 13 ссылок, 19 изображений, 3 таблиц. Глава 1: Описывает изучение предметной области и обозначает главные цели проекта. Глава 2: Описывает среду разработки проекта и технологии, использованные в процессе разработки. Глава 3: Описывает архитектуру проекта на структурном и алгоритмическом уровне. Описывает функционирование информационной системы.