1. Описание проекта
Требуется разработать минимально жизнеспособный продукт (MVP) интерактивного AI-сотрудника-стенда, который заменяет консультантов в различных сферах (отель, спортзал, ресторан, офис и т. д.).
? Цель MVP – создать работающий прототип, который может:
Распознавать речь пользователя.
Отправлять запрос в AI (GPT-4 или альтернативу).
Генерировать голосовой ответ (TTS – Text-to-Speech).
Анимировать аватар в такт голосу.
2. Функциональные требования
2.1. Взаимодействие с пользователем
✅ Голосовой ввод (микрофон)
Пользователь говорит в микрофон → система распознаёт текст.
Офлайн-распознавание: Vosk (быстро, без интернета).
Онлайн: OpenAI Whisper API или Google STT.
✅ Анализ запроса AI
Текст отправляется в GPT-4 (OpenAI API) или локальную LLM.
Ответ отображается на экране и отправляется в TTS для озвучки.
✅ Голосовой ответ (TTS)
Офлайн: Coqui TTS (быстро, без интернета).
✅ Анимация аватара (в такт речи)
2D или простая 3D-анимация (без сложных эмоций).
Рот двигается в такт голосу (либо через анализ аудиосигнала, либо за счёт фонем).
3. Аппаратные требования (MVP)
✅ Экран (7-15 дюймов, сенсорный или обычный)
✅ Микрофон (качественный, для работы ASR)
✅ Динамик (для воспроизведения AI-ответа)
? Для тестов MVP можно запустить на обычном планшете или ноутбуке.
4. Программные требования
4.1. Распознавание речи (ASR - Automatic Speech Recognition)
? Два варианта:
Vosk (офлайн, минимальная задержка)
4.2. Генерация ответов (AI-логика)
? Два варианта:
GPT-4 (OpenAI API) – лучший вариант
4.3. Генерация голоса (TTS - Text-to-Speech)
Офлайн: Coqui TTS (голос менее естественный, но быстро и без интернета).
4.4. Анимация аватара
✅ Минимальный вариант:
2D-анимация рта по громкости звука.
Либо готовый 3D-аватар с анимацией губ (Unity, Unreal, Godot).
✅ Продвинутый вариант (если возможно в MVP):
Использование FaceFX, SALSA LipSync, Rhubarb Lip Sync для синхронизации голоса и анимации.
Варианты технологии:
Unity / Unreal / WebGL (если делаем локальный 3D-аватар).
? Что выбрать?
Быстрое и простое MVP → 2D-анимация рта (по громкости).
Более проработанный вариант → 3D-аватар с SALSA LipSync.
5. Базовый алгоритм работы MVP
1️⃣ Пользователь говорит в микрофон
2️⃣ Система распознаёт текст (Vosk / Whisper)
3️⃣ AI (GPT-4) анализирует запрос и формирует ответ
4️⃣ Ответ озвучивается (TTS - Coqui или HeyGen)
5️⃣ Аватар двигает губами в такт речи
6️⃣ Ответ выводится на экран
6. Ожидаемый результат (MVP)
✅ Прототип AI-сотрудника, работающий на экране + микрофон.
✅ Реальный диалог с AI (голосом и текстом).
✅ Минимальная анимация губ в такт голосу.
✅ Работоспособность как минимум в офлайн-режиме (без интернета).
As a skilled developer with a strong background in using Unity 3D and Unreal Engine, I possess the precise expertise needed to bring your interactive AI stand-in assistant to life. With years of experience in coding and game development, I have honed my skills in creating realistic animations, which can be invaluable when designing the avatar for your stand-in assistant. On top of that, I am proficient with Coqui TTS and Vosk ASR, two of the technologies your project requires. But what sets me apart?
My versatility. Not only can I deliver the minimum viable product (MVP) you seek, but I can take it beyond that - enhancing the avatar's animations by incorporating SALSA LipSync. Another aspect that distinguishes me is my familiarity with working under offline circumstances; this proves vital when deploying without internet access as you require.
Putting all these facets together, you'll be hard-pressed to find a better-suited professional for this pivotal project than myself. Engage me today and let's ensure every detail is covered - from speech recognition to AI generation to voice responses and avatar animation – making your MVP fully functional, efficient and engaging!
With my diverse technical background and deep expertise in Artificial Intelligence, Game Development, and Coding, I am excited to offer my skills for your Interactive AI Stand-In Assistant project. I excel in Unity 3D, Unreal Engine, and other key technologies required for this endeavor. My experience in developing innovative solutions aligns perfectly with the project's goals of creating a functional AI prototype that can interact seamlessly with users. From speech recognition to generating voice responses and animating avatars, I am confident in my ability to deliver a high-quality MVP that meets your expectations. I am eager to collaborate, discuss your project needs further, and bring your vision to life. Let's connect and explore how we can work together to achieve success.
As a seasoned full-stack developer with extensive experience in web development, my skillset goes beyond conventional frontend and backend systems. I see your project as an exceptional opportunity to expand my portfolio into the field of interactive AI, particularly with Unity, which is an essential component for animating avatars in your MVP. I have a strong grip on Unity combined with my grasp of Python and JavaScript. I assure you of the highest quality product that aligns with your vision.
Moreover, I work meticulously to ensure seamless integration between different components of software, including those that will be needed in this project like Automatic Speech Recognition (ASR) and Text-to-Speech (TTS) functionalities. My familiarity with OpenAI's GPT-4 API fits perfectly with the proposed architecture and would enable me to efficiently generate relevant responses to users' queries. Additionally, my knowledge in utilizing technologies like Vosk and Coqui TTS would ensure autonomous, high-performing, and rapid recognition and generation abilities.
Hello, my name is Eliezer. This project presents a fascinating opportunity to leverage cutting-edge AI technologies in developing an interactive AI stand-in assistant. With expertise in speech recognition, TTS, and animation systems, I am confident in delivering a robust MVP that meets all outlined requirements. Regarding the animation aspect, would you prefer prioritizing the 2D solution for quicker deployment, or do you envision integrating a 3D avatar from the outset? I look forward to the possibility of collaborating on this innovative venture and bringing your vision to life.
Z przyjemnością podejmę się realizacji tego projektu. Mam bogate doświadczenie w integracji technologii AI, rozpoznawania mowy (Whisper, Vosk, Google STT) oraz systemów syntezy mowy (Coqui TTS, Rhubarb Lip Sync). Pracowałem nad podobnymi rozwiązaniami, implementując zarówno 2D, jak i 3D animacje w silnikach Unreal oraz Unity.
### **Co oferuję:**
✅ Implementacja rozpoznawania mowy (offline/online).
✅ Integracja z GPT-4/OpenAI API do generowania odpowiedzi.
✅ Synchronizacja głosu z animacją twarzy (FaceFX, SALSA LipSync).
✅ Stworzenie MVP z animowanym awatarem reagującym na użytkownika.
Gwarantuję efektywną komunikację oraz terminową realizację. Chętnie omówię szczegóły i dostosuję rozwiązanie do Twoich wymagań.
Czekam na kontakt!