👤 User (Browser + Mic + Speaker)
ผู้ใช้ (เบราว์เซอร์ + ไมค์ + ลำโพง)
ผู้ใช้พิมพ์หรือพูดคำถาม
↓ 🎤 Speech / Text
🎤 Web Speech API (ASR)
Browser speech recognition
รู้จำเสียงพูดในเบราว์เซอร์
💻 HTML / JavaScript
Frontend UI & logic
หน้าเว็บและโค้ดฝั่งผู้ใช้
เบราว์เซอร์แปลงเสียงเป็นข้อความ แล้ว JavaScript ส่งไปยังเซิร์ฟเวอร์
↓
☁ Amazon S3 + CloudFront
Static website hosting & CDN
โฮสต์เว็บไซต์แบบ static และ CDN
S3 เก็บไฟล์เว็บ, CloudFront ส่งให้ผู้ใช้ทั่วโลกอย่างรวดเร็ว
↓
⚡ AWS Lambda (Function URL)
Serverless proxy — no API Gateway needed
พร็อกซีแบบ serverless ไม่ต้องใช้ API Gateway
Lambda รับคำขอจากเบราว์เซอร์ แล้วเรียก NVIDIA หรือ Polly ตามประเภทคำขอ
↓ Chat
↓ TTS
🧠 NVIDIA NeMo (Nemotron-3)
LLM for conversation
โมเดลภาษาสำหรับสนทนา
🔈 Amazon Polly (Neural TTS)
Text-to-speech
แปลงข้อความเป็นเสียงพูด
NVIDIA สร้างคำตอบ, Polly แปลงคำตอบเป็นเสียงพูดคุณภาพสูง
↑ 🔈 Voice response | เสียงตอบกลับ
How It Works | ระบบทำงานอย่างไร
-
🎤 Web Speech API (ASR)
The browser's built-in speech recognition converts your voice to text. Uses Google's speech services in Chrome/Edge. Supports Thai and English auto-detection.
ระบบรู้จำเสียงพูดของเบราว์เซอร์ แปลงเสียงเป็นข้อความ ใช้บริการ speech ของ Google ใน Chrome/Edge รองรับภาษาไทยและอังกฤษ
-
💻 HTML / JavaScript (Frontend)
The entire chatbot UI runs client-side as vanilla HTML, CSS, and JavaScript — no frameworks, no build step. JavaScript handles the chat interface, voice recording controls, TTS playback, conversation history, and all API calls to the Lambda backend.
UI ของแชทบอททั้งหมดทำงานฝั่งผู้ใช้ด้วย HTML, CSS, และ JavaScript ล้วนๆ — ไม่มี framework ไม่ต้อง build JavaScript จัดการหน้าแชท, ควบคุมการบันทึกเสียง, เล่นเสียง TTS, เก็บประวัติสนทนา, และเรียก API ไปยัง Lambda
-
☁ Amazon S3 + CloudFront
The chatbot page is hosted as a static file on Amazon S3 and delivered globally via CloudFront CDN. No web server needed — just HTML, CSS, and JavaScript.
หน้าแชทบอทเป็นไฟล์ static บน Amazon S3 และส่งผ่าน CloudFront CDN ทั่วโลก ไม่ต้องมีเว็บเซิร์ฟเวอร์ ใช้แค่ HTML, CSS, และ JavaScript
-
⚡ AWS Lambda (Function URL — no API Gateway)
A serverless function with a direct Function URL acts as a secure proxy between the browser and AI services. No API Gateway needed — Lambda's built-in Function URL provides the HTTPS endpoint directly, reducing cost and complexity. It forwards chat messages to NVIDIA and TTS requests to Amazon Polly, keeping API keys safe on the server side.
ฟังก์ชัน serverless พร้อม Function URL ทำหน้าที่เป็นพร็อกซีที่ปลอดภัย ไม่ต้องใช้ API Gateway — Lambda มี HTTPS endpoint ในตัวผ่าน Function URL ช่วยลดค่าใช้จ่ายและความซับซ้อน ส่งข้อความไปยัง NVIDIA และคำขอ TTS ไปยัง Amazon Polly โดยเก็บ API key ไว้ฝั่งเซิร์ฟเวอร์
-
🧠 NVIDIA NeMo — Nemotron-3 Super 120B
The brain of the chatbot. NVIDIA's Nemotron-3 is a 120-billion parameter large language model using a Latent Mixture-of-Experts architecture (only 12B parameters active per query). Part of the NVIDIA ACE (Avatar Cloud Engine) platform designed for real-time AI character interactions.
สมองของแชทบอท Nemotron-3 ของ NVIDIA เป็นโมเดลภาษาขนาด 120 พันล้านพารามิเตอร์ ใช้สถาปัตยกรรม Latent Mixture-of-Experts (ใช้งานจริงแค่ 12B ต่อคำถาม) เป็นส่วนหนึ่งของแพลตฟอร์ม NVIDIA ACE สำหรับตัวละคร AI แบบเรียลไทม์
-
🔈 Amazon Polly (Neural Text-to-Speech)
Converts the AI's text response into natural-sounding speech using Amazon's neural TTS engine. Produces high-quality voices that sound more human than traditional synthesizers. Falls back to browser's built-in SpeechSynthesis if unavailable.
แปลงข้อความตอบกลับของ AI เป็นเสียงพูดที่เป็นธรรมชาติ ด้วยเครื่องยนต์ neural TTS ของ Amazon สร้างเสียงคุณภาพสูงที่ฟังดูเหมือนมนุษย์มากกว่าระบบสังเคราะห์เสียงแบบเดิม หากใช้ไม่ได้จะใช้ SpeechSynthesis ของเบราว์เซอร์แทน
-
🔄 Voice Mode (Continuous Conversation)
Enable "Voice Mode" for hands-free conversation: speak → listen → AI responds with voice → mic reopens automatically. Like talking to an intelligent NPC in a game, powered by the full NVIDIA ACE pipeline.
เปิด "Voice Mode" เพื่อสนทนาแบบ hands-free: พูด → ฟัง → AI ตอบด้วยเสียง → ไมค์เปิดอัตโนมัติ เหมือนคุยกับ NPC อัจฉริยะในเกม ขับเคลื่อนด้วย NVIDIA ACE pipeline
About NVIDIA ACE | เกี่ยวกับ NVIDIA ACE
NVIDIA ACE (Avatar Cloud Engine) is a suite of AI technologies that transforms game NPCs from scripted, repetitive entities into dynamic, interactive characters capable of real-time conversation. The full ACE stack includes: Riva for speech recognition and synthesis, NeMo for large language model inference, Audio2Face for facial animation from audio, and SteerLM for tuning character personality. This chatbot uses the NeMo and TTS components of the ACE architecture.
NVIDIA ACE (Avatar Cloud Engine) คือชุดเทคโนโลยี AI ที่เปลี่ยน NPC ในเกมจากตัวละครที่ทำตามสคริปต์ซ้ำๆ ให้กลายเป็นตัวละครที่โต้ตอบได้แบบเรียลไทม์ ACE stack ประกอบด้วย: Riva สำหรับรู้จำและสังเคราะห์เสียง, NeMo สำหรับโมเดลภาษาขนาดใหญ่, Audio2Face สำหรับแอนิเมชันใบหน้าจากเสียง, และ SteerLM สำหรับปรับบุคลิกตัวละคร แชทบอทนี้ใช้ส่วน NeMo และ TTS ของสถาปัตยกรรม ACE