🧩 โทเคนคืออะไร? — What is a Token?
🇹🇭 ภาษาไทย
ก่อนที่ AI จะเข้าใจข้อความของคุณ มันจะต้องหั่นข้อความออกเป็นชิ้นเล็กๆ ก่อน ชิ้นเล็กๆ เหล่านี้เรียกว่า โทเคน (token)
โทเคนหนึ่งตัวอาจเป็นคำทั้งคำ เช่น cat หรือเป็นส่วนของคำ เช่น un + believ + able สำหรับคำที่ยาวหรือไม่ค่อยใช้
ทุกโทเคนมี หมายเลข ID ของตัวเองในพจนานุกรมของโมเดล (ปกติมี 50,000–200,000 โทเคน)
🇬🇧 English
Before AI can understand your text, it first
A token can be a cat, or a un + believ + able for longer or rare words.
Every token has its own
🧱 Analogy — การเปรียบเทียบ
Think of tokens like LEGO bricks. You can't hand a whole sentence to a computer the way you hand it to a person — so the model breaks language into standard-sized bricks that it can build with.
โทเคนก็เหมือน
🎮 Try it — ลองเล่นดู
พิมพ์ประโยคในช่องด้านล่าง และดูว่าแต่ละโทเคนถูกสร้างขึ้นอย่างไร — Type a sentence below and watch how tokens are created:
💡 Notice — สังเกต
EN: Common words like cat become one token. But a longer, rarer word like unbelievable might be split into pieces. This way, the model can handle any word — even ones it has never seen — by building it from known parts.
TH: คำที่ใช้บ่อยอย่าง cat จะเป็นหนึ่งโทเคน แต่คำที่ยาวหรือไม่ค่อยใช้อย่าง unbelievable อาจถูกแบ่งออก วิธีนี้ทำให้โมเดลสามารถจัดการคำใดก็ได้ — แม้แต่คำที่ไม่เคยเห็นมาก่อน — โดยการประกอบจากส่วนที่รู้จัก
🔄 From text to numbers — จากข้อความสู่ตัวเลข
📍 เอมเบดดิ้งคืออะไร? — What are Embeddings?
🇹🇭 ภาษาไทย
หมายเลข ID อย่าง 2415 เป็นแค่ "เลขที่ในตู้เก็บของ" — มันไม่มีความหมายในตัวเอง 2415 ไม่ได้คล้ายกับ 2416 มากกว่า 98421 เลย
โมเดลจึงต้องการวิธีแทนความหมาย — นั่นคือที่มาของ เอมเบดดิ้ง (embedding) ทุกโทเคนจะได้รับรายการตัวเลขยาวๆ เรียกว่า เวกเตอร์ (vector) โดยทั่วไปมี 768, 1536 หรือ 4096 ตัวเลข
ตัวเลขเหล่านี้ไม่ได้ถูกคนกำหนด แต่โมเดลเรียนรู้เองจากการอ่านข้อความมหาศาล โดยจะดันคำที่ปรากฏในบริบทคล้ายกันให้อยู่ใกล้กัน
🇬🇧 English
A token ID like 2415 is just a 2415 is no more similar to 2416 than it is to 98421.
So the model needs a way to
These numbers aren't set by humans. The model
🔢 What an embedding actually looks like — เอมเบดดิ้งหน้าตาเป็นยังไง
🗺️ Analogy — การเปรียบเทียบ
EN: Think of each vector as
TH: คิดซะว่าเวกเตอร์แต่ละตัวคือพิกัดบนแผนที่ความหมายขนาดยักษ์ แทนที่จะมีแค่ 2 พิกัด (ละติจูด-ลองจิจูด) แผนที่นี้มีหลายร้อยมิติ คำที่ความหมายคล้ายกันจะลงเอยอยู่ใกล้กัน — cat กับ dog เป็นเพื่อนบ้านกัน ส่วน pizza อยู่ไกลโพ้น
🗺️ แผนที่ความหมาย — The Meaning Map
🇹🇭 ภาษาไทย
เอมเบดดิ้งจริงๆ มีหลายร้อยมิติ ซึ่งวาดไม่ได้ แต่เราสามารถบีบลงมาเป็น 2 มิติเพื่อให้เห็นภาพได้ ข้างล่างคือแผนที่ความหมายแบบย่อ — คำที่เกี่ยวข้องกันจะรวมกลุ่มกัน
🇬🇧 English
Real embeddings live in hundreds of dimensions — impossible to draw. But we can
💡 What to notice — สังเกตอะไร
EN: Words in the same category
TH: คำในหมวดเดียวกันรวมกลุ่มกัน cat, dog, rabbit เป็นเพื่อนบ้าน happy, joyful, excited มีกลุ่มของตัวเอง โมเดลไม่ได้ถูกบอกเรื่องพวกนี้เลย — รูปแบบพวกนี้ผุดขึ้นมาเองจากการอ่านประโยคเป็นพันล้านประโยค
📏 วัดความคล้าย — Measuring Similarity
🇹🇭 ภาษาไทย
เนื่องจากเอมเบดดิ้งเป็นแค่ตัวเลข เราสามารถคำนวณว่าสองคำคล้ายกันแค่ไหนได้ด้วยคณิตศาสตร์ เครื่องมือมาตรฐานคือ โคไซน์ซิมิลาริตี้ (cosine similarity) ซึ่งวัดมุมระหว่างเวกเตอร์สองตัว
ใกล้ 1.0 = ความหมายคล้ายมาก ใกล้ 0 = ไม่เกี่ยวข้องกัน
🇬🇧 English
Since embeddings are just numbers, we can
Close to 1.0 = very similar meaning. Close to 0 =
🎮 Try it — ลองเล่นดู
พิมพ์คำในช่องด้านล่าง (ตัวอย่าง: cat, pizza, happy, car, king) — Type a word below:
🌟 Real-world uses — การใช้งานจริง
- Semantic search — ค้นหาตามความหมาย: Google ไม่ได้หาแค่ตัวอักษรตรงกัน แต่หาสิ่งที่ "ความหมายใกล้เคียง" ด้วย
- Recommendation systems — ระบบแนะนำ: Netflix ใช้เอมเบดดิ้งของหนังที่คุณชอบเพื่อแนะนำหนังที่มีเวกเตอร์คล้ายกัน
- RAG (Retrieval-Augmented Generation) — ระบบค้นข้อมูลแล้วสร้างคำตอบ: ChatGPT กับเอกสารของบริษัท ใช้เอมเบดดิ้งเพื่อหาเอกสารที่เกี่ยวข้อง
- Chatbots like Claude & ChatGPT — แชทบอท: ใช้เอมเบดดิ้งเพื่อ "เข้าใจ" คำถามของคุณ
✨ คณิตศาสตร์บนความหมาย — Math on Meaning
🇹🇭 ภาษาไทย
เพราะความหมายอยู่ในพื้นที่พิกัด เราสามารถทำคณิตศาสตร์กับคำได้ ตัวอย่างคลาสสิกคือ:
🇬🇧 English
Because meaning lives in a coordinate space, you can do
🇹🇭 คำอธิบาย
ลบความ "เป็นชาย" ออกจาก "king" แล้วเพิ่มความ "เป็นหญิง" เข้าไป — เราจะมาหยุดใกล้ๆ "queen"
โมเดลเรียนรู้เรื่องนี้ได้โดยไม่มีใครบอกว่าเพศหรือราชวงศ์คืออะไร มันแค่สังเกตเห็นรูปแบบจากการที่คำเหล่านี้ถูกใช้
🇬🇧 Explanation
The model learned this without being told what gender or royalty are. It just noticed the pattern in how these words get used.
💡 Why this matters — ทำไมถึงสำคัญ
EN: Embeddings don't just memorize words — they capture relationships. The same direction that turns king → queen also turns uncle → aunt, actor → actress, and prince → princess. Meaning has structure, and embeddings discover it.
TH: เอมเบดดิ้งไม่ได้แค่ท่องจำคำ — แต่มันจับความสัมพันธ์ได้ด้วย ทิศทางเดียวกันที่เปลี่ยน king → queen ก็เปลี่ยน uncle → aunt, actor → actress, และ prince → princess ได้ด้วย ความหมายมีโครงสร้าง และเอมเบดดิ้งค้นพบมัน
🎯 ภาพรวมทั้งหมด — The Full Picture
นี่คือเส้นทางเต็มจากข้อความที่คุณพิมพ์ไปจนถึงตัวเลขที่โมเดลใช้จริง — Here's the full journey from your typed text to the numbers a model actually works with:
🎓 Key Takeaways — สรุปประเด็นสำคัญ
- Tokens (โทเคน) are the pieces language gets broken into — ชิ้นส่วนที่ภาษาถูกหั่นออกมา
- Token IDs are just lookup numbers — เป็นแค่เลขในตู้เก็บของ ไม่มีความหมายในตัวเอง
- Embeddings (เอมเบดดิ้ง) turn each token into a vector that encodes meaning — เปลี่ยนแต่ละโทเคนเป็นเวกเตอร์ที่เก็บความหมาย
- Similar meanings = similar vectors — ความหมายใกล้ = เวกเตอร์ใกล้ นี่คือสิ่งที่ทำให้ AI "เข้าใจ" ภาษา
- You can do math on meaning — ทำคณิตศาสตร์กับความหมายได้ เวกเตอร์เลขคณิตเผยความสัมพันธ์ที่เรียนรู้มา
- Every modern AI — ChatGPT, Claude, Google, Netflix — is built on this idea — ทุก AI สมัยใหม่สร้างบนแนวคิดนี้
📖 คำศัพท์สำคัญ — Glossary
คลิกที่ปุ่ม 🔊 เพื่อฟังคำอ่าน — Click the 🔊 button to hear the pronunciation: