Metadata คืออะไร บอกอะไรเกี่ยวกับชุดข้อมูลนั้น ๆ บ้าง
Metadata คือข้อมูลที่อธิบายชุดข้อมูล เพื่อให้เข้าใจได้เบื้องต้นว่าเป็นชุดข้อมูลเกี่ยวกับอะไร ประเภทไฟล์ วันที่สร้างและปรับปรุง
สำหรับประเภทการเรียนรู้ของ Machine Learning นั้นคงเริ่มเป็นที่ทราบกันดีแล้วว่ามี 3 รูปแบบใหญ่ ๆ คือ Supervised Learning, Unsupervised Learning, และ Reinforcement Learning โดยสามารถอ่านรายละเอียดเพิ่มเติมได้ที่นี่ [1]
[2] แต่ในบทความนี้จะพามารู้จักกับประเภทเทคนิคของ ML ที่ถูกใช้เพื่อให้เกิดการเรียนรู้ โดยแบบแรกคือ Generative Models จะเริ่มต้นเรียนรู้จากความน่าจะเป็นของการกระจายตัวของข้อมูลก่อนว่าข้อมูลมีลักษณะเป็นอย่างไรบ้างโดยใช้
Joint Proability Distribution และเมื่อเข้าใจว่าข้อมูลกระจายตัวอย่างไรแล้วจึงทำการทำนาย Posterior Proability โดยใช้กฎของ Bayes มาคำนวณ
คุณสมบัติสำคัญของการเรียนรู้แบบ Generative คือ
ตัวอย่างโมเดล Generative Classifier
ข้อดี
ข้อเสีย
Discriminative Models จะทำนาย Posterior Probability และสร้าง Decision Boundary เพื่อจำแนกข้อมูลเช่นกันเพียงแต่ว่าโมเดลประเภทนี้จะทำการเรียนรู้และสร้างโมเดลโดยทันทีไม่ได้สนใจว่าข้อมูลจะถูกสร้างขึ้นได้อย่างไร
(จำแนกประเภทอย่างเดียว)
คุณสมบัติสำคัญของการเรียนรู้แบบ Discriminative คือ
ตัวอย่างโมเดล Generative Classifier
ข้อดี
ข้อเสีย
ในเทคนิคทั้งสองประเภทนี้เรียนรู้ที่จะจำแนกข้อมูลด้วยการสร้าง Decision Boundary ขึ้นมาเหมือนกันเพียงแต่ว่าต่างกันที่ความน่าจะเป็นที่ใช้และการให้ความสนใจกับการสร้างข้อมูลตัวอย่างขึ้นมาก่อนหรือไม่ ทั้งนี้จะเลือกใช้แบบไหนก็ขึ้นอยู่กับงานที่ต้องทำเพราะทั้งสองแบบก็วัตถุประสงค์ที่แตกต่างกันและความสามารถที่แตกต่างกัน
ที่มา และอ่านเพิ่มเติม
Generative & Discriminative Models 1
Metadata คือข้อมูลที่อธิบายชุดข้อมูล เพื่อให้เข้าใจได้เบื้องต้นว่าเป็นชุดข้อมูลเกี่ยวกับอะไร ประเภทไฟล์ วันที่สร้างและปรับปรุง
การทำงานด้าน Machine Learning นั้นจะต้องเจอข้อมูลและมีคำถามเสมอว่าควรเริ่มจากอะไรดี โดย Mutual Information เป็นหนึ่งในขั้นตอนที่แนะนำให้ทำ
วิธีการแปลงข้อมูลประเภทหมวดหมู่/ประเภท (ที่เป็นตัวอักษร) ให้เป็นชุดตัวเลขด้วยวิธีการ One Hot Encoding เพื่อให้โมเดลสามารถเรียนรู้ได้
การเรียนรู้เชิงลึก (Deep Learning) นั้นเป็นเทคนิคที่มัประสิทธิภาพมากในงาน Machine Learning ปัจจุบันซึ่งเบื้องหลังของมันก็คือการใช้ ANN
ในหลาย ๆ ชุดข้อมูลมักจะมีการเก็บวันที่ไว้ด้วยเสมอ ซึ่งการ Parsing Dates จะช่วยให้ใช้งานวันที่เหล่านั้นได้ง่ายยิ่งขึ้น
การจะเริ่มทำโปรเจคอะไรสักอย่างสิ่งที่ขาดไม่ได้เลยคือข้อมูล แล้วยิ่งเป็นงานที่เกี่ยวข้องกับ Data แล้วนั้น Data source จึงเป็นสิ่งจำเป็นมาก