Metadata คืออะไร บอกอะไรเกี่ยวกับชุดข้อมูลนั้น ๆ บ้าง
Metadata คือข้อมูลที่อธิบายชุดข้อมูล เพื่อให้เข้าใจได้เบื้องต้นว่าเป็นชุดข้อมูลเกี่ยวกับอะไร ประเภทไฟล์ วันที่สร้างและปรับปรุง
Metadata (เมทาดาตา แต่ผมว่าควรออกเสียงว่า เมทะเดต้า ง่ายดีและเข้าใจเหมือนกัน) คือข้อมูลที่อธิบายถึงชุดข้อมูลว่าชุดข้อมูลนั้นมีรายละเอียดอย่างไรบ้าง โดยส่วนใหญ่จะเป็นการอธิบายเพื่อให้ฝั่งธุรกิจเข้าใจมากกว่าเช่น ทีม Data Analytics, Marketing หรือคนที่จะต้องมาหยิบชุดข้อมูลเพื่อไปใช้ต่อในเชิงธุรกิจ (ถ้าเป็นข้อมูลที่อธิบายชุดข้อมูลเพื่อให้เข้าใจเชิงเทคนิคจะเป็น Data Dictionary) แต่ทั้งนี้ก็ไม่ได้จำกัดอย่างใดและเป็นสิ่งสำคัญที่ควรมีไว้ เพราะถือเป็นส่วนสำคัญในการทำ Data Governance ในองค์กรอย่างมากและเมทาดาตานี้มีความสำคัญกับกลุ่มคนที่มีหน้าที่ Data Stewardship มาก
โดยทั่วไปแล้วเมทาดาต้านี้จะต้องระบุ
นอกนั้นอาจมีเพิ่มเติมตามกลยุทธ์ของแต่ละองค์กรหรือตามการใช้งานดังในรูปตัวอย่างข้างต้นนี้ มักพบเห็นการใช้งานกันภายในองค์กรที่มีกรใช้งานข้อมูลเพื่ออำนวยความสะดวกให้กับทุกฝ่ายที่ต้องใช้ข้อมูลเพื่อทำงาน
Metadata คือข้อมูลที่อธิบายชุดข้อมูล เพื่อให้เข้าใจได้เบื้องต้นว่าเป็นชุดข้อมูลเกี่ยวกับอะไร ประเภทไฟล์ วันที่สร้างและปรับปรุง
การทำงานด้าน Machine Learning นั้นจะต้องเจอข้อมูลและมีคำถามเสมอว่าควรเริ่มจากอะไรดี โดย Mutual Information เป็นหนึ่งในขั้นตอนที่แนะนำให้ทำ
วิธีการแปลงข้อมูลประเภทหมวดหมู่/ประเภท (ที่เป็นตัวอักษร) ให้เป็นชุดตัวเลขด้วยวิธีการ One Hot Encoding เพื่อให้โมเดลสามารถเรียนรู้ได้
การเรียนรู้เชิงลึก (Deep Learning) นั้นเป็นเทคนิคที่มัประสิทธิภาพมากในงาน Machine Learning ปัจจุบันซึ่งเบื้องหลังของมันก็คือการใช้ ANN
ในหลาย ๆ ชุดข้อมูลมักจะมีการเก็บวันที่ไว้ด้วยเสมอ ซึ่งการ Parsing Dates จะช่วยให้ใช้งานวันที่เหล่านั้นได้ง่ายยิ่งขึ้น
การจะเริ่มทำโปรเจคอะไรสักอย่างสิ่งที่ขาดไม่ได้เลยคือข้อมูล แล้วยิ่งเป็นงานที่เกี่ยวข้องกับ Data แล้วนั้น Data source จึงเป็นสิ่งจำเป็นมาก