Metadata คืออะไร บอกอะไรเกี่ยวกับชุดข้อมูลนั้น ๆ บ้าง
Metadata คือข้อมูลที่อธิบายชุดข้อมูล เพื่อให้เข้าใจได้เบื้องต้นว่าเป็นชุดข้อมูลเกี่ยวกับอะไร ประเภทไฟล์ วันที่สร้างและปรับปรุง
Pandas คือ Python Library สำหรับช่วยจัดการและแสดงผลข้อมูลจากรูปแบบต่าง ๆ ให้อยู่ในรูปแบบ DataFrame ซึ่งง่ายต่อการเข้าถึงและใช้งานในการเขียนโค้ด แต่ว่าข้อมูลวันที่นั้นส่วนใหญ่แล้ว Pandas จะอ่านและเก็บเป็นข้อมูลประเภท Object (เพราะไม่แน่ใจว่าเป็นตัวอักษรหรือเลขอะไรกันแน่ หรือบางครั้งก็มองเป็นอักษร) ซึ่งการที่ไม่มองเป็นข้อมูลวันที่และเวลานั้นจะทำให้ไม่สามารถใช้ประโยชน์จากข้อมูลวันที่ได้อย่างเต็มที่ ดังนั้นแล้วบทความนี้จะอธิบายวิธีการแปลงข้อมูลให้เป็นประเภท Datetime และใช้งานเบื้องต้น
import pandas as pd
df = pd.read_csv(“/content/landslide.csv”)
df.head()
df[‘date’].dtype
จะเห็นว่า Data Type เป็น ‘O’ หรือก็คือ Object
#สร้างคอลัมน์ใหม่ชื่อ date_dt และเก็บข้อมูลวันที่ลงในคอลัมน์นี้
df[‘date_dt’] = pd.to_datetime(df[‘date’], format=”%m/%d/%y”)
df[‘date_dt’]
print(“List of Days”, df[‘date_dt’].dt.day.values)
print(“List of Months”, df[‘date_dt’].dt.month.values)
print(“List of Years”, df[‘date_dt’].dt.year.values)
df.loc[df[‘date_dt’].dt.day == 2.0]
df.loc[df[‘date_dt’].dt.month == 12.00]
df.loc[df[‘date_dt’].dt.year == 2014]
การจัดการข้อมูลวันที่ก่อนจะช่วยให้สามารถจัดเรียงชุดข้อมูลหรือเข้าถึงด้วยการระบุวันและเวลาได้สะดวกมากยิ่งขึ้น
Metadata คือข้อมูลที่อธิบายชุดข้อมูล เพื่อให้เข้าใจได้เบื้องต้นว่าเป็นชุดข้อมูลเกี่ยวกับอะไร ประเภทไฟล์ วันที่สร้างและปรับปรุง
การทำงานด้าน Machine Learning นั้นจะต้องเจอข้อมูลและมีคำถามเสมอว่าควรเริ่มจากอะไรดี โดย Mutual Information เป็นหนึ่งในขั้นตอนที่แนะนำให้ทำ
วิธีการแปลงข้อมูลประเภทหมวดหมู่/ประเภท (ที่เป็นตัวอักษร) ให้เป็นชุดตัวเลขด้วยวิธีการ One Hot Encoding เพื่อให้โมเดลสามารถเรียนรู้ได้
การเรียนรู้เชิงลึก (Deep Learning) นั้นเป็นเทคนิคที่มัประสิทธิภาพมากในงาน Machine Learning ปัจจุบันซึ่งเบื้องหลังของมันก็คือการใช้ ANN
ในหลาย ๆ ชุดข้อมูลมักจะมีการเก็บวันที่ไว้ด้วยเสมอ ซึ่งการ Parsing Dates จะช่วยให้ใช้งานวันที่เหล่านั้นได้ง่ายยิ่งขึ้น
การจะเริ่มทำโปรเจคอะไรสักอย่างสิ่งที่ขาดไม่ได้เลยคือข้อมูล แล้วยิ่งเป็นงานที่เกี่ยวข้องกับ Data แล้วนั้น Data source จึงเป็นสิ่งจำเป็นมาก