Thursday, June 11, 2009

ETL Extract-Transform-Load

หากต้องการวิเคราะห์ข้อมูลระดับ 10,000 ข้อมูล อย่างเป็นระบบและง่ายต่อการเปลี่ยนมุมมองแล้ว ผมก็ยังเห็นว่าทำเป็น Data Base แล้วเราก็ทำการ Query มา น่าจะเป็นวิธีที่ดีที่สุด แต่

มาตอนนี้ ก็เข้าปีที่ 9 แล้ว มันมีเครื่องมือมาช่วยเราแล้ว

เมื่อก่อนทำ ETL ด้วยวิธีมือ เพราะว่าเป็นพวก Technical Guy สรุปเป็นขั้นตอนดังนี้
  1. ถ้าไฟล์มาเป็น excel (ส่วนมากเป็นอย่างนั้น) เราก็ save เป็น csv แล้วก็นำเข้าฐานข้อมูล
  2. จากข้อมูลที่ได้เราก็ทำการวิเคราะห์ ว่าอยากรู้อะไรจากข้อมูลที่ได้
  3. นำข้อมูลนั้นออกมาเป็นแผนภูมิ ต่าง ๆ ให้เหมาะสมกับแต่ละงาน
  4. แล้วก็ย้อนกลับไปทำข้อ 1 อีก ถ้ามีการเปลี่ยนแปลงข้อมูลใหม่ ๆ
ดูขั้นตอนแล้วจะเห็นได้ว่า มันเป็นงานมือที่เหนื่อยเอาการ แน่นอน เราได้ยินคำว่า "Data Warehouse" มานานแล้ว และมันก็เป็นการแก้ปัญหานี้ได้ดีทีเดียว สิ่งที่ผมดำเนินการมาเกือบทั้งหมดถูกแทนที่ด้วย Application ซะแล้ว ลองไปหาอ่านดูนะครับ

http://community.pentaho.com

ผมรับรองเลยว่าทุกคนสามารถให้ application นี้เป็น แต่หลายคนคงติดตรงที่ว่า สิ่งที่คุณนั้นได้คืออะไรกันแน่
  • data
  • information
  • knowledge
แน่นอน สำหรับคนที่เป็น Technical ทั้งหลายผ่านตรง data/information มาได้ แต่ก็จะติดตรง knowledge เพราะว่ามันคือความเข้าใจกับ ข้อมูลที่ได้มา แล้วก็นำไปใช้ให้เกิดประโยชน์นั่นเอง

บทความต่อไปจะกล่าวลึกไปยัง Pentaho ทีละส่วน นะ

1 comment:

Anonymous said...

สุดยอดเลยค่ะ ขอบคุณมาก อยากอ่านข้อมูลที่เป็นภาษาไทย แต่หายากมากเลย วันนี้ได้เจอดีใจมากๆ