ETL ด้วย Power Query ของ Excel และ Power BI ต่างกันอย่างไรกับ SQL Server
ETL คืออะไร
ETL ย่อมาจาก Extract Transform Load เป็นกระบวนการในการปรับปรุงข้อมูล สกัดข้อมูล ทำความสะอาดข้อมูลให้พร้อมใช้งาน เป็นกระบวนการสำคัญในงานด้าน Business Intelligence หลายครั้งที่ข้อมูลจาก Data Source ไม่พร้อมใช้งาน เราจำเป็นจะต้องนำข้อมูลจากหลายแหล่งข้อมูลไปใช้งานเพื่อสร้าง Report, Dashboard
ตัวอย่างของการนำ ETL มาช่วยงาน
- การนำเข้าข้อมูลจากหลายแหล่งข้อมูล ไม่ว่าจะเป็น Excel, CSV/Text File, Folder, Database ต่าง ๆ หรือ เว็บไซต์ (ดูเพิ่มเติม ว่า Power Query เชื่อมต่อกับอะไรได้บ้าง)
- การนำข้อมูลอัตราดอกเบี้ย และ อัตราแลกเปลี่ยนจากเว็บไซต์ของธนาคาร หรือ แบงก์ชาติ เข้ามาทำงานกับ Excel เพื่อวิเคราะห์ข้อมูลได้
- การทำ Data Cleansing ได้แก่การแก้ปัญหาข้อมูลไม่พร้อมใช้งาน เช่น มีช่องว่าง มีอักขระพิเศษ หรือ เป็นตัวพิมพ์เล็กบ้าง ตัวพิมพ์ใหญ่บ้าง
- การลบข้อมูล ลบแถว ลบคอลัมน์ที่ไม่ใช้งานทิ้งอัตโนมัติ
- กรองข้อมูลที่ไม่ต้องใช้งานทิ้ง (FIlter)
- การทำการ Extract ข้อมูล ได้แก่ การแยกข้อมูลออกเป็นข้อมูลย่อย ๆ เช่น การทำ Split ข้อมูลจากคอลัมน์หนึ่งออกเป็นคอลัมน์ย่อย ๆ
- การทำการ Lookup ข้อมูลจากหลาย ๆ แหล่งข้อมูลเพื่อดึงข้อมูลบางอย่างจากอีกแหล่งข้อมูล (Merge Query)
- ทำการสรุปผลข้อมูล ทำให้ข้อมูลจำนวนมาก ๆ เป็นข้อมูลที่คำนวณแล้ว เป็นการประหยัดพื้นที่ของ Data Model ในการวิเคราะห์ข้อมูล
- การคำนวณ (Calculated Column)
- การนำเอาข้อมูลมารวมกัน (Append Query) เข้าด้วยกันจากหลาย ๆ แหล่งข้อมูล
ETL สามารถทำได้จากที่ใดได้บ้าง
ETL เราสามารถใช้งานได้ทั้ง Excel, Power BI โดย Power Query และ SQL Server โดยจะมี SQL Server Integration Service (SSIS) เป็นเครื่องมือในการช่วยในการทำงาน โดยจะมาเปรียบเทียบให้เห็นว่า ETL ของ Excel และ SQL Server แตกต่างกันอย่างไร
โดย อ.ภัคพงศ์ กฤตวัฒน์ (MCT) และ อ.ชไลเวท พิพัฒพรรณวงศ์ (MCT) วิทยากรจาก 9Expert Training
----
YouTube : https://www.youtube.com/9expert