วันศุกร์ที่ 22 พฤษภาคม พ.ศ. 2552

DATA WEREHOUSE

คลังข้อมูล

คลังข้อมูล (data warehouse) คือ ฐานข้อมูลขนาดยักษ์ ที่รวบรวมฐานข้อมูลจากหลายแหล่งหลายช่วงเวลา ซึ่งอาจมี schema แตกต่างกัน มาไว้รวม ณ ที่เดียวกัน (และใช้ schema เดียวกัน)
เนื้อหา[ซ่อน]
1 คลังข้อมูลแตกต่างจากฐานข้อมูลอย่างไร?
2 ประเด็นที่ต้องพิจารณา
3 การวิเคราะห์ข้อมูลในคลังข้อมูล
3.1 Online Analytical Processing
3.2 การทำเหมืองข้อมูล
4 ลักษณะเด่นของคลังข้อมูล


คลังข้อมูลแตกต่างจากฐานข้อมูลอย่างไร?
โดยปกติแล้ว ฐานข้อมูลในองค์กรทั่วไปจะมีลักษณะที่ค่อนข้างทันต่อเหตุการณ์ เช่น ฐานข้อมูลพนักงานก็จะเก็บเฉพาะพนักงานในปัจจุบัน จะไม่สนใจข้อมูลพนักงานเก่า ๆ ในอดีต ซึ่งอาจจะมีข้อมูลอะไรบางอย่าง ที่มีประโยชน์สำหรับผู้บริหาร ในการวิเคราะห์ประสิทธิภาพและคุณลักษณะต่าง ๆ ขององค์กร. นอกจากนี้ ฐานข้อมูลแต่ละอันมักถูกออกแบบมาใช้เก็บข้อมูลเฉพาะด้าน จึงมีข้อมูลเฉพาะบางส่วนขององค์กรเท่านั้น ฉะนั้นคลังข้อมูลจึงถูกออกแบบมา เพื่อรวบรวมข้อมูลในทุกส่วนของทั้งบริษัท ทั้งเก่าและใหม่ไว้ด้วยกัน ไม่มีการลบทิ้งข้อมูลเก่า ๆ ที่ไม่จริงในปัจจุบัน
โดยสรุปคือ
คลังข้อมูล ใช้เพื่อการวิเคราะห์ (ข้อมูลทั้งอดีตและปัจจุบัน)
ฐานข้อมูล ใช้เพื่อทำการประมวลผล (เฉพาะข้อมูลปัจจุบัน)
ถ้าองค์กรมีคลังข้อมูลหลาย ๆ อันเพื่อใช้ในการวิเคราะห์ต่าง ๆ แตกต่างกันไป เช่น คลังข้อมูลด้านการเงิน และ คลังข้อมูลด้านทรัพยากรมนุษย์ เรามักเรียกคลังข้อมูลเฉพาะด้านเหล่านี้ว่า ตลาดข้อมูล (data marts)
อนึ่ง กระบวนการในการใช้ข้อมูลในคลังข้อมูลเพื่อการตัดสินใจ และวางแผนในทางธุรกิจ มักถูกเรียกว่า ปัญญาธุรกิจ (business intelligence).

ประเด็นที่ต้องพิจารณา
ในการรวมฐานข้อมูล อาจมีปัญหาว่าฐานข้อมูลแต่ละอัน อาจถูกออกแบบจากผู้ออกแบบหลายๆ คนทำให้มี schema แตกต่างกันไป (schema ในที่นี้หมายถึงการออกแบบ REA model ว่าจะมีกี่ตาราง แต่ละตารางเชื่อมกันอย่างไร มีอะไรเป็น primary key, foreign key เป็นต้น) ปัญหาใหญ่ก็คือจะนำฐานข้อมูลที่มีความแตกต่างกันมารวมกันได้อย่างไร
เมื่อรวมกันแล้วต้องการให้ schema ของคลังข้อมูลมีลักษณะแบบไหน. การออกแบบคลังข้อมูลโดยทั่วไป มักจะออกแบบตรงข้ามกับฐานข้อมูลอย่างสิ้นเชิง
การออกแบบฐานข้อมูลเรามักต้องการให้มี schema ที่ปรับปรุงได้ง่ายๆ (เพราะเราต้องประมวลผลบ่อย) คือในแต่ละตารางมี primary key น้อยๆ และมีตารางจำนวนมากเชื่อมต่อกัน นั่นคือใน REA model มักจะมีหลาย ๆ ตาราง
ในคลังข้อมูลเราต้องการให้เรียกข้อมูลที่ต้องการดู (query) ง่ายๆ และรวดเร็ว นอกจากนั้นเราไม่ค่อยได้แก้ไขปรับปรุงคลังข้อมูล จึงมักออกแบบให้มีตารางน้อยๆ schema ที่นิยมใช้ในคลังข้อมูลคือ star schema (ดู Fig. 15-7)

การวิเคราะห์ข้อมูลในคลังข้อมูล
มีสองประเภทใหญ่ ๆ คือ

Online Analytical Processing
Online Analytical Processing (OLAP) คือการใช้คำค้น (query) เพื่อค้นหาข้อมูลในคลังข้อมูลเหมือนในฐานข้อมูล เหตุผลที่เราไม่ค้นในฐานข้อมูล แต่มาทำในคลังข้อมูลแทนมีสองสาเหตุคือ
ความเร็ว
ความครอบคลุมของข้อมูลทั้งบริษัทที่มีอยู่ในคลังข้อมูล
ลักษณะการจัดเก็บข้อมูลที่ OLAP สามารถเรียกใช้
รูปแบบการจัดเก็บข้อมูลที่ทรงประสิทธิภาพมีอยู่ 3 ชนิดที่ (OLAP) สามารถเข้าถึงข้อมูลได้
1. ฐานข้อมูลเชิงสัมพันธ์ (Relational DataBase) โดยทั่วไปแล้วระบบงานประจำมีการจัดเก็บข้อมูลแบบ RDBMS และ data warehouse ก็มีการจัดเก็บข้อมูลแบบ RDBMS ซึ่งอาจจะมีโครงสร้างข้อมูล แบบ star schema และอาจจะเป็นได้ทั้ง normalized & denormalized
2. ฐานข้อมูลหลายมิติ ( multidimentional database) ข้อมูลที่จัดเก็บในฐานข้อมูลหลายมิติอาจมาจากฐานข้อมูลเชิงสัมพันธ์ หรือระบบงานปัจจุบันโดยจะแปลง การจัดเก็บข้อมูลเสียใหม่ โดยมีโครงสร้างการจัดเก็บแบบ array โดยทั่วไปแล้วฐานข้อมูลหลายมิติจะยอมให้สิทธิการเขียนข้อมูลลงในฐานข้อมูล ในช่วงเวลาหนึ่งเพียงคนเดียว แต่อนุญาตให้หลาย ๆ คน เข้าค้นหาข้อมูลในเวลาเดียวกัน หรือมิฉะนั้นก็อนุญาตให้ค้นหาข้อมูลเพียงอย่างเดียว
3. เก็บข้อมูลไว้ที่ client ลักษณะของfile (client-base files) ในกรณียอมให้client ดึงข้อมูลจำนวนไม่มากนักมาเก็บไว้ซึ่งเหมาะกับการประมวลผลแบบกระจาย หรือการสร้างคำสั่งให้ข้อมูลปรากฏบน web
OLAP ที่เกี่ยวข้องกับสาขาอื่นๆ
OLAP นับเป็นเทคโนโลยีที่มีความสำคัญต่อสาขาธุรกิจในปัจจุบันเป็นอย่างมาก เนื่องจากความซับซ้อนที่มากขึ้น และเวลาที่น้อยลงสำหรับการตัดสินใจทางธุรกิจ OLAP จึงเป็นคำตอบที่เหมาะสมมากที่สุดในปัจจุบัน เพราะจุดเด่นที่สำคัญของ OLAP ประกอบด้วย การตอบสนองต่อการคิวรีของผู้ใช้ที่กินเวลาไม่มาก การทำงานที่ไม่ขึ้นกับขนาดและความซับซ้อนของฐานข้อมูล แอปพลิเคชัน OLAP ช่วยงานการวิเคราะห์ข้อมูล ไม่ว่าจะเป็นการเปรียบเทียบ การนำเสนอในมุมมองเฉพาะ รวมถึงการวิเคราะห์ข้อมูลย้อนหลังและคาดการณ์ข้อมูลในอนาคตตามโมเดลการตอบคำถามแบบ "What-If"

การทำเหมืองข้อมูล
การทำเหมืองข้อมูล (Data Mining) คือ การหารูปแบบ (pattern) อะไรบางอย่างที่ซ่อนอยู่ในข้อมูล ที่มองผิวเผินแล้วไม่อาจสังเกตเห็นได้ เนื่องจากข้อมูลมีปริมาณมาก เช่น การค้นหากฎความสัมพันธ์ (association rules) ของสินค้าในห้างสรรพสินค้า เราอาจพบว่าลูกค้าร้อยละ 90 ที่ซื้อเบียร์ จะซื้อผ้าอ้อมเด็กด้วย, ซึ่งเป็นข้อมูลให้ทางห้างคิดรายการส่งเสริมการขายใหม่ๆ ได้; หรือ ธนาคารอาจพบว่า คนทั่วไปที่มีอายุ 20-29 ปี และมีรายได้ในช่วง 20,000-30,000 บาท มักซื้อเครื่องเล่นเอ็มพีสาม, ธนาคารอาจเสนอให้คนกลุ่มนี้ทำบัตรเครดิต โดยแถมเครื่องเล่นดังกล่าว เป็นต้น..........................

ลักษณะเด่นของคลังข้อมูล
ให้ผลตอบแทนจากการลงทุนที่สูง ถึงแม้ว่าจะมีการลงทุนที่ต่ำก็ตาม
เนื่องจากมีการให้ให้ผลตอบแทนจากการลงทุนที่สูง จึงสามารถทำให้องค์กรเกิดความได้เปรียบคู่แข่งขันในแง่ของการได้รับข้อมูลและสารสนเทศก่อนคู่แข่งขันเสมอ จึงทำให้สามารถวิเคราะห์ข้อมูลเหล่านั้นเพื่อทำการกำหนดเป็นกลยุทธ์ และกำหนดทิศทางในการดำเนินงานได้ก่อนคู่แข่งขัน เช่น พฤติกรรมของผู้บริโภค ความต้องการทางตลาด และแนวโน้มความต้องการของผู้บริโภค
เพิ่มประสิทธิภาพในการตัดสินใจของผู้ตัดสินใจ เนื่องจากคลังข้อมูลได้รับการให้ข้อมูลที่รับมาจากแหล่งข้อมูลที่แตกต่างกัน มีความสอดคล้องกัน และวิเคราะห์ตามประเด็นที่ผู้ตัดสินใจต้องการ อีกทั้งข้อมูลที่มีอยู่ในคลังข้อมูลก็มีปริมาณมากทั้งข้อมูลในอดีตและปัจจุบัน จึงทำให้การตัดสินใจมีประสิทธิภาพมากขึ้นอีกด้วย
ทำให้สะดวกและรวดเร็วในการค้นหาข้อมูลต่างๆ และลดความซ้ำซ้อนกันของข้อมูลอีกด้วย

DATA MINING

DATA MINING คืออะไร

Data Mining คือ ชุด software วิเคราะห์ข้อมูลที่ได้ถูกออกแบบมาเพื่อระบบสนับสนุนการตัดสินใจของผู้ใช้ มันเป็น software ที่สมบรูณ์ทั้งเรื่องการค้นหา การทำรายงาน และโปรแกรมในการจัดการ ซึ่งเราคุ้นเคยดีกับคำว่า Executive Information System ( EIS ) หรือระบบข้อมูลสำหรับการตัดสินใจในการบริหาร ซึ่งเป็นเครื่องมือชิ้นใหม่ที่สามารถค้นหาข้อมูลในฐานข้อมูลขนาดใหญ่หรือข้อมูลที่เป็นประโยชน์ในการบริหาร ซึ่งเป็นการเพิ่มคุณค่าให้กับฐานข้อมูลที่มีอยู่ระบบสนับสนุนการตัดสินใจ ( Decision Support System) คือทำอย่างไรให้ข้อมูลที่เรามีอยู่กลายเป็นความรู้อันมีค่าได้สร้างคำตอบของอนาคตได้

การทำเหมืองข้อมูล
ไปที่: ป้ายบอกทาง, ค้นหา

การทำเหมืองข้อมูล (อังกฤษ: data mining) หรืออาจจะเรียกว่า การค้นหาความรู้ในฐานข้อมูล (Knowledge Discovery in Databases - KDD) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อมูลจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลักคณิตศาสตร์
ความรู้ที่ได้จากการทำเหมืองข้อมูลมีหลายรูปแบบ ได้แก่
กฎความสัมพันธ์ (Association rule)
แสดงความสัมพันธ์ของเหตุการณ์หรือวัตถุ ที่เกิดขึ้นพร้อมกัน ตัวอย่างของการประยุกต์ใช้กฎเชื่อมโยง เช่น การวิเคราะห์ข้อมูลการขายสินค้า โดยเก็บข้อมูลจากระบบ ณ จุดขาย (POS) หรือร้านค้าออนไลน์ แล้วพิจารณาสินค้าที่ผู้ซื้อมักจะซื้อพร้อมกัน เช่น ถ้าพบว่าคนที่ซื้อเทปวิดีโอมักจะซื้อเทปกาวด้วย ร้านค้าก็อาจจะจัดร้านให้สินค้าสองอย่างอยู่ใกล้กัน เพื่อเพิ่มยอดขาย หรืออาจจะพบว่าหลังจากคนซื้อหนังสือ ก แล้ว มักจะซื้อหนังสือ ข ด้วย ก็สามารถนำความรู้นี้ไปแนะนำผู้ที่กำลังจะซื้อหนังสือ ก ได้
การจำแนกประเภทข้อมูล (Data classification)
หากฏเพื่อระบุประเภทของวัตถุจากคุณสมบัติของวัตถุ เช่น หาความสัมพันธ์ระหว่างผลการตรวจร่างกายต่าง ๆ กับการเกิดโรค โดยใช้ข้อมูลผู้ป่วยและการวินิจฉัยของแพทย์ที่เก็บไว้ เพื่อนำมาช่วยวินิจฉัยโรคของผู้ป่วย หรือการวิจัยทางการแพทย์ ในทางธุรกิจจะใช้เพื่อดูคุณสมบัติของผู้ที่จะก่อหนี้ดีหรือหนี้เสีย เพื่อประกอบการพิจารณาการอนุมัติเงินกู้
การแบ่งกลุ่มข้อมูล (Data clustering)
แบ่งข้อมูลที่มีลักษณะคล้ายกันออกเป็นกลุ่ม แบ่งกลุ่มผู้ป่วยที่เป็นโรคเดียวกันตามลักษณะอาการ เพื่อนำไปใช้ประโยชน์ในการวิเคราะห์หาสาเหตุของโรค โดยพิจารณาจากผู้ป่วยที่มีอาการคล้ายคลึงกัน
จินตทัศน์ (Visualization)
สร้างภาพคอมพิวเตอร์กราฟิกที่สามารถนำเสนอข้อมูลมากมายอย่างครบถ้วนแทนการใช้ขัอความนำเสนอข้อมูลที่มากมาย เราอาจพบข้อมูลที่ซ้อนเร้นเมื่อดูข้อมูลชุดนั้นด้วยจินตทัศน์
เนื้อหา
1 ขั้นตอนการทำเหมืองข้อมูล
2 ประโยชน์จากการทำเหมืองข้อมูล
2.1 การประยุต์ใช้ Data Mining
3 ดูเพิ่ม
4 แหล่งข้อมูลอื่น

ขั้นตอนการทำเหมืองข้อมูล
ทำความเข้าใจปัญหา
ทำความเข้าใจข้อมูล
เตรียมข้อมูล
สร้างแบบจำลอง
ประเมิน
นำไปใช้งาน

ประโยชน์จากการทำเหมืองข้อมูล
การทำเหมืองข้อมูล จำเป็นต้องอาศัยบุคลากรจากหลายฝ่าย และต้องอาศัยความรู้จำนวนมาก ถึงจะได้รับประโยชน์อย่างแท้จริง เพราะสิ่งที่ได้จากขั้นตอนวิธีเป็นเพียงตัวเลข และข้อมูล ที่อาจจะนำไปใช้ประโยชน์ได้หรือใช้ประโยชน์อะไรไม่ได้เลยก็เป็นได้ ผู้ที่ศึกษาการทำเหมืองข้อมูลจึงควรมีความรู้รอบด้านและต้องติดต่อกับทุก ๆ ฝ่าย เพื่อให้เข้าใจถึงขอบเขตของปัญหาโดยแท้จริงก่อน เพื่อให้การทำเหมืองข้อมูลเกิดประโยชน์อย่างแท้จริง

การประยุต์ใช้ Data Mining
การขายปลีกและขายส่ง
การธนาคาร
การประดิษฐ์และการผลิต
การประกันภัย
การทำงานของตำรวจ
การดูแลสุขภาพ
การตลาด

ดูเพิ่ม
คลังข้อมูล (Data warehouse)
การทำเหมืองข้อความ (Text mining)
การทำเหมืองเว็บ (Web mining)
ฐานข้อมูล (Database)

ไม่มีความคิดเห็น:

แสดงความคิดเห็น