ค่าใช้จ่ายในการทำความสะอาดข้อมูลมักจะอยู่นอกเหนือขอบเขตความสะดวกสบายของธุรกิจที่เต็มไปด้วยข้อมูลที่อาจสกปรก ซึ่งขัดขวางเส้นทางสู่กระแสข้อมูลองค์กรที่น่าเชื่อถือและเป็นไปตามข้อกำหนด

มีบริษัทเพียงไม่กี่แห่งที่มีทรัพยากรที่จำเป็นในการพัฒนาเครื่องมือสำหรับความท้าทาย เช่น ความสามารถในการสังเกตข้อมูลในวงกว้าง ตามที่ Kyle Kirwan ผู้ร่วมก่อตั้งและ CEO ของ Bigeye แพลตฟอร์มการสังเกตข้อมูลกล่าว ด้วยเหตุนี้ หลายๆ บริษัทจึงมักมองไม่เห็นด้วยตาเปล่า โดยจะตอบสนองเมื่อมีบางอย่างผิดพลาด แทนที่จะจัดการกับคุณภาพของข้อมูลในเชิงรุก

ความน่าเชื่อถือของข้อมูลให้กรอบการทำงานทางกฎหมายสำหรับการจัดการข้อมูลที่ใช้ร่วมกัน ส่งเสริมการทำงานร่วมกันผ่านกฎทั่วไปในการรักษาความปลอดภัยข้อมูล ความเป็นส่วนตัว และการรักษาความลับ และช่วยให้องค์กรสามารถเชื่อมต่อแหล่งข้อมูลของตนได้อย่างปลอดภัยในที่เก็บข้อมูลที่ใช้ร่วมกัน

Bigeye นำวิศวกรข้อมูล นักวิเคราะห์ นักวิทยาศาสตร์ และผู้มีส่วนได้ส่วนเสียมารวมกันเพื่อสร้างความไว้วางใจในข้อมูล แพลตฟอร์มดังกล่าวช่วยให้บริษัทต่างๆ สามารถตรวจสอบและตรวจจับสิ่งผิดปกติได้โดยอัตโนมัติ และสร้าง SLA เพื่อรับรองคุณภาพของข้อมูลและไปป์ไลน์ที่เชื่อถือได้

ด้วยการเข้าถึง API ที่สมบูรณ์ อินเทอร์เฟซที่เป็นมิตรกับผู้ใช้ และการปรับแต่งอัตโนมัติแต่มีความยืดหยุ่น ทีมข้อมูลสามารถตรวจสอบคุณภาพ ตรวจหาและแก้ไขปัญหาในเชิงรุก และทำให้แน่ใจว่าผู้ใช้ทุกคนสามารถพึ่งพาข้อมูลได้

ประสบการณ์ข้อมูล Uber
สมาชิกกลุ่มแรกสองคนของทีมข้อมูลที่ Uber — Kirwan และ Bigeye ผู้ร่วมก่อตั้งและ CTO Egor Gryaznov — ตั้งใจที่จะใช้สิ่งที่พวกเขาเรียนรู้ในการสร้างขนาดของ Uber เพื่อสร้างเครื่องมือ SaaS ที่ปรับใช้ได้ง่ายขึ้นสำหรับวิศวกรข้อมูล

Kirwan เป็นหนึ่งในนักวิทยาศาสตร์ด้านข้อมูลคนแรกของ Uber และเป็นผู้จัดการผลิตภัณฑ์ข้อมูลเมตาคนแรก Gryaznov เป็นวิศวกรระดับพนักงานที่จัดการคลังข้อมูล Vertica ของ Uber และพัฒนาเครื่องมือและกรอบงานด้านวิศวกรรมข้อมูลภายในหลายอย่าง

พวกเขาตระหนักว่าเครื่องมือที่ทีมของพวกเขาสร้างขึ้นเพื่อจัดการ Data Lake ขนาดใหญ่ของ Uber และผู้ใช้ข้อมูลภายในหลายพันรายนั้นล้ำหน้ากว่าทีมวิศวกรรมข้อมูลส่วนใหญ่มาก

การตรวจสอบและตรวจจับปัญหาความน่าเชื่อถือโดยอัตโนมัติภายในตารางหลายพันตารางในคลังข้อมูลไม่ใช่เรื่องง่าย บริษัทต่างๆ เช่น Instacart, Udacity, Docker และ Clubhouse ใช้ Bigeye เพื่อให้การวิเคราะห์และการเรียนรู้ของเครื่องทำงานอย่างต่อเนื่อง แพลตฟอร์มข้อมูลของRundown Bigeye ไม่ได้อยู่ในรุ่นเบต้าอีกต่อไป คุณลักษณะระดับองค์กรบางอย่างยังคงอยู่ในแผนงาน เช่น การควบคุมการเข้าถึงตามบทบาทโดยสมบูรณ์ แต่ฟีเจอร์อื่นๆ เช่น SSO และการปรับใช้ใน VPC พร้อมให้บริการแล้ววันนี้

แอปนี้เป็นแหล่งที่มาแบบปิด และเป็นโมเดลที่เป็นกรรมสิทธิ์ซึ่งใช้สำหรับการตรวจจับสิ่งผิดปกติ ตาโตเป็นแฟนตัวยงของตัวเลือกโอเพนซอร์ซ แต่ตัดสินใจที่จะพัฒนาตัวเองเพื่อให้บรรลุเป้าหมายด้านประสิทธิภาพที่ตั้งไว้ภายใน แมชชีนเลิร์นนิงถูกใช้ในจุดสำคัญสองสามแห่งเพื่อนำการผสมผสานของเมตริกที่ไม่ซ้ำกันมาไว้ในแต่ละตารางในแหล่งข้อมูลที่เชื่อมต่อของลูกค้า ตัวแบบการตรวจจับสิ่งผิดปกติได้รับการฝึกอบรมในแต่ละตัวชี้วัดเหล่านั้นเพื่อตรวจจับพฤติกรรมที่ผิดปกติ

ฟีเจอร์ 3 อย่างที่รวมอยู่ในตัวเมื่อสิ้นสุดปี 2021 จะตรวจจับและแจ้งเตือนโดยอัตโนมัติเกี่ยวกับปัญหาด้านคุณภาพของข้อมูล และเปิดใช้งาน SLA ด้านคุณภาพของข้อมูล

อย่างแรกคือ Deltas ทำให้ง่ายต่อการเปรียบเทียบและตรวจสอบชุดข้อมูลหลายเวอร์ชัน

ปัญหาที่สอง นำการแจ้งเตือนหลายรายการมารวมกันเป็นไทม์ไลน์เดียวพร้อมบริบทอันมีค่าเกี่ยวกับปัญหาที่เกี่ยวข้อง ทำให้ง่ายต่อการบันทึกการแก้ไขที่ผ่านมาและเพิ่มความเร็วในการแก้ไข

ประการที่สาม Dashboard ให้มุมมองโดยรวมเกี่ยวกับความสมบูรณ์ของข้อมูล ช่วยในการระบุฮอตสปอตคุณภาพข้อมูล ปิดช่องว่างในการตรวจสอบความครอบคลุม และวัดปริมาณการปรับปรุงของทีมเพื่อความน่าเชื่อถือ

สามารถอัพเดตข่าวสารเรื่องราวต่างๆได้ที่ https://www.spainonshow.com/