Tra tấn bằng nước - Phép tương tự trong phân tích đi quá xa

phân tích nhỏ giọt

Dữ liệu, giống như nước, có nhiều dạng. Trí óc con người đã phát triển để lọc ra hầu hết dữ liệu theo cách của chúng ta vì đơn giản là có quá nhiều dữ liệu.

Khi bạn mở mang tai, dữ liệu ở khắp mọi nơi. Màu tường, tiếng máy lạnh và mùi cà phê của nhà hàng xóm được xử lý như độ ẩm. Nước luôn ở trong không khí nhưng để ý nhiều đến nó thì không có ích gì.

Khi nước ngưng tụ thành sương mù, nó buộc bạn phải nhìn thấy nó và khiến việc tìm hiểu thế giới xung quanh trở nên khó khăn hơn. Bộ dữ liệu không đầy đủ, dữ liệu bị hỏng, khoa học tồi, kết luận sai lầm và thiên vị nhận thức đều khiến bạn lạc lối trong màn sương.

Dữ liệu rơi như mưa. Khi chỉ có một chút, điều đó thực sự không hài lòng - chỉ đủ để làm xe của bạn bẩn và làm xáo trộn cuộc trò chuyện. Bạn thấy mình xóa sạch vết trên kính khi ai đó lấy ra một số điểm dữ liệu ngẫu nhiên, thu thập được từ một số nguồn khó hiểu.

  • Nước hôi trong một cái ao cạn là nguy hiểm. Dữ liệu, được thu thập từ một nguồn cung cấp không đáng tin cậy, không được làm sạch hoặc chuẩn hóa và để phát triển trì trệ, có thể dễ dàng dẫn đến kết luận sai lầm.
  • A nhỏ giọt ổn định lượng nước có thể chỉ đủ để lấp đầy một căng tin hoặc duy trì một hệ sinh thái rừng. Chỉ cần ba điểm dữ liệu (số lượng email được gửi, so với được mở, so với được nhấp) có thể duy trì một chương trình tiếp thị.
  • A dòng chảy lành mạnh hơn dữ liệu dưới dạng một con lạch nhỏ có thể được sử dụng để tắm. Luồng dữ liệu liên tục cho phép đo điểm chuẩn và so sánh lịch sử. Tối ưu hóa trang đích có thể được thực hiện với dữ liệu chuyển đổi ổn định.
    A sông khiêm tốn có thể cung cấp năng lượng cho một nhà máy để cưa gỗ hoặc xay lúa mì. Công cụ đề xuất chỉ cần sự đóng góp đáng tin cậy từ một số nhánh để cung cấp sự gia tăng giá trị của giỏ hàng.
  • A thác nước có thể thúc đẩy một guồng nước khổng lồ và một lượng thông tin vừa đủ có thể thúc đẩy một hệ thống nội dung động, thời gian thực.
  • A sông đủ rộng và đủ sâu để có thể hỗ trợ toàn bộ ngành giao thông vận tải. Đủ dữ liệu có thể thả nổi sà lan và tàu chở hàng dưới dạng tập hợp cookie từ các mạng quảng cáo, trình tổng hợp dữ liệu chương trình thẻ khách hàng thân thiết và nhà môi giới dữ liệu.

Khi dữ liệu đến với số lượng dự kiến ​​vào thời điểm dự kiến, nó có thể được thu thập, chuyển kênh và đưa vào sử dụng. Hệ thống thủy lợi, đập và hồ chứa mang lại cảm giác kiểm soát và cho phép xây dựng cơ sở hạ tầng ngày càng mở rộng với các kênh, âu thuyền và đập. Kho dữ liệu đã được xây dựng trên các luồng ít đáng tin cậy hơn.

Nhà sạch thì mát bát sạch ngon cơm

Nước sạch rất quan trọng đối với sự thành công của cuộc sống, tưới tiêu, vận hành các nhà máy điện, v.v ... Định nghĩa về 'sạch' có thể thay đổi vì mục đích; Không sao nếu có tảo trong nước làm mát nhà máy điện và không thể chấp nhận được nếu có hơn 10 phần tỷ arsen trong nước uống.

Dữ liệu cũng vậy. Trong một ứng dụng gửi thư trực tiếp, cho dù bạn có chức danh của một người nào đó (Ông, Bà, Bà) là không quan trọng… trừ khi bạn gửi thư cho bác sĩ. Nhưng dữ liệu bẩn sẽ khiến bạn tăng tốc mọi lúc.

Là nhà khoa học dữ liệu trưởng của Hoa Kỳ, DJ Patil, hãy trình bày tại Hội nghị CTO Vòng đầu tiên, “Nếu bạn không nghĩ về cách giữ cho dữ liệu của mình sạch sẽ ngay từ đầu, thì bạn sẽ rất khó chịu. Tôi đảm bảo điều đó. Cố gắng làm sạch nó sau khi thực tế sẽ mất ít nhất vài tháng ”.

Nếu bạn đun nước đến độ sôi, nó có thể tạo ra sức mạnh cho cả một cuộc Cách mạng Công nghiệp. Dữ liệu dường như đang làm điều tương tự. Từ thời điểm máy tính có thể lưu trữ cũng như tính toán, dữ liệu đã được thu thập nhanh như thiết bị lưu trữ có thể được tạo ra để làm điều đó.

Hồ dữ liệu

Khi dữ liệu từ các nhánh sông này chảy qua các động cơ của các nhà máy, tất cả kết thúc trong hồ, phía sau con đập. Khi dữ liệu được đưa ra theo cách có kiểm soát, nó cung cấp năng lượng cho các tua-bin của ngành dữ liệu; những cỗ máy xử lý dữ liệu khổng lồ đó với những cái tên như Google và Facebook. Sẽ không có hạn hán ở đây.

Và cuối cùng, có một vực nước sâu, đang chờ nhà phân tích lặn vào. Trong tay thiết bị lặn và súng giáo, nhà phân tích điều tra sâu, lập bản đồ vùng đất mới và khám phá ra các loài mới. Đây là thời điểm rất thú vị để trở thành một nhà thám hiểm dữ liệu.

Đó là lý do tại sao rất nhiều người trong số họ đã xuất hiện cho Hội nghị thượng đỉnh eMetrics kể từ năm 2002. Cơ hội tiếp theo là ở Boston, ngày 27 tháng 1 đến ngày 2015 tháng XNUMX năm XNUMX.

Đăng ký hội nghị thượng đỉnh eMetrics

A Bridge Too Far

Và sức mạnh của dữ liệu để tạo ra Grand Canyon tiếp theo là gì? Còn về sự tan băng của dữ liệu có cấu trúc thì sao? Làm thế nào để chúng ta xử lý nước thải trong một thế giới ngày càng có ý thức về quyền riêng tư?

Đó là những câu hỏi cho thời gian khác và nước dưới cầu.

Bạn nghĩ gì?

Trang web này sử dụng Akismet để giảm spam. Tìm hiểu cách xử lý dữ liệu nhận xét của bạn.