9 quy tắc ứng xử mà mọi nhà khoa học dữ liệu nên tuân theo
Dữ liệu cực kỳ có giá trị và việc khai thác dữ liệu dễ dàng là một trong những phương pháp hay nhất đối với hầu hết các tổ chức hiện nay. Nhưng việc biết các tiêu chuẩn ngành liên quan đến điều này là cần thiết để các nhà khoa học dữ liệu không mắc lỗi với dữ liệu khi mọi người tìm hiểu thêm về giá trị của nó.
Do đó, các nhà khoa học dữ liệu phải nắm bắt các phương pháp thực hành an toàn và có đạo đức cũng như áp dụng các phương pháp được tiêu chuẩn hóa. Thay vì chỉ xem xét giá trị của dữ liệu, bạn nên đặt câu hỏi về các phương pháp thu thập và xử lý dữ liệu cho bất kỳ mục đích nào. Vì vậy, đây là chín quy tắc ứng xử mà mọi nhà khoa học dữ liệu nên tuân theo.
Mục Lục
1. Tuân thủ Quy định
Các nhà khoa học dữ liệu phải biết các quy định bảo vệ dữ liệu áp dụng cho một số công việc nhất định. Nếu không, bạn có thể vô tình phạm luật và gây nguy hiểm cho bản thân và những người khác. Vì vậy, kiến thức này là rất quan trọng để đảm bảo công việc có đạo đức và ngăn ngừa tác hại ngoài ý muốn.
Do đó, hãy kiểm tra các luật liên quan trước khi tham gia vào bất kỳ hoạt động nào. Hơn nữa, đừng chỉ tuân thủ các quy định để tuân theo các quy tắc; cũng tìm kiếm một sự hiểu biết sâu sắc hơn về họ. Để tuân thủ đúng các quy định, bạn phải biết tại sao chúng được đặt và những gì chúng bảo vệ chống lại.
Một số luật về quyền riêng tư đáng chú ý là Quy định chung về bảo vệ dữ liệu của EU (GDPR) và Đạo luật về quyền riêng tư của người tiêu dùng California (CCPA). Các quy định khác bao gồm HIIPA, DPA, PIPEDA, LGPD và nhiều quy định cụ thể của ngành.
2. Tôn trọng quyền riêng tư
Địa chỉ, email và ID là những số nhận dạng không nên công khai vì chúng gây rủi ro thực sự cho mọi người. Do đó, hãy đảm bảo bạn đặt những chi tiết này ở chế độ riêng tư nhất có thể.
Nếu bị lộ, nạn nhân có thể bị đánh cắp danh tính hoặc lừa đảo. Họ cũng có thể bị tống tiền bởi những người đe dọa tiết lộ thông tin bí mật của họ. Hơn nữa, các chuyên gia có thể bị tổn hại về uy tín và bị quấy rối trực tuyến khi sở thích cá nhân của họ được công khai. Những điều này có thể ảnh hưởng đến các mối quan hệ, cơ hội nghề nghiệp và địa vị xã hội của họ.
Vì vậy, với suy nghĩ đó, hãy nghiên cứu và lựa chọn các cách hiệu quả để bảo mật danh tính trực tuyến và hủy nhận dạng dữ liệu tốt hơn. Ví dụ: bạn có thể thay thế các ký tự, xóa số nhận dạng trực tiếp hoặc khái quát hóa. Thực hiện những điều này sẽ bảo vệ dữ liệu nhạy cảm khỏi tội phạm mạng đồng thời trợ giúp các tổ chức với những phát hiện của bạn.
3. Loại bỏ sự thiên vị
Các nhà khoa học dữ liệu dựa vào số liệu thống kê để trở nên khách quan nhất có thể. Tuy nhiên, bất chấp những nỗ lực này, sự thiên vị vẫn tồn tại vì quan niệm rằng dữ liệu lớn hơn chính xác hơn là một trong những lầm tưởng phổ biến nhất về khoa học dữ liệu.
Có một số sự thật về điều này, nhưng thật không may, dữ liệu lớn đôi khi chứa các yếu tố và số liệu thống kê không cần thiết hoặc không có thật. Vì vậy, thay vì chỉ tập trung vào các con số, hãy đảm bảo dữ liệu của bạn rõ ràng và mang tính đại diện.
Làm sạch hoặc lọc dữ liệu trước khi sử dụng là những phương pháp tuyệt vời để chống lại sự thiên vị. Ví dụ: bạn có thể kiểm tra lỗi hoặc sử dụng lấy mẫu phân tầng để đảm bảo dữ liệu đại diện.
4. Không Bịa đặt hoặc Phát minh ra Kết quả
Bịa đặt là một hình thức gian lận dữ liệu và gian lận nghiên cứu liên quan đến việc bịa đặt các phát hiện và báo cáo chúng là đúng.
Ví dụ: một nhà khoa học dữ liệu có thể báo cáo rằng một loại thuốc đã được phát hiện là không có tác dụng phụ đối với hầu hết các thành viên trong một nhóm tuổi nhất định. Những phát hiện này sẽ là bịa đặt nếu không có các thí nghiệm y tế ban đầu và dữ liệu được thu thập để sao lưu chúng.
Bịa đặt có hậu quả nghiêm trọng và tiêu cực đối với các nhà khoa học dữ liệu và những người dựa vào công việc của họ. Nó có thể hủy hoại uy tín của bạn, làm vấy bẩn danh tiếng của tổ chức bạn, gây hại cho công chúng hoặc khiến bạn gặp rủi ro pháp lý.
5. Không ngụy tạo hoặc thao túng bằng chứng
Làm sai lệch là sự thao túng thực tế, thu thập dữ liệu cho phù hợp với một chương trình nghị sự. Trong khi những người bịa đặt tạo ra kết quả từ dữ liệu không tồn tại để hỗ trợ cho tuyên bố của họ, những người giả mạo làm việc để bác bỏ dữ liệu thực và hiện có vì lý do cá nhân. Để đạt được điều này, họ có thể can thiệp vào thiết bị nghiên cứu, thay đổi hoặc loại bỏ hoàn toàn dữ liệu.
Giả mạo có thể gây hại cho công chúng bằng cách cung cấp thông tin sai lệch ảnh hưởng đến việc ra quyết định trong các lĩnh vực khác nhau. Ví dụ, một nghiên cứu thuốc giả mạo có thể khiến mọi người gặp rủi ro không cần thiết, phương pháp điều trị không hiệu quả hoặc tác dụng phụ có hại. Nó cũng có thể gây ra tổn thất về tiền bạc, thời gian hoặc vật liệu mà lẽ ra có thể được sử dụng cho các mục đích khác.
Bịa đặt và làm sai lệch là những hành vi vô đạo đức có tác dụng phụ và nhiều biện pháp trừng phạt. Chúng có thể bao gồm tiền phạt, thu hồi thông tin đăng nhập, mất tài trợ nghiên cứu hoặc tống giam.
6. Thể hiện sự minh bạch
Tính minh bạch đối với các nhà khoa học dữ liệu có nghĩa là trung thực về các phương pháp được áp dụng để thu thập, phân tích và trình bày dữ liệu. Các nhà khoa học dữ liệu nên cởi mở và sẵn sàng chia sẻ thực tiễn của họ với các nhà khoa học dữ liệu khác và những người tham gia nghiên cứu.
Ngoài ra, bạn phải được sự đồng ý của những người tham gia nghiên cứu vì việc xuất bản kết quả mà không có sự đồng ý sau khi được giải thích có thể không tôn trọng hoặc gây hại cho những người tham gia theo nhiều cách khác nhau. Họ có thể vi phạm nhân phẩm, quyền riêng tư và quyền tự chủ của họ hoặc đặt họ vào những rủi ro có hại, không cần thiết do nghiên cứu gây ra.
Tính minh bạch tạo dựng niềm tin với những người dựa vào dữ liệu của bạn để có thông tin chi tiết. Nó cũng đảm bảo chất lượng dữ liệu bằng cách cho phép người khác xem xét kết quả của bạn.
Ngoài ra, sự cởi mở giữa các nhà khoa học dữ liệu thúc đẩy sự hợp tác và học hỏi. Bạn có thể giúp thúc đẩy sự đổi mới bằng cách chia sẻ quy trình của mình và truyền đạt các phương pháp trực quan hóa dữ liệu và kỹ thuật khoa học dữ liệu tốt nhất cho các đồng nghiệp trong khi học hỏi từ họ.
7. Thu thập dữ liệu an toàn
Các nhà khoa học dữ liệu phải xác nhận tính an toàn của các phương pháp được sử dụng để thu thập, phân tích và lưu trữ dữ liệu. Làm điều này ngăn chặn các vi phạm dữ liệu tiềm ẩn có thể ảnh hưởng đến các nhà khoa học dữ liệu và những người tham gia nghiên cứu.
Vi phạm dữ liệu gây nguy hiểm cho an toàn cá nhân, làm suy yếu niềm tin của công chúng và phơi bày sự kém cỏi của tổ chức dẫn đến tổn thất tài chính đáng kinh ngạc cho công ty. Những tổn thất này có thể là các vụ kiện từ các nạn nhân vi phạm dữ liệu, ít khách hàng hơn, v.v.
Trước vấn đề này, bạn phải tiến hành nghiên cứu để tìm ra các giải pháp bảo mật dữ liệu hiệu quả nhất và áp dụng chúng. Ví dụ: bạn có thể bảo mật kết nối bằng mã hóa TLS/SSL hoặc sử dụng proxy luân phiên. Ngoài ra, bạn có thể thực thi các biện pháp kiểm soát truy cập và tạo bản sao lưu trong trường hợp bị tấn công. Khi bạn tìm ra giải pháp, đừng quên chia sẻ chúng với những người khác để đảm bảo an toàn tối đa.
8. Sử dụng thuật toán một cách có trách nhiệm
Các thuật toán không chỉ là công cụ để phân tích dữ liệu. Chúng có ảnh hưởng mạnh mẽ đến cuộc sống, hành vi và cơ hội của mọi người. Tuy nhiên, mặc dù chúng giúp giải quyết vấn đề và đưa ra những dự đoán sáng tạo, nhưng chúng cũng không hoàn hảo.
Nếu không được thiết kế, thử nghiệm hoặc triển khai cẩn thận, các thuật toán có tác động xã hội và đạo đức có thể gây hại cho một số nhóm người nhất định. Họ cũng đưa ra sự thiên vị nếu được đào tạo về dữ liệu phản ánh những định kiến hiện có và có thể không thể đoán trước. Do đó, các nhà khoa học dữ liệu phải thiết kế và sử dụng chúng một cách có trách nhiệm.
Luôn chọn các thuật toán phù hợp, kiểm tra hiệu suất của chúng và giải thích cách chúng hoạt động. Ngoài ra, hãy đảm bảo bạn xác định các nguồn sai lệch tiềm ẩn và thực hiện các cơ chế cập nhật hoặc sửa chữa khi cần thiết.
9. Cân nhắc những tác động lâu dài trong công việc của bạn
Công việc của bạn với tư cách là một nhà khoa học dữ liệu sẽ tác động đáng kể đến nhiều khía cạnh của xã hội. Vì vậy, hãy luôn xem xét các mô hình của bạn ảnh hưởng đến mọi người như thế nào.
Ví dụ, cố gắng đặt câu hỏi liệu công việc của bạn có thể duy trì định kiến và bất bình đẳng hoặc gây nguy hiểm cho quyền riêng tư trong tương lai hay không. Tiếp theo, giải quyết thỏa đáng những mối quan tâm này.
Lưu ý rằng tầm nhìn hướng tới tương lai quan trọng hơn bất kỳ phương pháp khắc phục nào và suy nghĩ về những ngày sắp tới là một trong những cách hiệu quả nhất để đưa ra quyết định hợp lý về mặt đạo đức.
Bạn phải có đạo đức như một nhà khoa học dữ liệu
Là một nhà khoa học dữ liệu, bạn nhận được quyền hạn đi kèm với trách nhiệm tương ứng. Kỹ năng của bạn rất hiếm, vì vậy bạn là người đi đầu trong việc ra quyết định của tổ chức.
Quyết định của bạn ảnh hưởng đến mọi thứ, từ kế hoạch kinh doanh của công ty đến hệ thống tư pháp hình sự. Vì vậy, bạn không nên làm cho chúng nhẹ. Luôn trung thực, có đạo đức và tỉ mỉ trong công việc của bạn để bảo vệ mọi người khỏi những tình huống khó xử về đạo đức hiện có trong ngành của bạn và các lĩnh vực công nghệ khác.