Sức mạnh của phương pháp song trùng

Thế giới ngày càng phát triển, khối lượng dữ liệu tích lũy được từ các hoạt động của con người ngày càng gia tăng. Với những cách tư duy mới, người làm khoa học dữ liệu và kinh doanh đã nghĩ ra nhiều phương pháp khai thác lượng dữ liệu đó một cách hiệu quả, và tạo ra những kết quả phi thường. Và phương pháp song trùng chính là một trong những phương pháp mạnh nhất của thời đại dữ liệu lớn.

MÔ HÌNH PECOTA

Năm 2003, nhà thống kê Nate Silver giới thiệu một mô hình mới, ông gọi là PECOTA, để tiên đoán thành tích cầu thủ. Silver tìm kiếm những kẻ song trùng—những người giống các cầu thủ hiện tại. Ông xây dựng một cơ sở dữ liệu gồm mọi cầu thủ Major League Baseball, hơn 18,000 người. Cho vào đó mọi thứ ta biết về các cầu thủ: chiều cao, tuổi, và vị trí; các chỉ số thi đấu cho mỗi năm của sự nghiệp. Sau đó, tìm 20 cầu thủ trông giống cầu thủ đang nghiên cứu nhất cho đến thời điểm đó. Sau đó, ông xem sự nghiệp những người này tiến triển thế nào.

Áp dụng phương pháp này, Silver đã nghiên cứu và dự báo sự nghiệp của David Ortiz. Trong khi tất cả mọi chỉ số đều cho thấy sự nghiệp của Ortiz đang tụt dốc không phanh và đội Boston nên kết thúc hợp đồng với anh thì hơn, mô hình song trùng của Silver lại phát hiện ra rằng, những người giống Ortiz nhất sẽ có giai đoạn thụt lùi. Đến khoảng gần 30 tuổi thì sự nghiệp lại tăng tốc mạnh.

Phương pháp song trùng khuyên Boston nên kiên nhẫn với Ortiz. Và Boston đã làm theo. Bắt đầu từ năm 2010, Ortiz tỏa sáng, và thường xuyên góp mặt ở những trận đấu cao nhất của giải đấu bóng chày chuyên nghiệp Mỹ. Đến tuổi 37, thành tích của Ortiz vẫn khiến vô số cầu thủ khác phải ngưỡng mộ.

FACEBOOK LOOKALIKE

Thực ra, phương pháp song trùng đã xuất hiện rất nhiều trong các lĩnh vực kinh doanh, đặc biệt trong những ngành có khối lượng dữ liệu đồ sộ. Một trong những sản phẩm áp dụng phương pháp này mạnh mẽ và phổ biến nhất chính là Facebook Lookalike.

Nếu đã từng một lần chạy quảng cáo Facebook, hẳn bạn cũng đã biết về tính năng Lookalike. Với một tập khách hàng có sẵn, Facebook sẽ tìm kiếm trong tất cả những người dùng của mình, và tìm các song trùng của khách hàng. Nếu 1000 khách hàng đã mua sản phẩm của bạn hầu hết đều là nam, tuổi từ 26 đến 30, thích đọc sách, thích kinh doanh, ở Thành phố Hồ Chí Minh, tính năng Lookalike của Facebook sẽ nhanh chóng tìm cho bạn 500.000 người dùng khác có đặc điểm rất giống với khách hàng cua bạn: cũng là nam giới, tuổi cũng từ 26 đến 30, cũng thích đọc sách, thích kinh doanh, và ở Thành phố Hồ Chí Minh. Và theo phương pháp song trùng, nhiều khả năng là 500.000 khách hàng tiềm năng này cũng sẽ có hành vi tương tự khách hàng hiện tại của bạn: Họ sẽ mua sản phẩm của bạn.

Tất cả những ví dụ trên cho thấy sức mạnh khủng khiếp của một bộ dữ liệu lớn và phương pháp song trùng: từ dữ liệu quá khứ, ta có thể suy ra vô cùng chính xác điều sẽ xảy ra trong tương lai. Đặc điểm hành vi càng trùng lặp nhiều, khả năng các song trùng sẽ có hành vi giống nhau trong tương lai càng cao.

Vậy thì, nếu có thể biết trước hành vi của khách hàng thông qua các song trùng, các công ty có thể làm gì?

CÁC ỨNG DỤNG CỰC MẠNH CỦA PHƯƠNG PHÁP SONG TRÙNG

Có lẽ ứng dụng mạnh mẽ và phổ biến nhất của phương pháp song trùng chính là trong lĩnh vực tín dụng. Với một bộ dữ liệu cực lớn các trường hợp vay, cũng như lịch sử trả nợ của rất nhiều con người, các tổ chức tín dụng có thể truy tìm những người giống bạn nhất trong tất cả những hồ sơ vay của họ. Nếu các đặc điểm của bạn trùng khớp với những người có lịch sử trả nợ tốt, có thể bạn sẽ được bỏ qua một số bước lọc ban đầu. Ngược lại, nếu đặc điểm của bạn lại giống với những khách hàng chây ì trả nợ, bạn sẽ phải đi qua thêm nhiều vòng kiểm tra trước khi được duyệt.

Các lọc hồ sơ truyền thống với những tiêu chí cụ thể cũng có thể xác định bạn có nhiều khả năng trả nợ hay không. Tuy nhiên, so với cách lọc hồ sơ truyền thống, phương pháp song trùng mạnh mẽ ở chỗ, người đi vay không thể biết đích xác đâu là tiêu chí quyết định việc duyệt hồ sơ vay. Vì thế, những người đi vay với ý đồ xấu sẽ không thể làm đẹp hồ sơ của mình hòng qua mắt các vòng thẩm định. Và đặc biệt hơn, nhiều khả năng hệ thống song trùng sẽ phát hiện hồ sơ được “làm đẹp” của bạn giống với nhiều hồ sơ được “làm đẹp” khác và đã quỵt nợ trong quá khứ, từ đó giảm trừ rủi ro nhận phải hồ sơ giả cho bên cho vay.

Tương tự, với một cơ sở dữ liệu nhân viên trong quá khứ, cộng với hệ thống xử lí bằng phương pháp song trùng có thể giúp các công ty cần tuyển nhiều nhân viên đánh giá hồ sơ trước khi tuyển dụng—phần nào tránh tình trạng thiên lệch khi đánh giá bằng cảm quan con người. Nhân viên có thể trả lời không đúng thực tế để lừa người trực tiếp phỏng vấn tuyển dụng, nhưng họ không thể giấu sự tương tự của mình với những nhân viên khác trong quá khứ. Với một cơ sở dữ liệu được khai thác tốt, các công ty hoàn toàn có thể lọc hồ sơ nhanh hơn, chính xác hơn, và khách quan hơn.

***

Phương pháp song trùng chỉ là một trong số rất nhiều công cụ xử lí dữ liệu lớn, nhưng đã có thể tạo ra những sự khác biệt khổng lồ với những tổ chức thủ cựu chưa tiếp nhận các tư duy về dữ liệu. Có lẽ, đây chính là một trong những lí do khiến rất nhiều tổ chức sẵn sàng hi sinh lợi nhuận ngắn hạn để làm giàu bộ dữ liệu của mình, từ đó chiếm lợi thế dài hạn nhờ khả năng đọc trước tương lai. Grab đang làm điều đó. Các trang thương mại điện tử như Tiki, Lazada, Shopee… đang làm điều đó. Nhiều tổ chức tín dụng cũng đang làm điều đó.

Vậy thì khi nào công ty của bạn mới tham gia vào xu hướng này đây?

SÁCH VỀ CHỦ ĐỀ NÀY

1. MỌI NGƯỜI ĐỀU NÓI DỐI (Seth Stephen-Daviadowitz)