Phương pháp giải: sgk trang 121, 122, suy luận.

Mất quá nhiều thời gian để làm DATA PREPARATION

Nói tới ý này mình phải nhắc lại quá trình phân tích dữ liệu đã từng đề cập, gồm 6 bước như thế này:

Thì trong bước số 2 (Data collection – Thu thập dữ liệu) và số 3 (Data preparation – Chuẩn bị dữ liệu) rất vất vã nếu bạn làm trong những công ty chưa có hệ thống data warehouse, data platform chuẩn chỉnh. Data sẽ được lưu ở rất nhiều nơi: từ trong cơ sở dữ liệu cho đến các hệ thống bên ngoài và cả Excel hay Google sheet!

Theo Forbes, chúng ta tạo ra 2,5 tỷ tỷ byte dữ liệu mỗi ngày – more data more problem!

Format data mỗi nơi mỗi kiểu, cái nào trong warehouse thì đỡ vất vả do đã được team IT cấu trúc lại rồi, data nào mà ở các nguồn bên ngoài thì như một nỗi ác mộng to lớn với mình. Mọi người biết mà đúng không: Ở trong excel, cùng 1 cột nhưng bạn được phép lưu nhiều loại dữ liệu khác nhau, dòng trên là số, dòng dưới lưu chữ, viết sai chính tả cũng được. Để xứ lý chuẩn lại format là cả 1 vấn đề, chắc mất cả ngày trời luôn ấy. Nếu là mình thì mình sẽ đầu hàng, trả file lại cho người tạo ra nó và bảo:

Khó khăn thứ nhất: Từ vựng Các từ có nhiều nghĩa

Bạn đã bao giờ thấy một từ tiếng Anh mà bạn nghĩ rằng bạn đã biết — nhưng lại được sử dụng theo một cách hoàn toàn xa lạ chưa?

Từ vựng tiếng Anh đặc biệt khó vì có rất nhiều từ có nhiều định nghĩa nên bạn rất dễ hiểu sai nghĩa của chúng. Cũng khó để ghi nhớ nhiều định nghĩa khác nhau cho mỗi từ.

Lấy  ví dụ từ “date”. Từ này có thể có nghĩa là:

Cách duy nhất có thể để hiểu định nghĩa nào đang được sử dụng là chú ý đến các manh mối ngữ cảnh . Điều này có nghĩa là sử dụng các từ và câu xung quanh để tìm ra định nghĩa nào cho từ đó có ý nghĩa.

Ngay cả khi bạn chưa học tất cả các định nghĩa cho một từ tiếng Anh khó, các manh mối ngữ cảnh có thể giúp bạn tìm ra định nghĩa đúng!

Bạn có thể tìm ra định nghĩa nào cho từ “date”  có ý nghĩa trong hai câu dưới đây không?

Trong câu đầu tiên, ai đó đang hỏi một ngày cụ thể khi trường học bắt đầu. Đây không phải là một sự kiện lãng mạn mà hai người sẽ dành cho nhau. Định nghĩa đầu tiên áp dụng ở đây.

Câu thứ hai phức tạp hơn, nhưng bạn có thể nói rằng người đó không yêu cầu một ngày cụ thể. Họ đang yêu cầu dành thời gian cho bạn. Định nghĩa thứ hai áp dụng ở đây.

Một mẹo khác là hãy chú ý đến phần lời nói (ví dụ: danh từ, tính từ, v.v.) . Thông thường, các định nghĩa khác nhau cho một từ tiếng Anh sẽ có các phần khác nhau trong lời nói, vì vậy rất dễ dàng để phân biệt chúng.

Khó khăn lớn nhất trong việc học tiếng Anh là gì?

Khó khăn trong việc học tiếng Anh có thể khiến bạn cảm thấy lạc lõng. Nếu không có một số trợ giúp, có thể rất khó để đi đúng hướng một lần nữa. Nhưng việc vượt qua những khó khăn đó có thể dễ dàng hơn bạn nghĩ rất nhiều. Pasal sẽ cho bạn thấy ba khó khăn lớn nhất trong việc học từ vựng tiếng Anh , kỹ năng phát âm và hội thoại. Và chúng tôi sẽ chỉ cho bạn những thủ thuật đơn giản để làm chủ những khó khăn đó và tiếp tục

Khó khăn lớn nhất trong việc học tiếng Anh là gì?

Khó khăn thứ 2: Những từ không giống như cách họ nhìn

Ngay cả những người nói tiếng Anh bản ngữ cũng gặp khó khăn với điều này!

Trong ngôn ngữ tiếng Anh, một số lượng lớn các từ không được đánh vần theo phiên âm. Điều đó có nghĩa là chúng nghe rất khác so với những gì bạn mong đợi dựa trên chính tả của chúng.

Chữ “r” trong từ February hoàn toàn không được phát âm. Bạn có thể nghe nó như là feb-you-air-ee. Choir:  Bạn có thể mong đợi phát âm âm “ch” ở đây, giống như trong từ  “chair” . Nhưng từ này thực sự được phát âm giống như /kwai- er/

Thiếu data specification , document bạn sẽ phải than trời!

Chuyện Data source đã vô cùng khó khăn như mình nói ở trên. Bây giờ có 1 vấn đề mệt mỏi hơn nữa là: Team không có document cho các bảng dữ liệu nào cả hoặc document không đủ, không đúng. Nếu như “cơn ác mộng” xử lý data sai format mất 1 ngày để sửa, thì “cơn bão” không có tài liệu định nghĩa, giải thích các trường dữ liệu nó đau đớn và kéo dài đến cả tháng trời để sửa chữa hoặc hơn.

Mình hay nói với mọi người rằng, document là tài sản, data không có document thì chỉ có người tạo ra nó hiểu và dùng được. Chứ người khác thì chỉ có dùng sai hoặc không dùng được thôi. Nếu bạn chỉ mất 3s để xem tên cột “customer_id” là hiểu ngay nghĩa là mã định danh khách hàng. Thì sẽ tốn 3 tiếng đồng hồ để tìm người owner của data này giải thích ý nghĩa các trường “extra_info_1”, “extra_info_2”, extra_info_3, … đôi khi chính họ cũng không nhớ nó là gì nữa.

Làm mọi thứ 1 mình, giá như sếp biết mình đã làm bài phân tích này “khoai” đến cỡ nào.

Có những lời đồn mà chúng ta hay nghe là:

Ban đầu nghe thì thấy nhẹ nhàng, nhưng phải làm, phải trải qua thì mới thấu những cô đơn, nội tâm, hoa mắt, mù màu vì ôm máy tính cả tuần, cả tháng!

Mọi người phải chuẩn bị tinh thần là bản thân sẽ làm rất nhiều để đưa ra được một cái báo cáo. Nhưng khách hàng, business họ chỉ quan tâm đến kết quả, quá trình bạn làm cực khổ ra sao thì ít ai nghĩ đến. Suy cho cùng cũng là vị business, nếu lỡ có làm sai, không tốt, không tạo ra giá trị thì dễ dàng bị đánh giá thấp. Đây là sự thật, nhiều khi đến cả sếp nếu chưa đủ hiểu còn khó cảm thông cho DA chứ đừng nói là người ở ngoài kia.

Vậy nên, việc xử lý chuẩn chỉnh data rất vất vả, và bạn cũng không hề cô đơn. Trên thới giới Data Analyst, ai ai cũng đều phải trải qua muôn vàn khó khăn đó. Data không bao giờ ngăn nắp gọn gàng như các mẫu trên kaggle hay của các trung tâm ngoài kia cho phép bạn dùng Power BI kéo thả, bằng các cú click chuột là xong đâu. Đôi khi bạn phải minh mẫn, đừng bị họ thao túng tâm lý mấy câu quảng cáo: Làm Data Analyst chỉ cần dùng tools kéo thả là được nhé!

Mình có lời khuyên dành cho bạn là: Đừng làm việc thui thủi 1 mình.

Nếu bạn bí ý tưởng, không tìm ra lỗi kĩ thuật thì hãy hỏi Google, hỏi Chat-GPT để nhanh chóng có được lời giải. Nếu bạn không biết mình nên làm sao, hãy chia sẻ với đồng nghiệp, tập cách than vãn với sếp một chút. Để mọi người chia sẻ kinh nghiệm, giúp bạn giải quyết vấn đề nhanh hơn. Đôi khi, điều này cũng giúp sếp hiểu bạn đang làm gì mà thấu cảm cho chúng ta. Đúng không!

Cám ơn bạn đã dành thời gian đọc hết bài viết này.

Follow Maz tại đây để cùng cập nhật thông báo mỗi khi có bài viết mới nhé:

** Mọi thông tin trên blog đều thuộc bản quyền của blog Maz Nguyen. Vui lòng đọc kĩ Copyright Notice trước khi copy hoặc đăng tải lại nội dung/hình ảnh của bài viết **

—————————————————————————————————–

Maz có một dự án dạy học ở đây: Maz Học Data với SQL là course đầu tiên, bạn có thể tham khảo qua nếu thấy cần thiết nhé.

Kiến thức chuyên ngành về sản phẩm, business khó học hơn rất nhiều so với việc học code SQL hay Python

Mình cứ nhớ mãi những ngày đầu khi làm DA, mình đã vô cùng vất vã. Không phải dành nhiều thời gian cho việc đọc data, làm sạch data hay là tính toán, vẽ biểu đồ mà mình bị 5 lần 7 lượt sửa lại báo cáo cho sếp. Mình cần phải thay đổi hướng tiếp cận & phân tích bài toán vì chưa hiểu rõ nghiệp vụ sản phẩm, không rành về những mục tiêu mà business đang quan tâm.

Ban đầu, mình cứ tưởng khi sếp bảo mình phân tích “Product Performance”. Thế là mình liệt kê vài chỉ số đánh giá hiệu quả sản phẩm dựa trên những kiến thức mà mình biết, như:

Sau đó mình đi lấy data, tính toán, phân tích và làm báo cáo mà không biết là bị thiếu rất nhiều tiêu chí khác: customer satisfaction rate, click through rate, user journey, … Trong đó cái mà sếp mình quan tâm nhất là trải nghiệm người dùng trên sản phẩm này có tốt không? Hoàn toàn không có phân tích khía cạnh này!

Mặc dù mình code rất đúng, vẽ chart rất đẹp nhưng kết quả của mình không mang lại giá trị cho business, không giúp giải quyết các vấn đề mà Product đang gặp phải. Mình cảm giấy vô giá trị. Chỉ vì một lý do là mình chưa đủ hiểu về sản phẩm. Mình nhận ra việc giỏi về domain knowledge không phải ngày 1, ngày 2 có thể đạt được mà cần nhiều thời gian. Nó không giống việc chúng ta học tool, cứ học nhiều sẽ quen tay. Không hiểu, không có mindset về business thì sẽ rất khó khăn để làm DA. Đó là sự thật!