Duới đây là các thông tin và kiến thức về big data là gì hay nhất được tổng hợp bởi mvatoi.com.vn
Big Data là gì? Big Data là tập hợp dữ liệu lớn (cấu trúc và phi cấu trúc), đa dạng, thay đổi nhanh và phức tạp đến nỗi những công nghệ hay phần mềm truyền thống không có khả năng xử lý trong một khoảng thời gian nhất định.
Khối lượng chính xác của Big Data không phải vấn đề quan trọng (có thể là vài petabyte hoặc exabytes), điểm mấu chốt là nếu biết khai thác đúng hướng thì Big Data sẽ mang lại tiềm lực cạnh tranh lớn cho doanh nghiệp.
Để hiểu thêm Big Data là gì, ITviec đã trò chuyện cùng anh Đặng Hoàng Vũ – Chief Scientist của tập đoàn FPT và đã “khai thác” được rất nhiều thông tin hữu ích.
Xem thêm việc làm Big Data trên website ITviec
Big Data là gì?
Big Data là gì?
Theo anh Vũ, Big Data là dữ liệu lớn, thay đổi nhanh và phức tạp. Tuy nhiên, thật ra không có định nghĩa duy nhất cho Big Data là gì. Ví dụ, như IBM định nghĩa Big Data là 4V, bao gồm:
- Volume: Khối lượng dữ liệu
- Velocity: Tốc độ của dữ liệu
- Variety: Sự đa dạng của dữ liệu
- Veracity: Tính xác thực của dữ liệu
Thật ra, thuật ngữ Big Data cũng mang tính thời trang nữa. Nghĩa là thỉnh thoảng người ta vẫn áp tên gọi Big Data cho những dữ liệu ở quy mô bình thường, chứ không phải lúc nào cũng là dữ liệu quy mô lớn.
Anh Vũ khẳng định rằng Big Data hiện nay không chỉ là thực sự cần thiết mà đã là “xương sống” của hầu hết các công nghệ.
Ví dụ: mỗi một sản phẩm có mặt trên các website thương mại điện tử như Tiki, Lazada, Sendo… đều là Big Data.
Các công ty truyền thống cũng dùng Big Data để tối ưu hóa hoạt động kinh doanh, chăm sóc khách hàng, phục vụ cho công tác marketing…
Xem thêm: Những siêu năng lực mà Big Data đem đến cho doanh nghiệp
Những khó khăn khi làm việc với Big Data là gì?
Khi làm việc với Big Data, sẽ có những khó khăn lớn như sau:
- Chất lượng dữ liệu không đảm bảo
Trong quá trình làm việc với Big Data, anh Vũ chia sẻ rằng giai đoạn thu thập và xử lý dữ liệu là phần việc mất nhiều thời gian và công sức nhất. Lúc đó, anh phải làm việc với nhiều bộ phận khác nhau dẫn đến việc các nguồn dữ liệu không nhất quán và chất lượng dữ liệu không tốt.
- Kết quả triển khai không như ý
Với kinh nghiệm làm việc của mình, anh cho rằng sai lầm dễ mắc phải nhất chính là đánh giá và triển khai kết quả dựa trên dữ liệu đã thu thập và xử lý. Nhiều khi dân kỹ thuật thường đặt ra các tiêu chí theo lý thuyết hoặc theo các case study có sẵn nhưng nó lại không phù hợp với quy trình kinh doanh thực tế.
Trước đây anh đã từng làm việc với một khách hàng khá có tiếng trong lĩnh vực thương mại điện tử (anh không tiện nêu tên). Mục tiêu của họ là tăng số lượng sản phẩm bán được trên website.
Sau khi phân tích và đánh giá dựa trên dữ liệu thu thập được, cả team anh quyết định rằng sẽ để khách hàng xem được càng nhiều sản phẩm càng kích thích hành vi mua hàng.
Kết quả rằng, khách hàng ở lâu hơn trên website và xem nhiều sản phẩm hơn thật nhưng kết quả kinh doanh không có cải thiện. Nguyên nhân là vì họ cảm thấy bị “ngợp”, không biết quyết định như thế nào, thế là không mua nữa.
Rõ ràng, tuy đã hoàn thành được tiêu chí tự đề ra là kích thích hành vi xem sản phẩm nhưng không mang lại lợi ích thực tế nào cho doanh nghiệp.
Cũng theo anh, các công ty làm Big Data thực ra cũng không quan tâm lắm đến định nghĩa chính xác Big Data là gì. Họ chỉ quan tâm đến kết quả cuối cùng mà quá trình khai thác dữ liệu mang lại nên người làm việc với Big Data cần phải hiểu rõ mục đích cuối cùng là gì.
Nghề “làm” Big Data là gì? Là Data Scientist!
Công việc hằng ngày của một Data Scientist
Anh Vũ chia sẻ về những “bước” trong công việc hằng ngày của một Data Scientist:
- Phân tích bài toán cần giải, mục tiêu dự án, tiêu chí thành công…
- Thu thập và xử lý dữ liệu
- Xây dựng các mô hình, thuật toán để đưa ra kết quả
- Test, đánh giá kết quả
- Đưa vào triển khai
Ở bước triển khai, công ty sẽ dùng các kết quả, dự đoán, đề xuất… được rút ra từ dữ liệu để đưa vào các hoạt động kinh doanh, marketing như anh Vũ đã nhắc ở phần chia sẻ trên.
Những kỹ năng cần thiết để trở thành Data Scientist
Để trở thành một Data Scientist, có rất nhiều kỹ năng và công cụ bạn cần học:
- Kỹ năng đầu tiên mà bạn cần đương nhiên phải là lập trình. Bạn nên học ngôn ngữ lập trình Python
- Ngoài Python, còn có SQL, Spark, R hoặc các công cụ cấp cao hơn như là H2O, tableau
- Các công cụ của Data Scientist: Numpy, Pandas, Matplotlib, Scikit-learn
- Các công cụ Machine Learning: Tensorflow, Keras, Pytorch
- Hiểu biết nhất định về Big Data, về các framework như Hadoop hay Scala
- Thống kê cơ bản
Ngoài kỹ năng cứng về chuyên môn, bạn còn cần kỹ năng mềm nữa. Nghề này cần tư duy rõ ràng, mạch lạc và bạn phải biết cách làm việc với Data Engineer.
Data Engineer là người xử lý, chuẩn bị dữ liệu cho Data Scientist thực hiện quá trình phân tích. Khi làm việc cùng nhau, người này sẽ giúp một phần việc của người kia nhưng trách nhiệm cơ bản là như thế.
Có rất nhiều kỹ năng và kiến thức bạn cần trau dồi, tất nhiên khi bắt đầu có thể hơi khó khăn nhưng bạn có thể vừa làm vừa học.
Xem thêm: 20 tài liệu học lập trình Python
Cơ hội nghề nghiệp với Big Data
Anh Vũ nhận định rằng cơ hội nghề nghiệp dành cho những ai muốn làm việc với Big Data vô cùng rộng mở. So với nghề Developer nói chung thì tất nhiên là số việc làm liên quan đến Big Data sẽ ít hơn nhiều. Tuy nhiên, bởi vì ít, hiếm nên mức thu nhập khá ổn. Công việc cũng mang lại cái nhìn toàn diện hơn về hoạt động của sản phẩm mà bạn đang theo làm.
Xem ngay: Việc làm Data Scientist trên ITviec
Tại vị trí của mình, anh cũng tham gia tuyển dụng Data Scientist. Từ đó, anh Vũ chia sẻ một vài tiêu chí anh dựa trên để tuyển người vào làm việc chung:
- Khả năng code rõ ràng, mạch lạc.
- Biết cơ bản về Python. Nếu biết về Machine Learning, Database hoặc toán thống kê là một lợi thế lớn.
- Tinh thần tốt. Đặc biệt là không được cố chấp vì làm sai và được nhắc nhở là chuyện bình thường.
- Có khả năng giao tiếp, biết diễn đạt và lắng nghe người khác. Nên nhớ đây không phải vị trí làm việc một mình.
Những nguồn tài liệu tham khảo Big Data
- Designing Data-Intensive Applications: Cuốn sách được viết năm 2017 bởi Martin Kleppmann, vẽ nên bức tranh toàn cảnh về Big Data và tập trung vào các khía cạnh của hệ thống cơ sở dữ liệu phân tán.
- Big Data: Principles and best practices of scalable realtime data systems: Trả lời câu hỏi Big Data là gì và tấ cả những gì liên quan đến hệ thống, bao gồm các công cụ như Hadoop, Cassandra và Storm.
- Hadoop: The Definitive Guide: được viết bởi Tom White – một trong những thành viên của tổ chức phần mềm Apache uy tín. Cuốn sách là toàn bộ những điều cần biết + ví dụ cụ thể khi làm việc với Hadoop.
- High Performance Spark: Cuốn sách cần thiết cho những ai muốn học về Apache Spark với rất nhiều minh họa thực tế.
Ngoài ra, các khóa học Big Data online trên Coursera cũng đáng để cân nhắc.
Data Scientist trong ngành nói gì?
Anh Vũ chia sẻ về một nhận định sai lầm, một hiểu lầm, mà anh đã từng nghe trong quá trình làm việc với Big Data nói chung, làm Data Scientist nói riêng.
Có một số người tưởng Data Scientist là nhà khoa học hoặc làm Data Scientist cần nhiều toán nhưng mà không phải. Nếu bạn giỏi toán thì tốt nhưng code vẫn quan trọng hơn.
Data Scientist là người giải quyết các vấn đề cho doanh nghiệp bằng cách phân tích dữ liệu chứ không phải là nhà khoa học nghiên cứu cái mới.
Có thể vì chữ Scientist này mà nhiều người cho rằng đây là một ngành nghề đòi hỏi nhiều sự mạo hiểm, đánh đổi. Thật ra là không. Data Scientist không có gì mạo hiểm, chỉ cần trình độ tư duy khá và có tinh thần học hỏi là làm được.
Tiểu sử: Sau khi tốt nghiệp với bằng Tiến sĩ khoa Toán học, trường Đại học Cambridge, anh Vũ về làm Software Engineer cho tập đoàn HP (Hewlett-Packard) tại Anh. Tại đây, anh anh đã làm về Machine Learning, xử lý ảnh rồi nên về Việt Nam, anh cũng chọn làm các dự án Data Science cũng phù hợp.
Đến năm 2014, anh quay về Việt Nam và đầu quân cho FPT với vai trò Data Scientist. Hiện tại anh là Chief Scientist ở Ban công nghệ tập đoàn FPT.
Bạn có nghĩ những kiến thức về Big Data này thực sự mang lại ý nghĩa? Hay bài viết này có thể giúp ích cho các Developer khác? Chia sẻ ngay để giúp cộng đồng Developer cùng phát triển.
Và đừng quên tham khảo việc làm Big Data tại ITviec!
Top 8 big data là gì tổng hợp bởi Browserlinux.com
Big data là gì? Đặc điểm, ứng dụng & vai trò trong tương lai
- Tác giả: vtcnetviet.com
- Ngày đăng: 04/04/2023
- Đánh giá: 4.77 (229 vote)
- Tóm tắt: Vậy Big Data là gì, đặc điểm, ứng dụng và vai trò của nó như thế nào để giúp thương hiệu thu hút khách hàng. Cùng VTC NetViet tìm hiểu qua bài viết dưới đây.
- Khớp với kết quả tìm kiếm: Hệ thống máy tính hiện đại cung cấp tốc độ, sức mạnh và tính linh hoạt cần thiết để truy cập số lượng lớn và các loại dữ liệu nhanh chóng. Với khả năng truy cập đáng tin cậy, các công ty cần có các phương pháp tích hợp, xây dựng đường ống dẫn dữ …
Big Data là gì? Ứng dụng của Big Data
- Tác giả: insight.isb.edu.vn
- Ngày đăng: 11/26/2022
- Đánh giá: 4.43 (599 vote)
- Tóm tắt: Big Data là gì? … Big Data là các tập dữ liệu có khối lượng lớn và phức tạp. Độ lớn đến mức các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập, …
- Khớp với kết quả tìm kiếm: Ngày nay, 80% dữ liệu là dữ liệu không có cấu trúc và không thể được xử lý bởi các công nghệ truyền thống. Trước đó, một lượng dữ liệu được tạo ra không cao. Chúng ta tiếp tục lưu trữ dữ liệu vì chỉ cần phân tích lịch sử dữ liệu. Nhưng ngày nay việc …
Big Data là gì? Tất tần tật về Big Data
- Tác giả: topdev.vn
- Ngày đăng: 03/06/2023
- Đánh giá: 4.34 (205 vote)
- Tóm tắt: Big Data là gì? … Big Data là các tập dữ liệu có khối lượng lớn và phức tạp. Độ lớn đến mức các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập, …
- Khớp với kết quả tìm kiếm: Big data và phân tích có thể được áp dụng trong nhiều vấn đề kinh doanh và nhiều trường hợp sử dụng khác nhau. Dữ liệu lớn (Big Data) trên thực tế đang được ứng dụng vào rất nhiều lĩnh vực của nền kinh tế, tạo những chuyển biến ấn tượng, giúp tăng …
Big data là gì? Đâu là ứng dụng của dữ liệu lớn cho nhà quản lý?
- Tác giả: som.edu.vn
- Ngày đăng: 10/16/2022
- Đánh giá: 3.99 (380 vote)
- Tóm tắt: Big Data hay dữ liệu lớn là thuật ngữ thông dụng để mô tả về các tập dữ liệu khổng lồ, không thể quản trị, xử lý theo cách truyền thống mà cần …
- Khớp với kết quả tìm kiếm: Big data hay dữ liệu lớn là xu thế không thể nghịch chuyển khi bước vào kỷ nguyên số hóa toàn cầu. Vậy đâu là ứng dụng của việc phân tích dữ liệu lớn trong từng lĩnh vực và nhà quản lý cần nắm vững những gì để biến Big Data thành động lực tăng …
Big Data là gì? 8 điều bạn cần biết về Big Data 2023
- Tác giả: toponseek.com
- Ngày đăng: 12/07/2022
- Đánh giá: 3.98 (211 vote)
- Tóm tắt: Big Data được hiểu là các tập dữ liệu có khối lượng dữ liệu lớn và phức tạp, khối lượng dữ liệu đó ngày càng tăng. Nó phức tạp đến mức phần mềm …
- Khớp với kết quả tìm kiếm: Big data hay dữ liệu lớn là xu thế không thể nghịch chuyển khi bước vào kỷ nguyên số hóa toàn cầu. Vậy đâu là ứng dụng của việc phân tích dữ liệu lớn trong từng lĩnh vực và nhà quản lý cần nắm vững những gì để biến Big Data thành động lực tăng …
Big data là gì? Mối liên hệ giữa big data và data analytics.
- Tác giả: viblo.asia
- Ngày đăng: 01/07/2023
- Đánh giá: 3.76 (354 vote)
- Tóm tắt: Big data là một thuật ngữ mô tả khối lượng dữ liệu lớn, rất khó quản lý (có cấu trúc, không cấu trúc và bán cấu trúc). Big data có thể được phân tích để tìm …
- Khớp với kết quả tìm kiếm: Khi nói đến chăm sóc sức khỏe, mọi thứ cần được thực hiện nhanh chóng, chính xác và trong một số trường hợp, cần có đủ tính minh bạch để đáp ứng các quy định nghiêm ngặt của ngành. Khi big data được quản lý hiệu quả, các nhà cung cấp dịch vụ chăm …
Big Data Là Gì? A – Z Về Big Data
- Tác giả: glints.com
- Ngày đăng: 02/23/2023
- Đánh giá: 3.58 (303 vote)
- Tóm tắt: Vậy chính xác big data là gì? Big data (Dữ liệu lớn) được định nghĩa là dữ liệu đa dạng hơn, đạt tốc độ nhanh hơn và có khối lượng lớn hơn.
- Khớp với kết quả tìm kiếm: Khoản đầu tư của bạn vào big data sẽ được hồi đáp nếu bạn thực hiện phân tích và hành động dựa trên dữ liệu của mình. Hành vi này giúp bạn có góc nhìn rõ ràng với phân tích trực quan về các tập dữ liệu của bạn. Khám phá thêm dữ liệu để tạo nên những …
Big Data là gì? Đặc điểm, vai trò và ứng dụng Big Data hiện nay
- Tác giả: vieclam.thegioididong.com
- Ngày đăng: 01/16/2023
- Đánh giá: 3.27 (250 vote)
- Tóm tắt: Big Data hay “dữ liệu lớn” là thuật ngữ chỉ về các tập dữ liệu khổng lồ và phức tạp, đến mức khó có thể xử lý được bằng các phương pháp truyền …
- Khớp với kết quả tìm kiếm: Năm 2005, nhiều doanh nghiệp đã bắt đầu nhận ra số lượng người dùng được tạo ra thông qua Youtube, Facebook và các dịch vụ trực tuyến khác là rất lớn. Cùng năm đó, Hadoop (một framework open source được tạo riêng với nhiệm vụ lưu trữ và phân tích …