در حقیقت تعریف استانداردی از نقش دانشمند داده وجود ندارد و به ندرت پیش میآید که سابقه کاری ایدهآل و مجموعه مهارتهای مورد نیاز این شغل در یک فرد یافت شود؛ اما ما قصد داریم بهترین تعریف ممکن را به شما ارائه دهیم.
قبل از اینکه به نقش دانشمند داده بپردازیم، بهتر است تاکید کنیم که اغلب اوقات این شغل با شغلهای دیگری همچون تحلیلگر داده، مهندس داده و … اشتباه گرفته میشود. اما توجه کنید که تمامی این مشاغل تفاوتهای بسیاری باهم دارند.
با وجود اینکه دانشمندان داده اغلب زمینههای آموزشی و تجربیات کاری متفاوتی دارند، اکثر آنها باید در چهار زمینه قوی باشند، یا در ایدهآلترین حالت، متخصص باشند. این چهار زمینه عبارتاند از: کسب و کار، ریاضیات (شامل آمار و احتمال)، علوم کامپیوتر (به عنوان مثال، معماری و مهندسی نرمافزار یا داده) و ارتباطات (کتبی و شفاهی).
اکثر دانشمندان در یک یا دو رکن قوی هستند و به ندرت پیش میآید در هر چهار رکن قوی باشند. بر اساس این ارکان، دانشمند داده شخصی است که باید بتواند از منابع داده موجود استفاده کند و در صورت لزوم منابع جدیدی را برای استخراج اطلاعات معنیدار و پیشنهادات سازنده ایجاد کند. از این پیشنهادات میتوان برای مدیریت تصمیمات و تغییرات کسب و کاری جهت دستیابی به اهداف سازندهی کسب و کار استفاده کرد.
این امر از طریق تخصص در حوزه کسب و کار، ارتباطات کارآمد، تفسیر نتایج و استفاده از همه تکنیکهای آماری مورد نیاز، زبانهای برنامهنویسی، بستههای نرمافزاری، زیرساخت دادهها و … انجام میشود.
مهندسان داده در زمینه دادهها در مقیاس بزرگ اهمیت بیشتری پیدا میکنند و میتوان آنها را نوعی معمار داده در نظر گرفت. آنها بر خلاف دانشمندان و تحلیلگران داده، کمتر به آمار، تجزیه و تحلیل و مدلسازی میپردازند و بیشتر به معماری دادهها، زیرساختهای محاسبات و ذخیره دادهها و جریان دادهها توجه دارند.
دادههایی که دانشمندان داده از آنها استفاده میکنند اغلب از منابع مختلفی تهیه میشوند و باید استخراج، انتقال، تبدیل، یکپارچهسازی و ذخیره شوند؛ به گونهای که برای تجزیه و تحلیل، هوش تجاری و مدلسازی آماده شوند.
بنابراین مهندسان داده مسئول معماری دادهها و تنظیم زیرساختهای مورد نیاز هستند. آنها نیاز به مهارت برنامهنویسی و همچنین مهارت در نوشتن و جستن اطلاعات دارند.
جنبه کلیدی دیگر این نقش طراحی پایگاه داده و انبارداری دادهها است. این بدان معنی است که آنها باید با بسیاری از فناوریهای موجود در پایگاه داده و سیستمهای مدیریتی، از جمله سیستمهای مرتبط با دادهها در مقیاس بزرگ به خوبی آشنا باشند.
مهندسان داده همچنین به طور معمول نیازهای زیرساختی مانند مقیاسپذیری، قابلیت اطمینان، دوام، در دسترس بودن، پشتیبانی و … را برطرف میکنند.