مروری بر مباحث و فناوری‌های تازه‌ علم داده در سال ۲۰۲۰

علم داده به زبان آدمیزاد:

برای مخاطبان ناآشنا به این حوزه، برای شروع لازمه بگیم میخواهیم درباره چی حرف بزنیم، و بنابراین لازمه دو موضوع رو خیلی خلاصه و سر راست تعریف کنیم. «علم داده» و «دانشمند داده»

استنتون در سال ۲۰۱۳ علم داده را این‌طور تعریف می‌کند:

علم داده رشته در حال ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد.

حالا بریم سراغ مقاله ۲۰۱۲ از مجله معتبر Harvard Business Review با عنوان «دانشمند داده: سکسی‌ترین شغل قرن بیست و یکم» (دانلود فایل Pdf این مقاله) و ببینیم اونا متخصصین علم داده را چه جوری تعریف می‌کنند:

کسانی که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار پاسخ سوالهای کسب‌وکار را پیدا کرد.

دریسکول در سال ۲۰۱۴ این دو موضوع رو این‌طور تعریف می‌کند:

علم داده مهندسی عمران داده‌هاست.

متخصص علم داده دانشی کاربردی از داده‌ها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.

همچنین بهتره برای آشنایی بیشتر با این شغل و بازار کارش میتونید به سایت ایران تلنت یا سایتهای خارجی رجوع کنید. برای مثال این لینکها: ۱ و ۲. همونطور که می‌بینید فعلا در ایران شاید موسسات مالی بیشترین فرصتهای شغلی رو برای این متخصصان دارند. مطالعه این نوشته هم میتونه باعث وسعت دیدتون درباره بازار کار این رشته بشه.

حالا وقتشه بریم سراغ اصل مطلب.

NLP NLP NLP

تا همین اواخر (بگذارید بگوییم ابتدای سال ۲۰۲۰)، تمرکز زیادی بر روی پردازش تصویر و ویدئو و Computer Vision بود. اما سال قبل همه چیز تغییر کرد و سال ۲۰۲۰ سال خوبی برای پردازش زبان طبیعی (NLP) بود. شرکتهایی مانند Hugging Face ، spaCy ، Rasa قدرتمندتر و از آموزش بیشتری برخوردار شدند که در نهایت باعث ایجاد یک انقلاب بزرگ NLP شد (حتی در سطح صنعت که معمولاً بسیار سخت است).

شرکتهای Rasa و Hugging Face به ترتیب ۲۶ میلیون دلار و ۱۵ میلیون دلار سرمایه جذب کردند (منبع ۱ و ۲)
چند لینک مفید:

ساخت وب اپلیکیشن برای علم داده، هوش مصنوعی، یادگیری ماشینی

دانشمندان داده توسعه دهندگان وب بدی هستند، اما اگر بخواهیم برنامه‌های وب را بسازیم که بتوانند صحبت کنند یا آموزش ماشین را انجام دهند، چه می‌کنیم؟ برای همین است که این حوزه روز به روز محبوبتر می‌شود.

چند لینک مفید:

GPT-3

اگر چیزی از جامعه یادگیری ماشین وجود داشته باشد که بسیاری از روزنامه نگاران را خوشحال کند، آن GPT-3 است. GPT-3 تقریباً همیشه در راس اخبار بود (احتمالاً هنوز هم هست). به قول خودشان:

در ماه مه ، ما GPT-3 – قدرتمندترین مدل زبانی تاکنون – را معرفی کردیم و اندکی پس از آن اولین محصول تجاری خود، یک API جهت دسترسی ایمن به مدل های هوش مصنوعی با استفاده از دستورالعمل های ساده و به زبان طبیعی، را به بازار عرضه کردیم. ما به این موفقیت و پیشرفتهای تحقیقاتی دیگر تیممان افتخار می کنیم …

چند لینک مفید:

یادگیری ماشین خودکار (َAuto ML)

شاید باورش برایتان سخت باشد، اما باید بدانید دانشمندان داده بیشتر وقتشان را صرف موارد مهمی مانند پاکسازی داده (Data Cleaning) 😝 و Feature Engineering می‌کنند و زمان کمتری را برای انتخاب / ساختن بهترین مدل صرف کنند. این اساساً پیش فرض یادگیری ماشین خودکار است.

چند لینک مفید:

عملیات یادگیری ماشینی (MLOps)

نهایتا ساخت مدلها بر روی Jupyter Notebooks آسان است. همه ما می دانیم که فقط چند خط کد طول می کشد و `model.fit ()` شما آماده است. اما بعدش چه؟ ML Ops، ابزارها و تکنیک های جدیدی برای کاربردی کردن این مدلها در تولید محصولات و خدمات شرکت  ارائه می‌کند تا این افسانه علم داده را از بین ببرد که اکثر مدل‌ها نهایتا در ارائه‌های پاورپوینتی یا Jupyter Notebook می میرند!

چند لینک مفید:

سایر مباحث و فناوری‌ها مهم


به طور کلی، سال ۲۰۲۰ یک سال شگفت انگیز برای علم داده و یادگیری ماشین بود.


منابع: + و ++

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.