مروری بر مباحث و فناوری‌های تازه‌ علم داده در سال 2020

علم داده به زبان آدمیزاد:

برای مخاطبان ناآشنا به این حوزه، برای شروع لازمه بگیم میخواهیم درباره چی حرف بزنیم، و بنابراین لازمه دو موضوع رو خیلی خلاصه و سر راست تعریف کنیم. «علم داده» و «دانشمند داده»

استنتون در سال ۲۰۱۳ علم داده را این‌طور تعریف می‌کند:

علم داده رشته در حال ظهوری است که به جمع‌آوری، آماده‌سازی، تحلیل، بصری‌سازی، مدیریت و نگهداشت اطلاعات در حجم بالا می‌پردازد.

حالا بریم سراغ مقاله 2012 از مجله معتبر Harvard Business Review با عنوان «دانشمند داده: سکسی‌ترین شغل قرن بیست و یکم» (دانلود فایل Pdf این مقاله) و ببینیم اونا متخصصین علم داده را چه جوری تعریف می‌کنند:

کسانی که می‌دانند چگونه می‌توان از انبوه اطلاعات بدون ساختار پاسخ سوالهای کسب‌وکار را پیدا کرد.

دریسکول در سال ۲۰۱۴ این دو موضوع رو این‌طور تعریف می‌کند:

علم داده مهندسی عمران داده‌هاست.
متخصص علم داده دانشی کاربردی از داده‌ها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص می‌کند چه چیزی از نظر علمی ممکن است.

همچنین بهتره برای آشنایی بیشتر با این شغل و بازار کارش میتونید به سایت ایران تلنت یا سایتهای خارجی رجوع کنید. برای مثال این لینکها: 1 و 2. همونطور که می‌بینید فعلا در ایران شاید موسسات مالی بیشترین فرصتهای شغلی رو برای این متخصصان دارند. مطالعه این نوشته هم میتونه باعث وسعت دیدتون درباره بازار کار این رشته بشه.

حالا وقتشه بریم سراغ اصل مطلب.

NLP NLP NLP

تا همین اواخر (بگذارید بگوییم ابتدای سال 2020)، تمرکز زیادی بر روی پردازش تصویر و ویدئو و Computer Vision بود. اما سال قبل همه چیز تغییر کرد و سال 2020 سال خوبی برای پردازش زبان طبیعی (NLP) بود. شرکتهایی مانند Hugging Face ، spaCy ، Rasa قدرتمندتر و از آموزش بیشتری برخوردار شدند که در نهایت باعث ایجاد یک انقلاب بزرگ NLP شد (حتی در سطح صنعت که معمولاً بسیار سخت است).

شرکتهای Rasa و Hugging Face به ترتیب 26 میلیون دلار و 15 میلیون دلار سرمایه جذب کردند (منبع 1 و 2)
چند لینک مفید:

Language-Agnostic Models
Constantly updating Hugging Face `transformers library
Rasa NLP for Developers by Rachael Tatman
Rasa Algorithm Whiteboard by Vincent D. Warmerdam

ساخت وب اپلیکیشن برای علم داده، هوش مصنوعی، یادگیری ماشینی

دانشمندان داده توسعه دهندگان وب بدی هستند، اما اگر بخواهیم برنامه‌های وب را بسازیم که بتوانند صحبت کنند یا آموزش ماشین را انجام دهند، چه می‌کنیم؟ برای همین است که این حوزه روز به روز محبوبتر می‌شود.

چند لینک مفید:

GPT-3

اگر چیزی از جامعه یادگیری ماشین وجود داشته باشد که بسیاری از روزنامه نگاران را خوشحال کند، آن GPT-3 است. GPT-3 تقریباً همیشه در راس اخبار بود (احتمالاً هنوز هم هست). به قول خودشان:

در ماه مه ، ما GPT-3 – قدرتمندترین مدل زبانی تاکنون – را معرفی کردیم و اندکی پس از آن اولین محصول تجاری خود، یک API جهت دسترسی ایمن به مدل های هوش مصنوعی با استفاده از دستورالعمل های ساده و به زبان طبیعی، را به بازار عرضه کردیم. ما به این موفقیت و پیشرفتهای تحقیقاتی دیگر تیممان افتخار می کنیم …

چند لینک مفید:

یادگیری ماشین خودکار (َAuto ML)

شاید باورش برایتان سخت باشد، اما باید بدانید دانشمندان داده بیشتر وقتشان را صرف موارد مهمی مانند پاکسازی داده (Data Cleaning) ? و Feature Engineering می‌کنند و زمان کمتری را برای انتخاب / ساختن بهترین مدل صرف کنند. این اساساً پیش فرض یادگیری ماشین خودکار است.

چند لینک مفید:

عملیات یادگیری ماشینی (MLOps)

نهایتا ساخت مدلها بر روی Jupyter Notebooks آسان است. همه ما می دانیم که فقط چند خط کد طول می کشد و `model.fit ()` شما آماده است. اما بعدش چه؟ ML Ops، ابزارها و تکنیک های جدیدی برای کاربردی کردن این مدلها در تولید محصولات و خدمات شرکت ارائه می‌کند تا این افسانه علم داده را از بین ببرد که اکثر مدل‌ها نهایتا در ارائه‌های پاورپوینتی یا Jupyter Notebook می میرند!

چند لینک مفید:

سایر مباحث و فناوری‌ها مهم

FastAI (Pytorch Library)
Interpretable Machine Learning (fancily known as eXplainable AI)
GANs
First-Order Motion
On-Device ML (tensorflow.js / coreML)

به طور کلی، سال 2020 یک سال شگفت انگیز برای علم داده و یادگیری ماشین بود.

منابع: + و ++

مروری بر فناوری‌های تازه‌ علم داده در سال 2020

جهت مشاهده تصویر بزرگ، روی تصویر بالا کلیک کنید.

نویسنده: ابوالفضل آهنی

یادگیری

علم داده‌ها گلچین آخر سال هوش مصنوعی

۱۶ دی ۱۳۹۹

علم داده به زبان آدمیزاد:

NLP NLP NLP

ساخت وب اپلیکیشن برای علم داده، هوش مصنوعی، یادگیری ماشینی

GPT-3

یادگیری ماشین خودکار (َAuto ML)

عملیات یادگیری ماشینی (MLOps)

سایر مباحث و فناوری‌ها مهم

دیدگاه‌ خود را بنویسید لغو پاسخ