علم داده به زبان آدمیزاد:
برای مخاطبان ناآشنا به این حوزه، برای شروع لازمه بگیم میخواهیم درباره چی حرف بزنیم، و بنابراین لازمه دو موضوع رو خیلی خلاصه و سر راست تعریف کنیم. «علم داده» و «دانشمند داده»
استنتون در سال ۲۰۱۳ علم داده را اینطور تعریف میکند:
علم داده رشته در حال ظهوری است که به جمعآوری، آمادهسازی، تحلیل، بصریسازی، مدیریت و نگهداشت اطلاعات در حجم بالا میپردازد.
حالا بریم سراغ مقاله ۲۰۱۲ از مجله معتبر Harvard Business Review با عنوان «دانشمند داده: سکسیترین شغل قرن بیست و یکم» (دانلود فایل Pdf این مقاله) و ببینیم اونا متخصصین علم داده را چه جوری تعریف میکنند:
کسانی که میدانند چگونه میتوان از انبوه اطلاعات بدون ساختار پاسخ سوالهای کسبوکار را پیدا کرد.
دریسکول در سال ۲۰۱۴ این دو موضوع رو اینطور تعریف میکند:
علم داده مهندسی عمران دادههاست.
متخصص علم داده دانشی کاربردی از دادهها و ابزارها دارد به علاوه درک تئوریکی دارد که مشخص میکند چه چیزی از نظر علمی ممکن است.
همچنین بهتره برای آشنایی بیشتر با این شغل و بازار کارش میتونید به سایت ایران تلنت یا سایتهای خارجی رجوع کنید. برای مثال این لینکها: ۱ و ۲. همونطور که میبینید فعلا در ایران شاید موسسات مالی بیشترین فرصتهای شغلی رو برای این متخصصان دارند. مطالعه این نوشته هم میتونه باعث وسعت دیدتون درباره بازار کار این رشته بشه.
حالا وقتشه بریم سراغ اصل مطلب.
NLP NLP NLP
تا همین اواخر (بگذارید بگوییم ابتدای سال ۲۰۲۰)، تمرکز زیادی بر روی پردازش تصویر و ویدئو و Computer Vision بود. اما سال قبل همه چیز تغییر کرد و سال ۲۰۲۰ سال خوبی برای پردازش زبان طبیعی (NLP) بود. شرکتهایی مانند Hugging Face ، spaCy ، Rasa قدرتمندتر و از آموزش بیشتری برخوردار شدند که در نهایت باعث ایجاد یک انقلاب بزرگ NLP شد (حتی در سطح صنعت که معمولاً بسیار سخت است).
شرکتهای Rasa و Hugging Face به ترتیب ۲۶ میلیون دلار و ۱۵ میلیون دلار سرمایه جذب کردند (منبع ۱ و ۲)
چند لینک مفید:
- Language-Agnostic Models
- Constantly updating Hugging Face `transformers library
- Rasa NLP for Developers by Rachael Tatman
- Rasa Algorithm Whiteboard by Vincent D. Warmerdam
ساخت وب اپلیکیشن برای علم داده، هوش مصنوعی، یادگیری ماشینی
دانشمندان داده توسعه دهندگان وب بدی هستند، اما اگر بخواهیم برنامههای وب را بسازیم که بتوانند صحبت کنند یا آموزش ماشین را انجام دهند، چه میکنیم؟ برای همین است که این حوزه روز به روز محبوبتر میشود.
چند لینک مفید:
GPT-3
اگر چیزی از جامعه یادگیری ماشین وجود داشته باشد که بسیاری از روزنامه نگاران را خوشحال کند، آن GPT-3 است. GPT-3 تقریباً همیشه در راس اخبار بود (احتمالاً هنوز هم هست). به قول خودشان:
در ماه مه ، ما GPT-3 – قدرتمندترین مدل زبانی تاکنون – را معرفی کردیم و اندکی پس از آن اولین محصول تجاری خود، یک API جهت دسترسی ایمن به مدل های هوش مصنوعی با استفاده از دستورالعمل های ساده و به زبان طبیعی، را به بازار عرضه کردیم. ما به این موفقیت و پیشرفتهای تحقیقاتی دیگر تیممان افتخار می کنیم …
چند لینک مفید:
یادگیری ماشین خودکار (َAuto ML)
شاید باورش برایتان سخت باشد، اما باید بدانید دانشمندان داده بیشتر وقتشان را صرف موارد مهمی مانند پاکسازی داده (Data Cleaning) 😝 و Feature Engineering میکنند و زمان کمتری را برای انتخاب / ساختن بهترین مدل صرف کنند. این اساساً پیش فرض یادگیری ماشین خودکار است.
چند لینک مفید:
- Using AutoML for Time Series Forecasting
- h2o AutoML
- AutoGluon from Amazon
- Auto Sklearn
- <rumours are that Hugging Face is working on an AutoNLP library>
عملیات یادگیری ماشینی (MLOps)
نهایتا ساخت مدلها بر روی Jupyter Notebooks آسان است. همه ما می دانیم که فقط چند خط کد طول می کشد و `model.fit ()` شما آماده است. اما بعدش چه؟ ML Ops، ابزارها و تکنیک های جدیدی برای کاربردی کردن این مدلها در تولید محصولات و خدمات شرکت ارائه میکند تا این افسانه علم داده را از بین ببرد که اکثر مدلها نهایتا در ارائههای پاورپوینتی یا Jupyter Notebook می میرند!
چند لینک مفید:
سایر مباحث و فناوریها مهم
- FastAI (Pytorch Library)
- Interpretable Machine Learning (fancily known as eXplainable AI)
- GANs
- First-Order Motion
- On-Device ML (tensorflow.js / coreML)
به طور کلی، سال ۲۰۲۰ یک سال شگفت انگیز برای علم داده و یادگیری ماشین بود.