داده کاوی چیست؟
بیایید قبل از توضیح در مورد داده کاوی با پایتون، در مورد مفهوم پردازش داده صحبت کنیم. از زمانی که اینترنت به وجود آمد، با ارتباطاتی که میسر شد، داده های بسیاری به صورت مستقیم و غیر مستقیم در حال رد و بدل شدن بین افراد و سازمان ها است.
قبل از آن اینترنت داده ها بسیار پایینی بود و تصمیم گیری بر اساس آن ممکن نبود و اساسا کار اشتباهی بود. اما بعد از آن که حجم عظیمی از داده ها پدیدار شد، تحلیل داده یکی از مبنا های تصمیم گیری بلند مدت برای سازمان ها شد.
مثال های مختلفی از پردازش داده های بزرگ یا همان big data میتوان در دنیای امروز پیدا کرد. به عنوان مثال زمانی که در شبکه های اجتماعی اینستاگرام فعالیت میکنید، پس از مدتی متوجه میشوید که این شبکه های اجتماعی پست های نامربوط کمتری به شما نشان میدهند.
آیا نمایش پست هایی که در زمینه علاقه شماست چیز اتفاقی است؟ خیر. اینستاگرام نیز مانند بسیاری دیگر از پلتفرم ها با پردازش داده ها به تشخیص علاقه ی شما پرداخته و جالبتر آنکه هرچه بیشتر در این شبکه ها فعالیت کنید، آنها بیشتر شما را خواهند شناخت.
پس میتوان گفت داده کاوی پردازش داده ها برای رسیدن به هدفی خاص است. این هدف در اینستاگرام توجه به علایق کاربر است در گوگل میتواند نشان دادن نتایج بهتر باشد در اوبر میتواند نمایش نزدیکترین تاکسی باشد و…
داده کاوی با پایتون
پایتون که یکی از محبوب ترین زبان های برنامه نویسی است تقریبا در همه ی زمینه های برنامه نویسی وارد شده است، از طراحی وبسایت گرفته تا تولید بازی و برنامه های موبایل و رایانه. یکی از کاربردهای زبان برنامه نویسی پایتون که در آن بسیار قوی نیز هست پردازش داده های بزرگ است.
کتابخانه های کاربردی پایتون
numpy
پایتون با داشتن کتابخانه های بسیار کارآمد مانند numpy که یک کتابخانه تولد ماتریس n است به خوبی میتواند با تولید ماتریس ها داده های مختلف را ذخیره و پردازش کنید. این کتابخانه میتواند به برنامه نویسان امکانات مختلفی برای داده کاوی با پایتون بدهد.
pandas
کتابخانه دیگر در این زمینه، کتابخانه pandas است که با ساختارهای داده سریع برای پردازش داده های بزرگ در دنیای واقعی بسیار مناسب است. مخصوصا در دنیای امروز که تولید و انتقال داده ها بالا است این کتابخانه میتواند برای مواردی که نیاز به پردازش سریع دارند مناسب باشد.
Matplotlib
این کتابخانه همانطور که از نامش پیداست برای نمایش داده و به پلات کردن کاربرد دارد و برای نمایش رابط های گرافیکی بسیار مناسب است که امکان تعامل بهتر کاربر با داده های پیچیده را میدهد. مثلا نمودارهای بورس اگر با عدد نمایش داده شوند بسیار نامفهوم خواهند بود.
Scrapy
یک کتابخانه ی خزنده است که میتواند با ورود به صفحات مختلف وب اطلاعات مختلفی را اتخاذ کرده و سپس برای پردازش آنها را آماده کند. کاری که بسیار از موتورهای جستجو به آن وابسته هستند. کتابخانه ای که در زبان های دیگر با این قدرت وجود ندارد.
BeautifulSoup
این کتابخانه نیز مانند Scrapy یک خزنده است که میتواند صفحاتی که csv یا api ندارند را وارسی کرده و اطلاعات مورد نیاز را طبق دستور واکشی کند.
Keras
یکی از روش های پیاده سازی شبکه های عصبی در پایتون این کتابخانه است که با راحتی امکانات بسیار زیادی را در اختیار برنامه نویسان قرار میدهد.