Python
次に紹介するプログラミング言語はPythonである。情シス側がマーケティング部門の裏方として各種データを加工し処理を実装する際、Pythonが使えればデータ加工から視覚化まで分析業務に必要な各種処理にほぼ対応可能である。筆者おすすめのプログラミング言語でもある。
Python数値計算、機械学習、自然言語処理などのライブラリサンプルコードが充実しており、最新のアルゴリズムもPythonから利用するためのライブラリが早い段階で提供されることが多い。Pythonは現在メジャーバージョンの移行期であり、2系と3系でそれぞれ仕様が一部異なる。安定性を求めるならまだ2系を選択すべきだが、分析業務に使用するライブラリが全て3系に対応していれば、最初から3系を選択するのもよい。
Pythonで分析の際に役立つライブラリを紹介しよう。まずは数値計算について。次の表に示したライブラリを用いることで、Pythonデフォルトよりも高速かつ楽に各種データを扱える。
ライブラリ名 | 詳細 |
---|---|
NumPy | ベクトル・行列演算のための数値計算ライブラリ |
SciPy | 線形代数演算、統計と乱数、補間、信号解析など科学計算を行うためのライブラリ |
Pandas | 統計計算のための各種処理や行列データ構造を扱うライブラリ。裏側でNumPyやSciPyを利用しているので、高速かつデータの取扱が楽。Rにおけるデータフレームによる処理と近い感覚で取り扱える |
また、回帰、分類、クラスタリングなどの際に便利な「scikit-learn」と呼ばれるライブラリがある。Rで紹介した回帰、分類、クラスタリングは基本的にこのライブラリ一つで実現可能だ。一度このライブラリの使い方を覚えてしまえば、他の類似手法も容易に試せるので、扱いに慣れておくとよいだろう。