どのプログラミング言語が最も優れているかという議論は、ソフトウェア開発者にとってはお気に入りの気晴らしだ。しかしここで気をつけないといけないのはもちろん、何を基準として「優れている」と判断するのかだ。
データサイエンスや機械学習(ML)というコンテキストにおいて、ソフトウェア開発の定義が変わりつつあるなか、この永遠の疑問は新たな観点をもたらしつつある。本記事では、いくつかの選択肢を挙げ、その長所と短所を説明するとともに、該当分野の専門家の意見を紹介する。
言語の選択は詰まるところ、少なくともある程度は主観的なものになる。とはいえ、いくつかの基準は存在するはずだ。使いやすさや構文の平易さに関する判断は主観的になるかもしれないが、コミュニティーのサポートや、利用可能なライブラリ、速度、型の安全性といった点に関する判断は客観的なものとなる。ただ、いくつかの微妙なニュアンスが含まれている。
実行速度と型の安全性
MLのアプリケーションでは、訓練段階とアルゴリズムの運用(すなわち推論)段階が明確に分かれている。このため、訓練段階である言語を用いた後、運用段階で異なる言語を用いるというアプローチが採られる場合もある。
データサイエンスや機械学習という用途でプログラミング言語を選択する際には、特に考慮すべき点がいくつかある。
提供:Getty Images/iStockphoto
その理由として、開発時において開発者はより親しみのある言語や使いやすい言語を選択する、あるいは最高の環境でライブラリサポートが充実した言語を選択するという点が挙げられる。その後、訓練の終わったアルゴリズムは、組織に適した運用環境で動作するよう移植されるというわけだ。
こういったアプローチは、特に予測モデルマークアップ言語(PMML)といった標準言語を用いている場合には有効だが、運用面を考慮すると複雑さを招く可能性がある。また、ものごとをそう単純化できない場合も多い。というのも、ある言語でプログラミングを完了した場合、移植段階では他の言語向けのライブラリを呼び出すことになるため、実行速度という面で不利益を被る可能性が生み出される。
さらに、型の安全性についても述べておく必要がある。プログラミング言語における型の安全性とは、データベースにおけるスキーマのようなものだ。なければ柔軟性が高まる一方、誤りが作り込まれる可能性も高くなる。
GartnerでMLチームのリーダーを務めるAndriy Burkov氏は、LinkedInにおける自らのフィードで、ML分野でPythonのような動的型付け言語を用いることについて異論を唱えた。
「型変換の誤りや、メソッド呼び出し時のパラメータ数の誤りによるコードのクラッシュが、数時間、あるいは数日にもわたるテストの後に発覚する場合もある」(Burkov氏)
Java
Javaは、企業において大規模なフットプリントを誇っているにもかかわらず、最近ではかつてほどの勢いがなくなってきている。その原因として、Javaは新たなプログラミング言語が台頭してくるなかで「クール」とは見なされなくなりつつあるという点が挙げられる。しかし、真の懸念もある。