データを扱うすべての人へ!「データサイエンティスト検定」を取得するには

こんにちは!
メンバーズデータアドベンチャーカンパニー所属の石原 寛太(いしはら かんた)と、小角 真希(こすみ まさき)です。
昨今、私たちエンジニアを含む社会人には、世の中で活躍するためには何らかの実践的な付加価値が必要であると言われています。その付加価値の一つに「データを見て分析・判断する」という能力があります。
この記事ではその指標を測るデータサイエンティスト検定について書いていきます。

データサイエンティスト検定とは?

データサイエンティスト検定リテラシーレベル(以下DS検定)とは、データサイエンティストを目指す人には馴染みの深い、「スキルチェックリスト」で有名な一般社団法人データサイエンティスト協会が2021年9月に第一回を開催したばかりの非常に新しい資格です。

では、DS検定とはどんな試験なのか。

それにはまず、データサイエンティスト協会が定義している、「データサイエンティストに求められるスキルセット」を理解しておくことをおすすめします。
データサイエンティスト協会では、以下の3つをデータサイエンティストに求められるスキルとして定義しています。

  1. ビジネス 力(business problem solving):課題背景を理解した上で、ビジネス
    課題を整理し、解決する力
  2. データサイエンス 力(data science):情報処理、人工知能、統計学などの情報
    科学系の知恵を理解し、使う力
  3. データエンジニアリング 力(data engineering):データサイエンスを意味のある
    形に使えるようにし、実装、運用できるようにする力

引用: データサイエンティスト協会、データサイエンティストの ミッション、スキルセット、定義、スキルレベルを発表
http://www.datascientist.or.jp/wp/news/2014/pdf/1210.pdf(2014年12月10日)

なかなか大まかな定義でイメージがつきづらいですよね。

では、DS検定に合格する人には、具体的に上記のスキルセットにおいてどの程度の知識を求められているかというと、データサイエンティスト協会が発表している【データサイエンティストのスキルレベル】の「アシスタント・データサイエンティスト」レベルの知識を求められています。

参考: 「データサイエンティスト スキルチェックリスト ver.3」および 「2019 年度版 データサイエンス領域タスクリスト」を発表
https://www.datascientist.or.jp/common/docs/PR_skillcheck_ver3.00.pdf (2019年10月30日)

また、上記に加え、数理・データサイエンス教育強化拠点コンソーシアムが公開している、「数理・データサイエンス・AI(リテラシーレベル)」に準ずる知識を持ち合わせていることが求められます。

参考: 数理・データサイエンス・AI (リテラシーレベル) モデルカリキュラム ~ データ思考の涵養 ~
http://www.mi.u-tokyo.ac.jp/consortium/pdf/model_literacy.pdf(2020年4月)

DS検定はリテラシーレベルとありますが、幅広い知識を求められており、合格することでデータサイエンティストとしての実務能力と知識を有することが証明できる検定となっています。

どんな人におすすめ?

データサイエンティスト協会の定義では

  • データサイエンティスト初学者
  • これからデータサイエンティストを目指すビジネスパーソン
  • データサイエンティストに興味を持つ大学生や専門学校生など

となっていますが、
デジタルリテラシー協議会では、「デジタルを使う人材」であるために、全てのビジネスパーソンが、共通して身につけるべきデジタルリテラシー範囲(Di-Lite)として、
すべてのビジネスパーソンに「ITパスポート試験」「G 検定」そして「データサイエンティスト検定」の資格を取得することを推奨しています。

参考: Di-Liteとは
https://www.dilite.jp/#sect07

言い換えると、Society5.0といったAI・ビッグデータの活用が大きな役割をもつ今後の社会では、すべてのビジネスパーソンに必須の資格となると言ってもいいのではないでしょうか。

データサイエンス検定の内容を一部紹介

確率分布の種類

まずはデータサイエンス力の項目から確率分布の種類についてご紹介します!(筆者が特に困難だったところを紹介しています)

確率分布の種類には大きく分けて離散型分布と、連続型分布の二種類があります。
まず離散型確率分布とは、サイコロの目や1日のメールの件数のように、有限個または無限個であったとしても自然数と対応づけられる離散型の確率変数が従う自然数しかとらないような確率分布を言います。
そして、連続型確率分布とは、確率変数が実数値を取る場合の確率分布を言います。

さらに離散型確率分布と連続型確率分布は以下の画像のようにポアソン分布、二項分布、ベルヌーイ分布、指数分布、カイ二乗分布、正規分布の六つの項目に分類できます。

解説画像1

それぞれの項目については以下になります。

ポアソン分布

単位時間当たり平均λ回起こる現象が、x回起こることを表現した確率分布で、稀な現象を表現できます。1日平均1件の交通事故が起こる地域で、3日連続で交通事故が起こらない確率などを計算できます。

ベルヌーイ分布

「成功、失敗」「表、裏」などの2種類のみの結果しか得られない試行の結果を、例えば0と1で表した確率分布です。コインの表がでる確率などを計算することができます。このように、試行結果が2通りしかない確率分布をベルヌーイ分布という。

二項分布

互いに独立したベルヌーイ試行をn回行ったときに、「コインの表が出る」といった考えてる事象がx回出る確率を計算することができます。

正規分布

平均・中央値・最頻値が一致し、理論的に扱いやすく様々なシーンで登場する連続型確率分布です。具体的には、身長180cm以上の方がどのくらいの割合でいるかなどを計算することができます。また、標本数が大きい標本平均は正規分布に従うことが知られています。

指数分布

単位時間当たり平均λ回起こる現象が、次に起こるまでの期間が単位時間ではかってxであることを表現した連続型確率分布です。ある店で1時間平均10人来ることが分かっている場合、10分以内に次の人が来る確率などを計算できます。

カイ二乗分布

互いに独立な標準正規分布に従う確率変数の2乗和が従う連続型確分布で、誤差の二乗和がこの分布によく従うことから、統計検定などで利用されます。

ここまで六つの項目について説明してきました。実際に理解できたかどうか確認するために例題を用意したので、ぜひ解いてみてください。

Q
次の確率を求めるために最適な確率分布を述べよ。
1.機械が故障してから次に故障するまでの期間
2.あるお菓子は、10個に1つあたりくじが入っている。あたりくじ3つで景品と交換できる。このお菓子を25個買った時の、当たりくじが3つ含まれる確率
3.A高校にいる全生徒のうち、英語のテストが80点以上の確率
4.打率が3割のバッターが、5打席中3打席以上でヒットを打つ確率
5.1日のうちに自転車に乗って転んでしまう確率が25%の少年が、転んだ日から次に転ぶ日までの平均日数の期待値
6.ランダムに選んだ100人に対して「甘いものが好きか」と「よくお酒を飲むか」の2つの質問を行った。この結果から考えられる要素は独立といえるかどうかを有意水準0.05で検定せよ

A
1.指数分布
2.ポアソン分布
3.正規分布
4.二項分布
5.ベルヌーイ分布
6.カイ二乗分布

いかがでしょうか。全問正解できましたか?

フローチャート

次にデータエンジニアリング力の項目からフローチャートを紹介します。

フローチャートとは、各処理を長方形やひし形といった記号で表し、その流れを矢印でつないで表現することで、これによりプログラム全体の全体の処理を図示したものです。
フローチャートでは、プログラム全体が直感的に表現されるため、複雑な処理を行う場合に特に有効です。また、設計書としてフローチャートを残すと、ほかの人のソースコード解析の助けとなり、保守性が向上するため、フローチャートはプログラム作成後に作成されることもあります。
以下がフローチャートで用いる記号とその説明になります。

解説画像2

実際にフローチャートを作成してみましょう!以下に例題を用意したので、ぜひ実際に作成してみてください。

Q1から5までを出力しつつ、2の倍数の時は「!」も出力する処理をフローチャート図で表せ。

A.

解説画像3

いかがでしたでしょうか。
今回はデータサイエンティスト検定の、ほんの一つまみしか紹介できませんでしたが、実際には微分積分、プログラミング言語のSQL、AI関連知識、機械学習、さらには今回紹介できなかった「ビジネス力」からも出題されます。範囲が広く難易度も少し高めですが、その分取得できた時の達成感も大きいです!

おすすめの勉強方法

必要となってくる勉強時間は30-50時間といったところで、
出題範囲が広いDS検定では、包括的に知識を蓄えることが前提になってきます。

筆者の勉強法としては、以下の4つの教材を用いて勉強をしました。

1.スキルアップAI株式会社「DS検定リテラシーレベル対応データサイエンティスト基礎講座」
参考URL: https://www.skillupai.com/ds/
こちらの講座は、申し込みをするとYouTubeで無料で視聴可能な10.5時間の動画講義となっています。動画を止めて分からなかった箇所を調べて理解するのにとても役立ちますが、とりあえず試験範囲の全貌が見てみたいという方にもおすすめです。

2.「最短突破 データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第2版」
こちらは、データサイエンティスト協会が監修・執筆している公式参考書です。1の動画講義で分からなかった箇所を詳しく調べる時や、問題集でつまずいた時の知識の見直しとしても使えるDS検定を勉強する上では必須の教材です。

3.スキルアップAI株式会社「DS検定™リテラシーレベル対策アプリ」
覚えた知識や単語などは、繰り返し学習しないと忘れてしまうもの。移動中などのスキマ時間で問題を解いて理解度を確認しながら復習を進められるので、手軽に試験対策ができるという点でもこのアプリはとてもおすすめです。

4.徹底攻略データサイエンティスト検定問題集[リテラシーレベル]対応
本試験と同じレベルの模擬問題が200問以上あり、出題範囲をすべて網羅しているので、この問題集がすらすら解けるようになれば、本試験も難なく進められるはずです。

試験情報

試験方式:選択式問題
試験会場:全国の試験会場で開催(CBT)
問題数:90問
試験時間:90分
受験料: ¥10,000

次回試験情報
DS検定の試験期間は春と秋の年に2回となっており、次回の開催は2022年11月15日(火)~2022年12月5日(月)に予定されています。
現段階では、申し込み期間・申し込み方法は発表されていませんが、筆者は試験期間の1月前にオンラインで申し込みをして受験しました。

合格ライン
以前は公式で正答率80%が合格のラインと公表されておりましたが、現在では非公表となっています。ただ、筆者の知る限りでも正答率が80%でも不合格だったというケースもあり、難易度が高いものと予想されるため、試験対策はしっかりとしておくことをお勧めします。

終わりに

最後になりますが、データサイエンティスト検定は資格であり、決してこれを持っているから偉い、すごいというわけではありません。取得に向け勉強し、得た考え方がとても大切になってきます。 この記事で少しでもデータ分析に興味を持ってくだされば幸いです!
ありがとうございました。

この記事を書いた人

石原寛太

石原寛太

高専を卒業後メンバーズに就職。現在の常駐先ではSQL、Python、Rを用いてデータの収集・加工、データ分析の業務を兼任。データに揉まれながら日々奮闘中。

小角真希

小角真希

前職では宿泊業界にてレベニュー・マーケティング関連の業務に従事。現在はSQLを用いたデータ集計・分析業務を担当。英語がちょっと話せます。

おすすめ記事

タグ

2020新卒バトンAdobe IllustratorBIツールBOTCCDLab.CSSCSV事例DockerDXECExcelExcel関数GitGoogleAnalyticsGoogleスプレッドシートGoogleデータポータルLT会MembersDinerOJTPhotoshopPythonRubySDGsSEOSimilarWebSlackSNSSocial Art JapanプロジェクトSQLUIUXUXリサーチVSCodeWebディレクションWebディレクターWebマーケティングWeb解析Well-beingWordPressアクセシビリティアナリティクスウェビナーウェビナー運用エシカルエシカルファッションエンジニアオウンドメディアオンラインイベントお悩み相談室キャリアクライアントワークコーディングコミュニケーションコンテンツマーケティングコンペサービスサイト構造サステイナブルサンプルスウェーデンスキルアップセミナーソーシャルアーティストソーシャルクリエイターチームビルディングツールデータディレクションディレクターデザイナーデザインデンマークトンマナナレッジブームの裏側フレームワークプログラミングプログラミング教育フロントエンドマーケティングマネジメントスキルミーティングメタバースメンバーズメディカルマーケティングカンパニーメンバーズルーツカンパニーユーザーテストライティングラボ活動リモートワークショップワークスタイル事例事例紹介仕事術仙台仙台オフィス分析効率化勉強会動画北欧医療業界品質管理地方金融企業基本情報技術者試験広告運用提案数学新卒研修新規構築機械学習気候変動海洋プラスチック問題生産性向上産学連携研修社会課題社会課題調査競技プログラミング脱炭素自動化ツール色彩検定製薬業界試験対策資格開発環境障がい者雇用食の問題