2020-06-05

G検定合格までに実施した勉強法

対策・勉強法

JDLA Deep Learning for GENERAL 2019 #1（G検定）合格までに実施した勉強法をご紹介します。

f:id:kanriyou_h004:20190324100505j:plain
私が実施した勉強法は以下の通りです。（詳細は、過去記事にリンクしてあります。）

上記勉強法に利用した、問題集や過去問サイトは以下の通りです。

【公式サイト】

日本ディープラーニング協会のG検定公式サイトです。

G検定とは - 一般社団法人日本ディープラーニング協会【公式】

こちらに、試験概要、例題やシラバスが掲載されています。

受験申し込みサイトへのリンクもあります。

まずは、こちらをチェックして、G検定の概要を理解しました。

【問題集】

通称”黒本”と呼ばれる問題集です。解説がわかりやすいので、まずは解答を読破することで、全体像がつかめます。

徹底攻略ディープラーニングG検定ジェネラリスト問題集 [ 明松真司 ]

【テキスト】

G検定の公式テキストです。テキストから読み始めると、後半が結構辛くなってきますが、問題集の解説を一通り読んだ後だと、入りやすいです。

深層学習教科書ディープラーニング G検定（ジェネラリスト）公式テキスト（E...

【過去問サイト】

人工知能勉強会の「Study-AI」さんが公開しているG検定の模擬テスト（過去問）です。

本番の試験でも、ほとんど同じ内容の問題も出題されていました。

動画や、模擬テストが無料で閲覧できます。

リンクはこちら＞＞ G検定（AIの検定）模擬テスト-Study-AI-

【参考書籍】

問題集、テキスト以外に隙間時間を利用して、以下の書籍も読み進めました。必須ではないかもしれませんが、ディープラーニングの理解を含めるには、おすすめの書籍ばかりです。

ゼロから作るDeep Learning Pythonで学ぶディープラーニングの理...

↑この本に記載されているコードを写経（丸写し）しているだけで、ディープラーニングの基礎が身につくと思います。プログラミング経験者は、この本で勉強すると理解がさらに深まると思います。

人工知能プログラミングのための数学がわかる本 [ 石川　聡彦 ]

↑「プログラミング」とタイトルに書いてありますが、プログラミングをしたことがない人でもディープラーニングの数学の理解に役立つと思います。私は電子書籍で購入しました。

人工知能は人間を超えるかディープラーニングの先にあるもの（角川EPUB選書）...

↑歴史から技術まで、ストーリーとして理解が進むので、じっくり読みたくなる本です。こちらも電子書籍で購入しました。

入門Python　3 [ ビル・ルバノビック ]

↑G検定には直接関係はないかもしれませんが、ディープラーニングのプログラミングには、 python が不可欠だということで、一緒に学習を開始しました。試験勉強に煮詰まってきたときに、味変えとして、学習していました。

2020-06-05

G検定対策復習のつぶやき総集編（その３）

対策・勉強法過去問

G検定対策で、Webなどの情報をノートにまとめていたのですが、ノートにまとめるだけでは頭に残らないと思い、復習でツイッターに投稿していた記事の総集編第三弾です。

G検定対策の勉強法の全体像は以下をご参照ください。

G検定合格までに実施した勉強法 - JDLA G検定合格に使った過去問,問題集など対策・体験記

f:id:kanriyou_h004:20191110110810j:image

少しだけですが、つぶやきを追加します。

試験前の復習にご活用いただければと思います。

主に技術的なところをつぶやいた、総集編（その１）、法律的なところをつぶやいた（その２）もあわせて、ご活用ください。

G検定対策復習のつぶやき総集編（その１）

G検定対策復習のつぶやき総集編（その２）

#JDLA #G検定復習のつぶやき。
Adversarial Examplesの復習
機械学習の脆弱性を利用した攻撃の１つ。
例) 分類器が正しく分類できていた画像に、人の目では判別できない程度のノイズをのせることで、作為的に分類器の判断を誤らせる攻撃。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月16日

#JDLA #G検定復習のつぶやき。
意味ネットワークの復習
概念の意味を人間の直観に即して表現しようとする試み。
ラベル付けした「概念（猫や馬、動物など）」をis-a関係とpart-of関係でリンクさせたネットワーク。
is-aの例) 猫is-a哺乳類、哺乳類is-a動物
part-ofの例) 肉球part-of足、足part-of猫
— 俺人〜Oregin〜 (@Oregin2) 2020年3月16日

#JDLA #G検定復習のつぶやき。
Cycプロジェクトの復習
すべての一般常識を機械へ取り込むことを目的としたプロジェクト。知識ベースと推論エンジンで構成。第2次AIブーム中の1984年にダグラス・レナート氏が開始。人手による入力作業。1995年:Cycorp社設立。2001年から一部が OpenCyc として公開
— 俺人〜Oregin〜 (@Oregin2) 2020年3月17日

#JDLA #G検定復習のつぶやき。
シンボルグラウンディング問題の復習
記号を実体と紐付けられない問題。
「馬」という記号（文字列）を実体の馬の何に紐づけるかは非常に難解な問題。また「縞」と「馬」をそれぞれ実体に紐付けられても、「縞馬」は別の記号となり、シマウマの実体と紐づけられない。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月18日

#JDLA #G検定復習のつぶやき。
フレーム問題の復習
1969年ジョン・マッカーシーとパトリック・ヘイズが指摘
解決を試みる際に、実世界から必要な事象のみ抽出することが難しいという問題。
哲学者のダニエル・デネットが示した爆弾が設置された洞窟にバッテリーを取りに行くロボットの思考実験が有名
— 俺人〜Oregin〜 (@Oregin2) 2020年3月19日

#JDLA #G検定復習のつぶやき。
モラベックのパラドックスの復習
人工知能にとって、人間が高度な教育を受けないと出来ない数学的、論理的思考など、専門的で高度な推論は容易。
逆に人間なら幼児でも出来る知覚、運動能力の獲得の方が、技術的に困難。
1980年代にH＝モラベックが提唱した逆説。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月20日

#JDLA #G検定復習のつぶやき。
チューリングテストの復習
機械が人間に近い振る舞いができているか否かを判別するテスト。
人間の審査員が、1人の人間と1つの機械と会話し、どちらが人間であるか判別できなければ、人間並みに振舞えていると判別する。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月20日

#JDLA #G検定復習のつぶやき。
ディープフェイクの復習
人工知能など高度な画像合成技術で偽造される動画。
「敵対的生成ネットワーク（GAN）」を活用し、本物と誤認される精度の高い動画も作成できるようになり、政治家や著名人に虚偽の発言をさせるフェイクニュースなど、悪用が問題視されている。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月21日

#JDLA #G検定復習のつぶやき。
レコメンドの復習
ユーザの履歴や入力内容から商品などを推薦する。
主に以下の2方式がある。
●協調フィルタリング
履歴等を元に類似した履歴のユーザが購入した商品を推薦する。
●内容ベースフィルタリング
履歴等を元に商品の特徴が類似した商品を推薦する。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月23日

2020-03-08

G検定対策復習のつぶやき総集編（その２）

対策・勉強法過去問

G検定対策で、Webなどの情報をノートにまとめていたのですが、ノートにまとめるだけでは頭に残らないと思い、復習でツイッターに投稿していた記事の総集編第二弾です。

G検定対策の勉強法の全体像は以下をご参照ください。

G検定合格までに実施した勉強法 - JDLA G検定合格に使った過去問,問題集など対策・体験記

f:id:kanriyou_h004:20191110110810j:image

法律関係のリクエストもありましたので、少しですがつぶやいています。

試験前の復習にご活用いただければと思います。

主に技術的なところをつぶやいた、総集編（その１）もあわせて、ご活用ください。

G検定対策復習のつぶやき総集編（その１）

#JDLA #G検定復習のつぶやき。
著作権法改正の復習
2019年1月1日より、第30条の4が改定され、次の3条件を満たせば, 蓄積データを, AIを開発する目的で他の事業者と共有する事等も可能となった
-著作物にの思想,感情の享受を目的としない
-必要と認められる限度である
-著作権者の利益を不当に害しない
— 俺人〜Oregin〜 (@Oregin2) 2020年2月25日

#JDLA #G検定復習のつぶやき。
MOOCs(ムークス)の復習
インターネットを通じて無料で世界中の有名大学の授業を受けられる学習環境。例:AI研究の第一人者で、2014年〜2017年にBaidu の AI 研究所所長を務めた Andrew Ngが創業した Coursera は入門から上級まで様々なレベルの AI 講義が開かれている。
— 俺人〜Oregin〜 (@Oregin2) 2020年2月27日

#JDLA #G検定復習のつぶやき。
米国政策の復習
AIの倫理的リスク対応として以下を発行
2016年10月
●PREPARING FOR THE FUTURE OF ARTIFICIAL INTELLIGENCE
●THE NATIONAL INTELLIGENCE RESEARCH AND DEVELOPMENT STRATEGIC PLAN
2016年12月
●ARTIFICIAL INTELLIGENCE AUTOMATION, AND THE ECONOMY
— 俺人〜Oregin〜 (@Oregin2) 2020年2月28日

#JDLA #G検定復習のつぶやき。
日本の政策の復習
●新産業構造ビジョン
第4次産業革命の技術革新(ビッグデータやIoT、AI、ロボットなど)を利用して、日本社会の構造的課題の解決を目指し、さらに経済成長も狙うという目的のもと取りまとめられたビジョンと戦略。
— 俺人〜Oregin〜 (@Oregin2) 2020年2月29日

#JDLA #G検定復習のつぶやき。
Google 自動運転の復習
2009年自動運転プロジェクト開始
2012年ネバダ州で米国初の自動運転車専用ライセンスを取得
2014年アンドロイドの車載OS化を狙ったOAA(Open Auto motive Alliance)発表
2017年アリゾナ州フェニックスにて一般ユーザーを乗せてサービス走行開始
— 俺人〜Oregin〜 (@Oregin2) 2020年3月1日

#JDLA #G検定復習のつぶやき。
AI技術Platformの復習
Kaggle:データ解析のコンペティションやディスカッション
Google Scholar:学術論文検索エンジン
Cousela:世界中の大学講義のオンライン講座
arXiv:研究論文の公開／閲覧Webサイト
Google Colaboratory:クラウドで実行できるJupyter notebook環境
— 俺人〜Oregin〜 (@Oregin2) 2020年3月1日

#JDLA #G検定復習のつぶやき。
ライブラリの復習
scikitlearn:機械学習ライブラリ
numpy:ベクトル、行列計算ライブラリ
matplotlib:可視化ライブラリ
pandas:データ処理ライブラリ
scipy:科学計算ライブラリ
— 俺人〜Oregin〜 (@Oregin2) 2020年3月3日

#JDLA #G検定復習のつぶやき。
AI創作物による特許の復習
創作者が人であることが前提なので、全ての工程を人を介さずAIのみで行った創作物は保護の対象とならない。
しかし以下の工程のいずれかを人が行えば、人の創作物と整理される。
・課題設定
・解決手段候補選択
・実効性評価
— 俺人〜Oregin〜 (@Oregin2) 2020年3月4日

#JDLA #G検定復習のつぶやき。
ドイツの著作権法の復習
学術的な研究のために複数の著作物を自動的に解析する場合であれば、著作物を複製及び一定の公衆提供することが許容される。ただし、商用はNG。出典も明示する必要がある。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月7日

2019-11-10

G検定対策復習のつぶやき総集編（その１）

対策・勉強法過去問

G検定対策で、Webなどの情報をノートにまとめていたのですが、ノートにまとめるだけでは頭に残らないと思い、復習でツイッターに投稿していた記事の総集編です。

G検定対策の勉強法の全体像は以下をご参照ください。

G検定合格までに実施した勉強法 - JDLA G検定合格に使った過去問,問題集など対策・体験記

f:id:kanriyou_h004:20191110110810j:image

試験に役に立ったとの、お声も頂いたので、ブログにまとめさせていただきます。

試験では、法律関係もたくさん出たとの情報も頂いたのですが、法律関係は全然つぶやけていなかったのが反省点です。

これからは、法律関係もつぶやいていきたいと思います。

#G検定復習のつぶやき。
ニューラルネットワークで、過学習を防ぐ方策の１つで、学習時に一部のノードを無効化する方策。
→『ドロップアウト』#JDLA
— 俺人〜Oregin〜 (@Oregin2) 2019年10月5日

#JDLA #G検定復習のつぶやき。
ニューラルネットワークで、過学習を防ぐ方策の１つで、活性化関数の手前に設置されることが多く、層の出力を正規化する方策。
→『バッチ正規化』
— 俺人〜Oregin〜 (@Oregin2) 2019年10月5日

#JDLA #G検定復習のつぶやき。
ニューラルネットワークで、過学習を防ぐ方策の１つで、損失関数にパラメータの重みの2乗ノルム（Σ|ω|^2）を加える方策。
→『L2正則化』又は『Ridge』
— 俺人〜Oregin〜 (@Oregin2) 2019年10月5日

#JDLA #G検定復習のつぶやき。
RNNの復習
時系列データの処理に向いているニューラルネットワーク。
内部にループ構造を持つため、中間層が一層であっても、勾配消失や勾配爆発が起きやすい。
これらの対策として、メモリセルや入力ゲート、忘却ゲートなどを採用したLSTMが考案された。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月6日

#JDLA #G検定復習のつぶやき。
誤差逆伝播法の復習
ディープNNの学習の目的は損失関数の最小化。最小化のために勾配降下法が利用される。勾配降下法は重みの勾配を数値的に求めると計算量が膨大となるため、合成関数を微分時の連鎖率を活用した誤差逆伝播法が利用される。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月6日

#JDLA #G検定復習のつぶやき。
過学習の復習
ディープラーニングには、訓練誤差は小さいにも関わらず、汎化誤差が小さくならない過学習という問題が発生する。
この対策として、ドロップアウトやL2正則化、早期終了などがある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月6日

#JDLA #G検定復習のつぶやき。
学習率の適正値の復習
学習率が過度に小さいとなかなか収束したなかったり、損失関数の局所的最適解から抜け出せなくなったりする。また、学習率が過度に大きいと、重みが発散することがある。一般に学習が進むに連れて学習率を小さくすると最終的に良い重みが得られる
— 俺人〜Oregin〜 (@Oregin2) 2019年10月7日

#JDLA #G検定復習のつぶやき。
GANの復習
生成モデルの一つであり、生成ネットワーク(Generator)と識別ネットワーク(Discriminator)の２つのネットワークを敵対させるように学習させる。
Generative Adversarial Networksの略。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月7日

#JDLA #G検定復習のつぶやき。
蒸留の復習
膨大なパラメータとなるモデルをより少ないパラメータのモデルに学習させる技術の１つ。すでに学習されている大きなモデル（教師モデル）を利用して、小さなモデル（生徒モデル）を学習させる手法。生徒モデルを単独で学習させるよりも過学習が緩和できる。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月8日

#JDLA #G検定復習のつぶやき。
移転学習の復習
データ量が少ない等の理由で、対象タスクの学習が難しい場合に、関連した別のタスクで学習し、その学習済みの特徴やパラメータ等を利用することで効率的に対象タスクを学習すること。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月9日

#JDLA #G検定復習のつぶやき。
ディープラーニングの特徴の復習
ニューラルネットワークを多層化したもの。観測データから特徴量となるパラメータを自動的に算出できる。従来の機械学習手法に比べ、学習が必要なパラメータ数が多い、計算量が多い、より複雑な関数を近似できる等の特徴がある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月9日

#JDLA #G検定復習のつぶやき。
ノーフリーランチ定理の復習
あらゆるタスクに対して常に他よりすぐれている万能アルゴリズムは存在しないことを示した定理。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月13日

#JDLA #G検定復習のつぶやき。
醜いアヒルの子の定理の復習
全ての客観的な特徴を等しく扱うと全ての対象は同程度に類似している、つまり特徴を選択したり重み付けしたりしなければ表現の類似度に基づく分類は不可能であることを示した定理。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月13日

#JDLA #G検定復習のつぶやき。
バーニーおじさんのルールの復習
モデルのパラメータを学習するには、その数の10倍のデータ数が必要という経験則。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月13日

#JDLA #G検定復習のつぶやき。
自己符号化器の復習
Autoencoderとも言う。
出力値が入力値に近づくよう学習する教師なし学習のアルゴリズムである。
隠れ層が入力の特徴を抽出した表現となり、入力値よりも次元削減が可能になる
— 俺人〜Oregin〜 (@Oregin2) 2019年10月13日

#JDLA #G検定復習のつぶやき。
生成モデルの復習
訓練データの特徴を学習し、類似したデータを生成するモデル。例として、自己符号化器の潜在変数に確率分布を導入したVAEや、訓練データと生成器が生成したデータを識別器で判別させることによって学習を進めるGANなどがある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月14日

#JDLA #G検定復習のつぶやき。
adversarial exampleの復習
学習済みのディープニューラルネットモデルを欺くように人工的に作られたサンプルのこと。サンプルに対して微小な差異を付加することで、作為的にモデルの誤認識を引き起こす。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月14日

#JDLA #G検定復習のつぶやき。
データセットの復習
MNISTはアメリカの国立標準技術研究所が提供する手書き数字のデータセット。ImageNetは、スタンフォード大学がインターネット上から画像を集めて分類した約1400万枚の自然画像のデータセット。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月15日

#JDLA #G検定復習のつぶやき。
内部共変量シフトの復習
ある層の入力がそれより下層の学習が進むにつれて変化する現象。
大規模なニューラルネットワークの学習が困難となる一因。
対策として出力値の分布の偏りを抑制するバッチ正規化が2015年に提案されている。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月16日

#JDLA #G検定復習のつぶやき。
ニューラルネットワーク学習時の問題の復習
層が深いネットワークでは、入力層に近い層で学習が行われにくくなる勾配消失や、パラメータがつくる空間が高次元になり、その空間内の局所最適解や鞍点、プラトーに陥り学習が進まなくなる等の問題が発生する。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月17日

#JDLA #G検定復習のつぶやき。
勾配消失問題の復習
誤差逆伝播法で、入力層に近づくにつれて誤差(勾配)が小さくなり、学習が進まなくなる問題。対策として、活性化関数にReLUを利用するなどがある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月17日

#JDLA #G検定復習のつぶやき。
畳み込みニューラルネットワーク(CNN)の復習
畳み込み層とプーリング層で構成される。画像データの場合、畳み込み層では、出力サイズ調整のために元画像の周りを固定の値で埋めるパディングを行う。プーリング層では、枠内の最大値を出力するMaxプーリングなどを行う。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月18日

#JDLA #G検定復習のつぶやき。
ハイパーパラメータのチューニング方法の復習
パラメータの候補値を指定し、それらの組み合わせを調べるグリッドサーチや、ハイパーパラメータを含め最適化問題とするベイズ最適化などの方法がある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月18日

#JDLA #G検定復習のつぶやき。
クラスタリングの復習
未知の集合を、いくつかの集まりに分類させる教師なし学習。
K-meansというアルゴリズムを使用して顧客の分類を行いDM配信やレコメンドを実施するなどして活用される。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月19日

#JDLA #G検定復習のつぶやき。
異常検知の復習
正常なケースを学習し、大きく異なるものを識別する教師なし学習の１つ。
SVMというアルゴリズムを基に、異常通信を検知するセキュリティシステムなどに活用されている。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月19日

#JDLA #G検定復習のつぶやき。
物体検出の復習
画像をボックスに切り分けて、対象物がどこにあるかと、対象物が何かを推定するタスク。
2014年に考案されたR-CNN、2015に考案されたFaster R-CNN、2016年に考案されたYOLOなどがある。CNNの技術が内部で使用されている。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月19日

#JDLA #G検定復習のつぶやき。
物体セグメンテーションの復習
対象物体と背景をピクセルごとに詳細に切り分けて、そのピクセルごとが示す意味を推定するタスク。1ピクセル毎にクラス分類を行なっていることになる。
EncoderネットワークとDecoderネットワークで構成されるSegNetなどがある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月19日

#JDLA #G検定復習のつぶやき。
画像キャプションの復習
ある画像からそこに写っているものの説明(キャプション)を生成するタスク。画像処理と自然言語処理の両方を活用。キャプションは、対象となる画像をCNNに入力し、そこから得られた特徴をLSTMに入力することで生成する。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月20日

#JDLA #G検定復習のつぶやき。
End to End Learningの復習
現在のディープラーニングのように入力から出力までの処理を一括して学習すること。
従来は、用意したデータを処理し、それが入力値となり、別の手法を用いて次の処理を行うといった、ステップバイステップの学習が必要だった。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月21日

#JDLA #G検定復習のつぶやき。
音声認識の復習
1990年代は隠れマルコフモデル(HMM)による、音自体の判別と、Nグラム法による言語モデルで構成されていた。しかし、RNN等の登場により、音響特徴量から単語列などに直接変換するEnd to Endでの学習が可能となり、人的な前処理が不要になってきている。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月21日

#JDLA #G検定復習のつぶやき。
損失関数の復習
損失関数は学習の目的に応じて決定する。
回帰問題には平均二乗誤差関数、分類問題には交差エントロピー誤差関数、分布を直接学習する際にはKLダイバージェンスなどが用いられる。
損失関数にパラメータの二乗ノルムを加えるとL2正則化となる。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月21日

#JDLA #G検定復習のつぶやき。
強化学習の復習
機械が試行錯誤することで、取るべき最善の行動を決定していく学習方法。将棋やチェスなどのゲームや自動運転、ロボット歩行動作等に採用されている。代表的なアルゴリズムにQ学習がある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月22日

#JDLA #G検定復習のつぶやき。
強化学習の課題の復習
<学習時間>
理論的には無限に学習することで、より良い結果が得られるが、現実には不可能。ロボットの場合、時間的にも部品の消耗など物理的にも無限の試行を繰り返すことは不可能。対策は物理的な状態を再現したシミュレータでの学習などがある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月22日

#JDLA #G検定復習のつぶやき。
強化学習の課題の復習
<マルチエージェント応用>
複数のエージェントでの強化学習時に学習が不安定になる問題。例えば２体のロボット同士で学習開始時、初期状態であるタスクの学習が不安定になる。対策として逆強化学習や深層学習の技術を適用したDQN等がある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月22日

#JDLA #G検定復習のつぶやき。
過学習対策の復習
汎化誤差を小さくする手法としてLassoやRidgeなどの正則化を用いることが多い。
また複数のモデルの予測結果の平均を利用するアンサンブル学習がある。
他にもランダムに一定の割合のノードを削除して学習を行うドロップアウトなどがある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月24日

#JDLA #G検定復習のつぶやき。
処理の高速化の復習
深層学習では、学習するべきパラメータ数が膨大となるため、処理の高速化が必要となる。
2012年に提案された分散並列技術であるDistBeliefや画像処理に特化したプロセッサのGPUは、大規模なニューラルネットワークの学習に利用される。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月25日

#JDLA #G検定復習のつぶやき。
自己符号化器の復習
教師なし学習の代表的な応用。出力が入力に近づくよう学習させる。主に次元削減のために利用される。活性化関数に恒等写像を用いた3層の自己符号化器は主成分分析と同様の結果を返す
代表的な応用例としてノイズ除去、NNの事前学習、異常検知がある
— 俺人〜Oregin〜 (@Oregin2) 2020年7月1日

#JDLA #G検定復習のつぶやき。
層ごとの貪欲法の復習
自己符号化器を多層化すると、勾配消失問題が生じ、複雑な内部表現を得ることは困難だった。これに対して2006年頃にHintonらは、単層の自己符号化器に分割し入力層から繰り返し学習する層ごとの貪欲法を積層自己符号化器に適用した。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月25日

#JDLA #G検定復習のつぶやき。
強化学習の特徴の復習
強化学習の特徴として
●正解データ付きの訓練データを用意する必要がない。(訓練データを用意することが難しいタスクに向いている。)
●一般的に学習には時間がかかる。
●状態遷移を考慮することができる。
などの特徴がある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月26日

#JDLA #G検定復習のつぶやき。
最小二乗法の復習
モデルの予測値と実データの差を最小にするパラメーターを求める方法。
符号を考えなくてよいので計算がしやすい。
ただし、サンプル中に大きく外れた異常値が混じっている場合、この異常値に大きく影響を受けるので、異常値を考慮する必要がある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月26日

#JDLA #G検定復習のつぶやき。
重み更新に関わる単位の復習
単位としては、重みが更新された回数であるイテレーションと、訓練データを何回繰り返し学習したかを表すエポックがある。また一回のイテレーションに用いるサンプル数は、バッチサイズと呼ばれる。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月26日

#JDLA #G検定復習のつぶやき。
データの前処理の復習
深層学習では、データの適切な前処理が必須。
異なるスケールの特徴量を同時に扱えるようにするために、平均を0に分散を1に規格化する標準化や、特徴量の線形結合からデータ内の分散が大きくなるような特徴量を得る主成分分析などがある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月27日

#JDLA #G検定復習のつぶやき。
データの前処理(画像処理)の復習
画像処理の分野においては、減算正規化と除算正規化の処理を行う局所コントラスト正規化などが前処理として利用され、OpenCVなどの画像処理に特化したライブラリで行うことができる。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月27日

#JDLA #G検定復習のつぶやき。
データの前処理(自然言語処理)の復習
自然言語処理のにおいては、文章に単語が含まれているかどうかをカウントするなどしてテキストデータを数値化するbag-of-wordsや文章に含まれる単語の重要度を特徴量とするTF-IDFなどがある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月27日

#JDLA #G検定復習のつぶやき。
勾配降下法の復習
ディープニューラルネットワークのパラメータ最適化手法としてバッチ勾配降下法、ミニバッチ勾配降下法、確率的勾配降下法などの勾配降下法がある。
勾配降下法には、谷での振動、プラトーへのトラップ、局所的最適解への収束などの問題がある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月28日

#JDLA #G検定復習のつぶやき。
強化学習の復習
強化学習では、行動を学習するエージェントとエージェントが行動を加える対象の環境がある。行動に応じて環境はエージェントに状態と報酬を返す。行動と状態/報酬獲得を繰り返し、最も多くの報酬をもらえるような方策を得ることが強化学習の目的。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月28日

#JDLA #G検定復習のつぶやき。
確率的勾配法の復習
モメンタム:
以前の勾配の方向を現在の重みの更新にも影響させる
AdaGrad:
勾配の２乗を蓄積し、大きく更新された重みほど学習率を小さくする
RMSprop:
一度更新量が飽和した重みはもう更新されない欠点を、指数移動平均を蓄積することにより解決
— 俺人〜Oregin〜 (@Oregin2) 2019年10月29日

#JDLA #G検定復習のつぶやき。
フレームワークの復習
Google社提供のTensorFlowやTensorFlowのラッパーとして機能するKeras、日本企業のPreferredNetworksで開発されたChainerなどがある。また、PyTorchはChainerと同じDefine-by-Run方式を採用している。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月29日

#JDLA #G検定復習のつぶやき。
活性化関数の復習(1)
ニューロンの出力を非線形化変数する関数。単純パーセプトロンの出力層ではステップ関数が用いられ、ニューラルネットワークの中間層では、はじめシグモイド関数などの正規化の機能を持つ関数が利用された。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月30日

#JDLA #G検定復習のつぶやき。
活性化関数の復習(2)
現在は、誤差逆伝播で勾配が消失しやすいという問題から、中間層ではこの問題の影響を抑えられ、かつ簡単なReLUなどが用いられている。また、出力層では出力の総和が１となり確率的な解釈が可能になるソフトマックス関数が利用されている。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月30日

#JDLA #G検定復習のつぶやき。
画像データの前処理の復習
カラー画像を白黒画像に変換することで計算量を削減するグレースケール化や、細かいノイズの影響を除去する平滑化、画素ごとの明るさをスケーリングするヒストグラム平均などの方法がある。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月31日

#JDLA #G検定復習のつぶやき。
畳み込みニューラルネットワーク(CNN)の特徴の復習
畳み込み層のパラメータ数は全結合層と比べると大幅に削減できる。これは、重み共有によって、有効な特徴量を画像の位置によって大きく変化させないため。
これにより大幅に計算量が少なくなる。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月31日

#JDLA #G検定の試験が11月9日に迫ってきました！受験される方、ラストスパート頑張ってください！
私が今年の3月に合格するまでに使った、過去問,問題集など対策・体験記をまとめておりますので、参考にしていただけると光栄です。 https://t.co/xHbNHaLJ6Z #はてなブログ
— 俺人〜Oregin〜 (@Oregin2) 2019年10月31日

#JDLA #G検定復習のつぶやき。
人工知能研究の路線の復習
Google・Facebook路線: 言語データによるRNNや映像データからの概念・知識理解を目指す
UCバークレー路線: 実世界を対象に研究を進め、知識理解を目指す
DeepMind路線: オンライン空間上でできるをターゲットにするして、知識理解を目指す
— 俺人〜Oregin〜 (@Oregin2) 2019年11月1日

#JDLA #G検定復習のつぶやき。
欠損値の補完の復習
リストワイズ法: 欠損があるサンプルを削除する方法。欠損に偏りがあると、データ全体の傾向を大きく変えてしまう。使用に際し欠損に特定の偏りがないか確認する必要がある。
回帰補完: 欠損しているある特徴量と相関が強い他の特徴量で補完する。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月2日

#JDLA #G検定復習のつぶやき。
CNNの畳み込み層の出力画像サイズの復習
入力画像の縦、横のサイズをih,iw,フィルタの縦、横のサイズをfh,fw,パディングをp,ストライドをsとすると、出力画像の縦、横のサイズoh,owは
oh=(ih+2p-fh)/s +1
ow=(iw+2p-fw)/s +1
となる。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月2日

#JDLA #G検定復習のつぶやき。
ResNetの復習
学習パラメータ数が大量で、学習進まない問題に対し、入力層から出力層まで伝播する値と入力層の値を足し合わせたモデルで解決。入力層まで、勾配値が伝わり、1000層を超える深い構造でも学習が可能。2015年のILSVRCでResNetは人間の分類精度を超えた。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月3日

#JDLA #G検定復習のつぶやき。
GANの復習
ランダムな数値入力から画像生成を行うDCGANや、文章から画像を生成するAttentionGAN等がある。
画像生成器(G)と画像識別器(D)から構成されGはDを騙す画像を出力し、DはGの出力画像と本物画像とを分類する。それぞれが学習し、Gは適切な画像生成が可能となる
— 俺人〜Oregin〜 (@Oregin2) 2019年11月3日

#JDLA #G検定復習のつぶやき。
最適化の復習
損失関数の値をできるだけ小さくするパラメタを見つけること。
よく使われるものにSGDがある。SGDは対象の損失関数がある分布や方向に依存する場合、非効率な経路でパラメータを探索してしまう欠点がある。欠点を改善するためにAdam等の解決策が出てきた。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月3日

#JDLA #G検定復習のつぶやき。
フレームワークの復習 (1)
ディープラーニングは一般的にフレームワークを利用して実装する。
多層のモデルを定義し、データを用いて学習・予測を実行するのがフレームワークの役割。大きく分けて２つの記述方法がある。
<続く>
— 俺人〜Oregin〜 (@Oregin2) 2019年11月3日

#JDLA #G検定復習のつぶやき。
フレームワークの復習 (2)
１つ目は設定ファイルによる記述方法。CaffeやCNTKがある。
モデルの定義がテキストで設定でき、簡単に学習を開始開始させることが出来る。ただし、ループ構造をもつようなRNNなど、複雑なモデルの定義を記述することは難しくなる。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月3日

#JDLA #G検定復習のつぶやき。
フレームワークの復習 (3)
２つ目はプログラムによる記述方法。
TensorFlowやChainerがある。
複雑なモデルでも比較的簡単に記述することが出来るが、それぞれのフレームワーク固有のソースコードであるため、モデルが使用しているソフトウェアに依存する欠点がある。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月3日

#JDLA #G検定復習のつぶやき。
カテゴリデータの扱いの復習
サイズS, M, Lなどの順序を持つデータを、それぞれの値に対応する数値を辞書型データで用意し、数値にマッピングする方法や、順序を持たないカテゴリーデータを各変数に対応したダミー変数を作り出す One-Hot エンコーディング等がある。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月4日

#JDLA #G検定復習のつぶやき。
学習済モデルの活用の復習
転移学習: 学習済モデルで別の課題を学習し、少量データセットか、少計算量で高性能モデルを得る。
蒸留: 学習済大規模モデルの入力と出力を小規模モデルの教師データとして利用し、少計算資源で従来モデルと同程度の性能が実現可能となる。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月4日

#JDLA #G検定復習のつぶやき。
画像認識モデルの復習
LeNet: 1998年に提案。現在のCNNの元となるモデル。初めて多層CNNに誤差逆伝播法を適用。
AlexNet: 2012年に提案。画像認識のコンペティションILSVRCで圧倒的優勝。画像認識におけるディープラーニング活用の火付け役。
<続く>
— 俺人〜Oregin〜 (@Oregin2) 2019年11月5日

#JDLA #G検定復習のつぶやき。
画像認識モデルの復習
ResNet: ILSVRC2015において多くの部門でトップの成績を収めた。層が深くなってもうまく学習を行うことができるモデル。(出力)を、(入力)と(入力からの差分)の和で表現したニューラルネットワークモデルである。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月5日

#JDLA #G検定復習のつぶやき。
CNNの復習
画像認識では、入力から出力に向かう結合のみを持つ階層的なニューラルネットワークが用いられる。特に画像に内在する局所的な特徴が集まって、より大域的な特徴を構成するという構造を反映した、畳み込みニューラルネットワーク(CNN)がよく用いられる。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月6日

#JDLA #G検定復習のつぶやき。
活性化関数の復習
【出力層】
回帰: 恒等関数
多クラス分類: ソフトマックス
【中間層】
従来: 双曲線正接関数、シグモイド
近年:
ReLU:入力が0を超えていれば入力をそのまま出力に渡し、0未満であれば出力を0とする
Maxout:複数の線形関数の中での最大値を利用する
— 俺人〜Oregin〜 (@Oregin2) 2019年11月7日

#JDLA #G検定復習のつぶやき。
系列情報処理の復習
言語や動画のような系列情報の処理にRNNが用いられる。特にケプラー大学のゼップ・ホフレイター氏の提案したLSTMは必要な文脈情報の長さを制御し、時間を遡る誤差逆伝播の可能性向上。2016年Google翻訳にLSTMを取り入れ、非常に高精度な翻訳を実現
— 俺人〜Oregin〜 (@Oregin2) 2019年11月7日

#JDLA #G検定復習のつぶやき。
教師あり学習の種類の復習
クラス分類: 与えられたデータがどの分類に当てはまるのかを識別する。例)画像の識別など
回帰: 様々な関連性のある過去の数値から未知の数値を予測する。例)売上の予測など
— 俺人〜Oregin〜 (@Oregin2) 2019年11月8日

#JDLA #G検定復習のつぶやき。
誤差逆伝播の復習
1980年代に誤差逆伝播が提案されたが、現在ほど多層化出来なかった
理由１: 出力層の誤差を入力層に伝播する間に勾配が縮小し、入力層付近で学習が進まない勾配消失問題
理由２: 層数が多い学習の目的関数は極小値が多く、適切な初期値の設定が困難
— 俺人〜Oregin〜 (@Oregin2) 2019年11月8日

2019-03-21

1.G検定合格のため問題集の解答を一通り読破する。

問題集・テキスト

G検定合格のために、まず実施したのは、問題集の解答を一通り読破したことです。

f:id:kanriyou_h004:20190324105933j:plain

読破した問題集は、以下の問題集です。

徹底攻略ディープラーニングG検定ジェネラリスト問題集 [ 明松真司 ]

最初、公式テキストから読み進めようかとも思ったのですが、問題集の解説が、非常にわかりやすかったので、「問題集の解答／解説を読む」→「問題を読む」の順に学習を進めました。

f:id:kanriyou_h004:20190324105940j:plain
図解もされていて、平易な文章で記載されているので、初心者であった私にも理解することができました。問題数も、最初に手をつける問題集としては、章ごとになっていて、多すぎず少なすぎず、学習を継続するのに適切な量でした。また、巻末には、全体をカバーした模擬試験も用意されていて、充実の内容になっています。