G検定合格までに実施した勉強法
JDLA Deep Learning for GENERAL 2019 #1(G検定)合格までに実施した勉強法をご紹介します。
私が実施した勉強法は以下の通りです。(詳細は、過去記事にリンクしてあります。)
- ステップ0. G検定合格のためG検定の概要と受験した感想
- ステップ1. 問題集の解答を一通り読破する。(解答から読破するところがポイント)
- ステップ2. テキストを一通り読破する。
- ステップ3. 問題集を解く。(テキストの章問題も一緒に解く。)
- ステップ4. 過去問を解く。
- ステップ5. 3,4を繰り返す。
- ステップ6. 通勤時などの隙間時間に参考書籍を読む。
- その他:覚えたことをTwitterでつぶやく。
上記勉強法に利用した、問題集や過去問サイトは以下の通りです。
【公式サイト】
日本ディープラーニング協会のG検定公式サイトです。
G検定とは - 一般社団法人日本ディープラーニング協会【公式】
こちらに、試験概要、例題やシラバスが掲載されています。
受験申し込みサイトへのリンクもあります。
まずは、こちらをチェックして、G検定の概要を理解しました。
【問題集】
通称”黒本”と呼ばれる問題集です。 解説がわかりやすいので、まずは解答を読破することで、全体像がつかめます。
【テキスト】
G検定の公式テキストです。 テキストから読み始めると、後半が結構辛くなってきますが、問題集の解説を一通り読んだ後だと、入りやすいです。
【過去問サイト】
人工知能勉強会の「Study-AI」さんが公開しているG検定の模擬テスト(過去問)です。
本番の試験でも、ほとんど同じ内容の問題も出題されていました。
動画や、模擬テストが無料で閲覧できます。
リンクはこちら>> G検定(AIの検定)模擬テスト-Study-AI-
【参考書籍】
問題集、テキスト以外に隙間時間を利用して、以下の書籍も読み進めました。 必須ではないかもしれませんが、ディープラーニングの理解を含めるには、おすすめの書籍ばかりです。
↑この本に記載されているコードを写経(丸写し)しているだけで、ディープラーニングの基礎が身につくと思います。 プログラミング経験者は、この本で勉強すると理解がさらに深まると思います。
↑「プログラミング」とタイトルに書いてありますが、プログラミングをしたことがない人でもディープラーニングの数学の理解に役立つと思います。 私は電子書籍で購入しました。
↑歴史から技術まで、ストーリーとして理解が進むので、じっくり読みたくなる本です。 こちらも電子書籍で購入しました。
↑G検定には直接関係はないかもしれませんが、ディープラーニングのプログラミングには、 python が不可欠だということで、一緒に学習を開始しました。 試験勉強に煮詰まってきたときに、味変えとして、学習していました。
G検定対策 復習のつぶやき総集編(その3)
G検定対策で、Webなどの情報をノートにまとめていたのですが、ノートにまとめるだけでは頭に残らないと思い、復習でツイッターに投稿していた記事の総集編第三弾です。
G検定対策の勉強法の全体像は以下をご参照ください。
G検定合格までに実施した勉強法 - JDLA G検定合格に使った過去問,問題集など対策・体験記
少しだけですが、つぶやきを追加します。
試験前の復習にご活用いただければと思います。
主に技術的なところをつぶやいた、総集編(その1)、法律的なところをつぶやいた(その2)もあわせて、ご活用ください。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月16日
Adversarial Examplesの復習
機械学習の脆弱性を利用した攻撃の1つ。
例) 分類器が正しく分類できていた画像に、人の目では判別できない程度のノイズをのせることで、作為的に分類器の判断を誤らせる攻撃。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月16日
意味ネットワークの復習
概念の意味を人間の直観に即して表現しようとする試み。
ラベル付けした「概念(猫や馬、動物など)」をis-a関係とpart-of関係でリンクさせたネットワーク。
is-aの例) 猫is-a哺乳類、哺乳類is-a動物
part-ofの例) 肉球part-of足、足part-of猫
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月17日
Cycプロジェクトの復習
すべての一般常識を機械へ取り込むことを目的としたプロジェクト。知識ベースと推論エンジンで構成。第2次AIブーム中の1984年に ダグラス・レナート氏が開始。人手による入力作業。1995年:Cycorp社設立。2001年から一部が OpenCyc として公開
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月18日
シンボルグラウンディング問題の復習
記号を実体と紐付けられない問題。
「馬」という記号(文字列)を実体の馬の何に紐づけるかは非常に難解な問題。また「縞」と「馬」をそれぞれ実体に紐付けられても、「縞馬」は別の記号となり、シマウマの実体と紐づけられない。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月19日
フレーム問題の復習
1969年ジョン・マッカーシーとパトリック・ヘイズが指摘
解決を試みる際に、実世界から必要な事象のみ抽出することが難しいという問題。
哲学者のダニエル・デネットが示した爆弾が設置された洞窟にバッテリーを取りに行くロボットの思考実験が有名
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月20日
モラベックのパラドックスの復習
人工知能にとって、人間が高度な教育を受けないと出来ない数学的、論理的思考など、専門的で高度な推論は容易。
逆に人間なら幼児でも出来る知覚、運動能力の獲得の方が、技術的に困難。
1980年代にH=モラベックが提唱した逆説。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月20日
チューリングテストの復習
機械が人間に近い振る舞いができているか否かを判別するテスト。
人間の審査員が、1人の人間と1つの機械と会話し、どちらが人間であるか判別できなければ、人間並みに振舞えていると判別する。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月21日
ディープフェイクの復習
人工知能など高度な画像合成技術で偽造される動画。
「敵対的生成ネットワーク(GAN)」を活用し、本物と誤認される精度の高い動画も作成できるようになり、政治家や著名人に虚偽の発言をさせるフェイクニュースなど、悪用が問題視されている。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月23日
レコメンドの復習
ユーザの履歴や入力内容から商品などを推薦する。
主に以下の2方式がある。
●協調フィルタリング
履歴等を元に類似した履歴のユーザが購入した商品を推薦する。
●内容ベースフィルタリング
履歴等を元に商品の特徴が類似した商品を推薦する。
G検定対策 復習のつぶやき総集編(その2)
G検定対策で、Webなどの情報をノートにまとめていたのですが、ノートにまとめるだけでは頭に残らないと思い、復習でツイッターに投稿していた記事の総集編第二弾です。
G検定対策の勉強法の全体像は以下をご参照ください。
G検定合格までに実施した勉強法 - JDLA G検定合格に使った過去問,問題集など対策・体験記
法律関係のリクエストもありましたので、少しですがつぶやいています。
試験前の復習にご活用いただければと思います。
主に技術的なところをつぶやいた、総集編(その1)もあわせて、ご活用ください。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年2月25日
著作権法改正の復習
2019年1月1日より、第30条の4が改定され、次の3条件を満たせば, 蓄積データを, AIを開発する目的で他の事業者と共有する事等も可能となった
-著作物にの思想,感情の享受を目的としない
-必要と認められる限度である
-著作権者の利益を不当に害しない
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年2月27日
MOOCs(ムークス)の復習
インターネットを通じて無料で世界中の有名大学の授業を受けられる学習環境。例:AI研究の第一人者で、2014年〜2017年にBaidu の AI 研究所所長を務めた Andrew Ngが創業した Coursera は入門から上級まで様々なレベルの AI 講義が開かれている。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年2月28日
米国政策の復習
AIの倫理的リスク対応として以下を発行
2016年10月
●PREPARING FOR THE FUTURE OF ARTIFICIAL INTELLIGENCE
●THE NATIONAL INTELLIGENCE RESEARCH AND DEVELOPMENT STRATEGIC PLAN
2016年12月
●ARTIFICIAL INTELLIGENCE AUTOMATION, AND THE ECONOMY
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年2月29日
日本の政策の復習
●新産業構造ビジョン
第4次産業革命の技術革新(ビッグデータやIoT、AI、ロボットなど)を利用して、日本社会の構造的課題の解決を目指し、さらに経済成長も狙うという目的のもと取りまとめられたビジョンと戦略。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月1日
Google 自動運転の復習
2009年自動運転プロジェクト開始
2012年ネバダ州で米国初の自動運転車専用ライセンスを取得
2014年アンドロイドの車載OS化を狙ったOAA(Open Auto motive Alliance)発表
2017年アリゾナ州フェニックスにて一般ユーザーを乗せてサービス走行開始
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月1日
AI技術Platformの復習
Kaggle:データ解析のコンペティションやディスカッション
Google Scholar:学術論文検索エンジン
Cousela:世界中の大学講義のオンライン講座
arXiv:研究論文の公開/閲覧Webサイト
Google Colaboratory:クラウドで実行できるJupyter notebook環境
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月3日
ライブラリの復習
scikitlearn:機械学習ライブラリ
numpy:ベクトル、行列計算ライブラリ
matplotlib:可視化ライブラリ
pandas:データ処理ライブラリ
scipy:科学計算ライブラリ
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月4日
AI創作物による特許の復習
創作者が人であることが前提なので、全ての工程を人を介さずAIのみで行った創作物は保護の対象とならない。
しかし以下の工程のいずれかを人が行えば、人の創作物と整理される。
・課題設定
・解決手段候補選択
・実効性評価
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年3月7日
ドイツの著作権法の復習
学術的な研究のために複数の著作物を自動的に解析する場合であれば、著作物を複製及び一定の公衆提供することが許容される。ただし、商用はNG。出典も明示する必要がある。
G検定対策 復習のつぶやき総集編(その1)
G検定対策で、Webなどの情報をノートにまとめていたのですが、ノートにまとめるだけでは頭に残らないと思い、復習でツイッターに投稿していた記事の総集編です。
G検定対策の勉強法の全体像は以下をご参照ください。
G検定合格までに実施した勉強法 - JDLA G検定合格に使った過去問,問題集など対策・体験記
試験に役に立ったとの、お声も頂いたので、ブログにまとめさせていただきます。
試験では、法律関係もたくさん出たとの情報も頂いたのですが、法律関係は全然つぶやけていなかったのが反省点です。
これからは、法律関係もつぶやいていきたいと思います。
#G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月5日
ニューラルネットワークで、過学習を防ぐ方策の1つで、学習時に一部のノードを無効化する方策。
→『ドロップアウト』#JDLA
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月5日
ニューラルネットワークで、過学習を防ぐ方策の1つで、活性化関数の手前に設置されることが多く、層の出力を正規化する方策。
→『バッチ正規化』
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月5日
ニューラルネットワークで、過学習を防ぐ方策の1つで、損失関数にパラメータの重みの2乗ノルム(Σ|ω|^2)を加える方策。
→『L2正則化』又は『Ridge』
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月6日
RNNの復習
時系列データの処理に向いているニューラルネットワーク。
内部にループ構造を持つため、中間層が一層であっても、勾配消失や勾配爆発が起きやすい。
これらの対策として、メモリセルや入力ゲート、忘却ゲートなどを採用したLSTMが考案された。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月6日
誤差逆伝播法の復習
ディープNNの学習の目的は損失関数の最小化。最小化のために勾配降下法が利用される。勾配降下法は重みの勾配を数値的に求めると計算量が膨大となるため、合成関数を微分時の連鎖率を活用した誤差逆伝播法が利用される。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月6日
過学習の復習
ディープラーニングには、訓練誤差は小さいにも関わらず、汎化誤差が小さくならない過学習という問題が発生する。
この対策として、ドロップアウトやL2正則化、早期終了などがある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月7日
学習率の適正値の復習
学習率が過度に小さいとなかなか収束したなかったり、損失関数の局所的最適解から抜け出せなくなったりする。また、学習率が過度に大きいと、重みが発散することがある。一般に学習が進むに連れて学習率を小さくすると最終的に良い重みが得られる
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月7日
GANの復習
生成モデルの一つであり、生成ネットワーク(Generator)と識別ネットワーク(Discriminator)の2つのネットワークを敵対させるように学習させる。
Generative Adversarial Networksの略。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月8日
蒸留の復習
膨大なパラメータとなるモデルをより少ないパラメータのモデルに学習させる技術の1つ。すでに学習されている大きなモデル(教師モデル)を利用して、小さなモデル(生徒モデル)を学習させる手法。生徒モデルを単独で学習させるよりも過学習が緩和できる。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月9日
移転学習の復習
データ量が少ない等の理由で、対象タスクの学習が難しい場合に、関連した別のタスクで学習し、その学習済みの特徴やパラメータ等を利用することで効率的に対象タスクを学習すること。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月9日
ディープラーニングの特徴の復習
ニューラルネットワークを多層化したもの。観測データから特徴量となるパラメータを自動的に算出できる。従来の機械学習手法に比べ、学習が必要なパラメータ数が多い、計算量が多い、より複雑な関数を近似できる等の特徴がある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月13日
ノーフリーランチ定理の復習
あらゆるタスクに対して常に他よりすぐれている万能アルゴリズムは存在しないことを示した定理。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月13日
醜いアヒルの子の定理の復習
全ての客観的な特徴を等しく扱うと全ての対象は同程度に類似している、つまり特徴を選択したり重み付けしたりしなければ表現の類似度に基づく分類は不可能であることを示した定理。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月13日
バーニーおじさんのルールの復習
モデルのパラメータを学習するには、その数の10倍のデータ数が必要という経験則。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月13日
自己符号化器の復習
Autoencoderとも言う。
出力値が入力値に近づくよう学習する教師なし学習のアルゴリズムである。
隠れ層が入力の特徴を抽出した表現となり、入力値よりも次元削減が可能になる
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月14日
生成モデルの復習
訓練データの特徴を学習し、類似したデータを生成するモデル。例として、自己符号化器の潜在変数に確率分布を導入したVAEや、訓練データと生成器が生成したデータを識別器で判別させることによって学習を進めるGANなどがある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月14日
adversarial exampleの復習
学習済みのディープニューラルネットモデルを欺くように人工的に作られたサンプルのこと。サンプルに対して微小な差異を付加することで、作為的にモデルの誤認識を引き起こす。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月15日
データセットの復習
MNISTはアメリカの国立標準技術研究所が提供する手書き数字のデータセット。ImageNetは、スタンフォード大学がインターネット上から画像を集めて分類した約1400万枚の自然画像のデータセット。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月16日
内部共変量シフトの復習
ある層の入力がそれより下層の学習が進むにつれて変化する現象。
大規模なニューラルネットワークの学習が困難となる一因。
対策として出力値の分布の偏りを抑制するバッチ正規化が2015年に提案されている。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月17日
ニューラルネットワーク学習時の問題の復習
層が深いネットワークでは、入力層に近い層で学習が行われにくくなる勾配消失や、パラメータがつくる空間が高次元になり、その空間内の局所最適解や鞍点、プラトーに陥り学習が進まなくなる等の問題が発生する。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月17日
勾配消失問題の復習
誤差逆伝播法で、入力層に近づくにつれて誤差(勾配)が小さくなり、学習が進まなくなる問題。対策として、活性化関数にReLUを利用するなどがある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月18日
畳み込みニューラルネットワーク(CNN)の復習
畳み込み層とプーリング層で構成される。画像データの場合、畳み込み層では、出力サイズ調整のために元画像の周りを固定の値で埋めるパディングを行う。プーリング層では、枠内の最大値を出力するMaxプーリングなどを行う。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月18日
ハイパーパラメータのチューニング方法の復習
パラメータの候補値を指定し、それらの組み合わせを調べるグリッドサーチや、ハイパーパラメータを含め最適化問題とするベイズ最適化などの方法がある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月19日
クラスタリングの復習
未知の集合を、いくつかの集まりに分類させる教師なし学習。
K-meansというアルゴリズムを使用して顧客の分類を行いDM配信やレコメンドを実施するなどして活用される。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月19日
異常検知の復習
正常なケースを学習し、大きく異なるものを識別する教師なし学習の1つ。
SVMというアルゴリズムを基に、異常通信を検知するセキュリティシステムなどに活用されている。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月19日
物体検出の復習
画像をボックスに切り分けて、対象物がどこにあるかと、対象物が何かを推定するタスク。
2014年に考案されたR-CNN、2015に考案されたFaster R-CNN、2016年に考案されたYOLOなどがある。CNNの技術が内部で使用されている。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月19日
物体セグメンテーションの復習
対象物体と背景をピクセルごとに詳細に切り分けて、そのピクセルごとが示す意味を推定するタスク。1ピクセル毎にクラス分類を行なっていることになる。
EncoderネットワークとDecoderネットワークで構成されるSegNetなどがある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月20日
画像キャプションの復習
ある画像からそこに写っているものの説明(キャプション)を生成するタスク。画像処理と自然言語処理の両方を活用。キャプションは、対象となる画像をCNNに入力し、そこから得られた特徴をLSTMに入力することで生成する。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月21日
End to End Learningの復習
現在のディープラーニングのように入力から出力までの処理を一括して学習すること。
従来は、用意したデータを処理し、それが入力値となり、別の手法を用いて次の処理を行うといった、ステップバイステップの学習が必要だった。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月21日
音声認識の復習
1990年代は隠れマルコフモデル(HMM)による、音自体の判別と、Nグラム法による言語モデルで構成されていた。しかし、RNN等の登場により、音響特徴量から単語列などに直接変換するEnd to Endでの学習が可能となり、人的な前処理が不要になってきている。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月21日
損失関数の復習
損失関数は学習の目的に応じて決定する。
回帰問題には平均二乗誤差関数、分類問題には交差エントロピー誤差関数、分布を直接学習する際にはKLダイバージェンスなどが用いられる。
損失関数にパラメータの二乗ノルムを加えるとL2正則化となる。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月22日
強化学習の復習
機械が試行錯誤することで、取るべき最善の行動を決定していく学習方法。将棋やチェスなどのゲームや自動運転、ロボット歩行動作等に採用されている。代表的なアルゴリズムにQ学習がある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月22日
強化学習の課題の復習
<学習時間>
理論的には無限に学習することで、より良い結果が得られるが、現実には不可能。ロボットの場合、時間的にも部品の消耗など物理的にも無限の試行を繰り返すことは不可能。対策は物理的な状態を再現したシミュレータでの学習などがある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月22日
強化学習の課題の復習
<マルチエージェント応用>
複数のエージェントでの強化学習時に学習が不安定になる問題。例えば2体のロボット同士で学習開始時、初期状態であるタスクの学習が不安定になる。対策として逆強化学習や深層学習の技術を適用したDQN等がある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月24日
過学習対策の復習
汎化誤差を小さくする手法としてLassoやRidgeなどの正則化を用いることが多い。
また複数のモデルの予測結果の平均を利用するアンサンブル学習がある。
他にもランダムに一定の割合のノードを削除して学習を行うドロップアウトなどがある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月25日
処理の高速化の復習
深層学習では、学習するべきパラメータ数が膨大となるため、処理の高速化が必要となる。
2012年に提案された分散並列技術であるDistBeliefや画像処理に特化したプロセッサのGPUは、大規模なニューラルネットワークの学習に利用される。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2020年7月1日
自己符号化器の復習
教師なし学習の代表的な応用。出力が入力に近づくよう学習させる。主に次元削減のために利用される。活性化関数に恒等写像を用いた3層の自己符号化器は主成分分析と同様の結果を返す
代表的な応用例としてノイズ除去、NNの事前学習、異常検知がある
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月25日
層ごとの貪欲法の復習
自己符号化器を多層化すると、勾配消失問題が生じ、複雑な内部表現を得ることは困難だった。これに対して2006年頃にHintonらは、単層の自己符号化器に分割し入力層から繰り返し学習する層ごとの貪欲法を積層自己符号化器に適用した。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月26日
強化学習の特徴の復習
強化学習の特徴として
●正解データ付きの訓練データを用意する必要がない。(訓練データを用意することが難しいタスクに向いている。)
●一般的に学習には時間がかかる。
●状態遷移を考慮することができる。
などの特徴がある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月26日
最小二乗法の復習
モデルの予測値と実データの差を最小にするパラメーターを求める方法。
符号を考えなくてよいので計算がしやすい。
ただし、サンプル中に大きく外れた異常値が混じっている場合、この異常値に大きく影響を受けるので、異常値を 考慮する必要がある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月26日
重み更新に関わる単位の復習
単位としては、重みが更新された回数であるイテレーションと、訓練データを何回繰り返し学習したかを表すエポックがある。また一回のイテレーションに用いるサンプル数は、バッチサイズと呼ばれる。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月27日
データの前処理の復習
深層学習では、データの適切な前処理が必須。
異なるスケールの特徴量を同時に扱えるようにするために、平均を0に分散を1に規格化する標準化や、特徴量の線形結合からデータ内の分散が大きくなるような特徴量を得る主成分分析などがある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月27日
データの前処理(画像処理)の復習
画像処理の分野においては、減算正規化と除算正規化の処理を行う局所コントラスト正規化などが前処理として利用され、OpenCVなどの画像処理に特化したライブラリで行うことができる。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月27日
データの前処理(自然言語処理)の復習
自然言語処理のにおいては、文章に単語が含まれているかどうかをカウントするなどしてテキストデータを数値化するbag-of-wordsや文章に含まれる単語の重要度を特徴量とするTF-IDFなどがある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月28日
勾配降下法の復習
ディープニューラルネットワークのパラメータ最適化手法としてバッチ勾配降下法、ミニバッチ勾配降下法、確率的勾配降下法などの勾配降下法がある。
勾配降下法には、谷での振動、プラトーへのトラップ、局所的最適解への収束などの問題がある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月28日
強化学習の復習
強化学習では、行動を学習するエージェントとエージェントが行動を加える対象の環境がある。行動に応じて環境はエージェントに状態と報酬を返す。行動と状態/報酬獲得を繰り返し、最も多くの報酬をもらえるような方策を得ることが強化学習の目的。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月29日
確率的勾配法の復習
モメンタム:
以前の勾配の方向を現在の重みの更新にも影響させる
AdaGrad:
勾配の2乗を蓄積し、大きく更新された重みほど学習率を小さくする
RMSprop:
一度更新量が飽和した重みはもう更新されない欠点を、指数移動平均を蓄積することにより解決
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月29日
フレームワークの復習
Google社提供のTensorFlowやTensorFlowのラッパーとして機能するKeras、日本企業のPreferredNetworksで開発されたChainerなどがある。また、PyTorchはChainerと同じDefine-by-Run方式を採用している。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月30日
活性化関数の復習(1)
ニューロンの出力を非線形化変数する関数。単純パーセプトロンの出力層ではステップ関数が用いられ、ニューラルネットワークの中間層では、はじめシグモイド関数などの正規化の機能を持つ関数が利用された。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月30日
活性化関数の復習(2)
現在は、誤差逆伝播で勾配が消失しやすいという問題から、中間層ではこの問題の影響を抑えられ、かつ簡単なReLUなどが用いられている。また、出力層では出力の総和が1となり確率的な解釈が可能になるソフトマックス関数が利用されている。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月31日
画像データの前処理の復習
カラー画像を白黒画像に変換することで計算量を削減するグレースケール化や、細かいノイズの影響を除去する平滑化、画素ごとの明るさをスケーリングするヒストグラム平均などの方法がある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年10月31日
畳み込みニューラルネットワーク(CNN)の特徴の復習
畳み込み層のパラメータ数は全結合層と比べると大幅に削減できる。これは、重み共有によって、有効な特徴量を画像の位置によって大きく変化させないため。
これにより大幅に計算量が少なくなる。
#JDLA #G検定 の試験が11月9日に迫ってきました!受験される方、ラストスパート頑張ってください!
— 俺人〜Oregin〜 (@Oregin2) 2019年10月31日
私が今年の3月に合格するまでに使った、過去問,問題集など対策・体験記をまとめておりますので、参考にしていただけると光栄です。 https://t.co/xHbNHaLJ6Z #はてなブログ
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月1日
人工知能研究の路線の復習
Google・Facebook路線: 言語データによるRNNや映像データからの概念・知識理解を目指す
UCバークレー路線: 実世界を対象に研究を進め、知識理解を目指す
DeepMind路線: オンライン空間上でできるをターゲットにするして、知識理解を目指す
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月2日
欠損値の補完の復習
リストワイズ法: 欠損があるサンプルを削除する方法。欠損に偏りがあると、データ全体の傾向を大きく変えてしまう。使用に際し欠損に特定の偏りがないか確認する必要がある。
回帰補完: 欠損しているある特徴量と相関が強い他の特徴量で補完する。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月2日
CNNの畳み込み層の出力画像サイズの復習
入力画像の縦、横のサイズをih,iw,フィルタの縦、横のサイズをfh,fw,パディングをp,ストライドをsとすると、出力画像の縦、横のサイズoh,owは
oh=(ih+2p-fh)/s +1
ow=(iw+2p-fw)/s +1
となる。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月3日
ResNetの復習
学習パラメータ数が大量で、学習進まない問題に対し、入力層から出力層まで伝播する値と入力層の値を足し合わせたモデルで解決。入力層まで、勾配値が伝わり、1000層を超える深い構造でも学習が可能。2015年のILSVRCでResNetは人間の分類精度を超えた。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月3日
GANの復習
ランダムな数値入力から画像生成を行うDCGANや、文章から画像を生成するAttentionGAN等がある。
画像生成器(G)と画像識別器(D)から構成されGはDを騙す画像を出力し、DはGの出力画像と本物画像とを分類する。それぞれが学習し、Gは適切な画像生成が可能となる
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月3日
最適化の復習
損失関数の値をできるだけ小さくするパラメタを見つけること。
よく使われるものにSGDがある。SGDは対象の損失関数がある分布や方向に依存する場合、非効率な経路でパラメータを探索してしまう欠点がある。欠点を改善するためにAdam等の解決策が出てきた。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月3日
フレームワークの復習 (1)
ディープラーニングは一般的にフレームワークを利用して実装する。
多層のモデルを定義し、データを用いて学習・予測を実行するのがフレームワークの役割。大きく分けて2つの記述方法がある。
<続く>
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月3日
フレームワークの復習 (2)
1つ目は設定ファイルによる記述方法。CaffeやCNTKがある。
モデルの定義がテキストで設定でき、簡単に学習を開始開始させることが出来る。ただし、ループ構造をもつようなRNNなど、複雑なモデルの定義を記述することは難しくなる。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月3日
フレームワークの復習 (3)
2つ目はプログラムによる記述方法。
TensorFlowやChainerがある。
複雑なモデルでも比較的簡単に記述することが出来るが、それぞれのフレームワーク固有のソースコードであるため、モデルが使用しているソフトウェアに依存する欠点がある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月4日
カテゴリデータの扱いの復習
サイズS, M, Lなどの順序を持つデータを、それぞれの値に対応する数値を辞書型データで用意し、数値にマッピングする方法や、順序を持たないカテゴリーデータを各変数に対応したダミー変数を作り出す One-Hot エンコーディング等がある。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月4日
学習済モデルの活用の復習
転移学習: 学習済モデルで別の課題を学習し、少量データセットか、少計算量で高性能モデルを得る。
蒸留: 学習済大規模モデルの入力と出力を小規模モデルの教師データとして利用し、少計算資源で従来モデルと同程度の性能が実現可能となる。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月5日
画像認識モデルの復習
LeNet: 1998年に提案。現在のCNNの元となるモデル。初めて多層CNNに誤差逆伝播法を適用。
AlexNet: 2012年に提案。画像認識のコンペティションILSVRCで圧倒的優勝。画像認識におけるディープラーニング活用の火付け役。
<続く>
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月5日
画像認識モデルの復習
ResNet: ILSVRC2015において多くの部門でトップの成績を収めた。層が深くなってもうまく学習を行うことができるモデル。(出力)を、(入力)と(入力からの差分)の和で表現したニューラルネットワークモデルである。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月6日
CNNの復習
画像認識では、入力から出力に向かう結合のみを持つ階層的なニューラルネットワークが用いられる。特に画像に内在する局所的な特徴が集まって、より大域的な特徴を構成するという構造を反映した、畳み込みニューラルネットワーク(CNN)がよく用いられる。
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月7日
活性化関数の復習
【出力層】
回帰: 恒等関数
多クラス分類: ソフトマックス
【中間層】
従来: 双曲線正接関数、シグモイド
近年:
ReLU:入力が0を超えていれば入力をそのまま出力に渡し、0未満であれば出力を0とする
Maxout:複数の線形関数の中での最大値を利用する
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月7日
系列情報処理の復習
言語や動画のような系列情報の処理にRNNが用いられる。特にケプラー大学のゼップ・ホフレイター氏の提案したLSTMは必要な文脈情報の長さを制御し、時間を遡る誤差逆伝播の可能性向上。2016年Google翻訳にLSTMを取り入れ、非常に高精度な翻訳を実現
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月8日
教師あり学習の種類の復習
クラス分類: 与えられたデータがどの分類に当てはまるのかを識別する。例)画像の識別など
回帰: 様々な関連性のある過去の数値から未知の数値を予測する。例)売上の予測など
#JDLA #G検定 復習のつぶやき。
— 俺人〜Oregin〜 (@Oregin2) 2019年11月8日
誤差逆伝播の復習
1980年代に誤差逆伝播が提案されたが、現在ほど多層化出来なかった
理由1: 出力層の誤差を入力層に伝播する間に勾配が縮小し、入力層付近で学習が進まない勾配消失問題
理由2: 層数が多い学習の目的関数は極小値が多く、適切な初期値の設定が困難
1.G検定合格のため問題集の解答を一通り読破する。
G検定合格のために、まず実施したのは、問題集の解答を一通り読破したことです。
読破した問題集は、以下の問題集です。
最初、公式テキストから読み進めようかとも思ったのですが、問題集の解説が、非常にわかりやすかったので、「問題集の解答/解説を読む」→「問題を読む」の順に学習を進めました。
図解もされていて、平易な文章で記載されているので、初心者であった私にも理解することができました。 問題数も、最初に手をつける問題集としては、章ごとになっていて、多すぎず少なすぎず、学習を継続するのに適切な量でした。 また、巻末には、全体をカバーした模擬試験も用意されていて、充実の内容になっています。
2. G検定合格のために公式テキストを一通り読破する。
G検定合格のために、2番目に実施したのは、公式テキストを一通り読破したことです。
読破した公式テキストは、以下の公式テキストです。
問題集の解説を読破した後だと、用語などが理解できているので、公式テキストがスイスイ読み進められます。
章末には問題もついているので、時間に余裕があるときは、解きながら読み進めました。
また、重要な用語や、内容については、太文字の色付きになっていて、時間がないときや、復習するときは、太文字色付きの部分だけ飛ばし読みするだけでも勉強になります。
公式テキストというと、なかなか取っつきにくいテキストも多いのですが、このテキストは分かりやすいテキストだと思いました。
試験に向けての利用方法としては、用語を覚えるというよりも書いてある内容を理解することが重要だと感じました。
3. G検定合格のために問題集、公式テキストの章問題を解く。(テキストの章問題も一緒に解く。)
G検定合格のために、3番目に実施したのは、問題集と公式テキストの章問題を解いたことです。
問題を解いた問題集、公式テキストは、以下の問題集、公式テキストです。
問題集、公式テキストを読破している状況なので、初めて見るという問題や用語は、ほとんどない状態で、解答に望めます。
問題を解いていくことで、自分の理解が進んでいない分野が見えてきます。 時間をかければ解けるような問題ではないので、分からない問題が出てきたら、迷わず解答を見て、関連する公式テキストの章を確認しました。
この「分からない場合は、考え込まないでドンドン進む」というやり方は、限られた時間しかない本番の試験の時にも非常に有効でした。