uraxuraxの日記

日々思ったことを綴っていこうと思います。

今日の学び: 2019/04/04

仕事ではじめる機械学習

Amazon CAPTCHA

6 効果検証

6.1効果検証の概要
6.2仮説検定の枠組み

統計的仮説検定の際にとりあえず立てる仮説のこと

統計的仮説検定において、帰無仮説が棄却されたときに採択される仮説のこと。

  • P値

統計的仮説検定において、帰無仮説の元で検定統計量がその値となる確率のこと。P値が小さいほど、検定統計量がその値となることはあまり起こりえないことを意味する。

統計的仮説検定において第一種の過誤を犯す確率のことで、P値の小ささの基準である。

6.3仮説検定の注意点
  • FWER(Family Wise Error Rate):

1つでも誤った発見をする確率

  • FDR(False Discovery Rate):

誤った発見の割合

  • FWERを抑制する方法としてはBonferroni法がある
6.4 因果効果の推定
  • セクションバイアス
  • RCT (Randomized Controlled Trial, ランダム化比較試験)

セクションバイアスの影響をなくすための手法で、研究対象を無作為(ランダム)に二つの集団に分けて比べる。

6.5 A/Bテスト
用語:

次回

7 映画の推薦システム

今日の学び: 2019/04/02

デジタル画像技術辞典200

https://www.amazon.co.jp/478984661X

5章: 静止画像の圧縮技術

25. 撮影直後のデータは超巨大

カラーフィルター

  • モザイキング :

イメージセンサーを画素単位でカラーフィルターの3色のうち1色を適当に割り当て配置する

  • デモザイキング :

1画素につき1色を取得し、未取得の色はその周辺画素で取得した同色から補完する手法

  • ベイヤーパターン:

ベイヤー配列とは?RGBはそれぞれ平等ではなかった | カメラと写真の辞書・写真が上達する用語集

ベイヤーパターンを45度回転させたパターン

  • EXRカラーフィルター

高感度と低感度のフィルタを組み合わせて明るい画像も暗い画像も撮影できるようにしたフィルタ

  • White画素

RGB3色画素とは別に全可視光を検出するW(White画素)を導入して高感度化を図ったフィルタ

  • LPF

LPFをつけることでモアレ(干渉縞)などを低減することができる。
一方、LPFをつけないことで画像を鮮明にすることができる

RAWデータ:
JPEG保有する階調数は8bit(グラデーション256段分)に対し、RAWデータの保有する階調数は12~16bit(グラデーション4096~65536段分)
その為、サイズは自然と大きくなる。

26 画像フォーマットの3つの課題
  • 課題1: イメージセンサで撮影した生画像にはモザイクがかかっている
  • 課題2: カメラとディスプレイの表示能力の違いで再現できない
  • 課題3: データ量が大きくなり過ぎる
27 色のデータを損失なしで保存する2つの方法

ディスプレイで表示するデータをそのまま保存する方法

先頭から順番にLZWというロスレス圧縮方法を用いる保存方法

28 画像データ圧縮の基本5ステップ
  • ステップ1: RGB3原色を色差信号に変換
  • ステップ2: 平面情報を1次元データ列に反映するための幾何学変換
  • ステップ3: 量子化
  • ステップ4: 符号化圧縮
  • ステップ5: ファイル化のためのフォーマット処理
29 ロスレス圧縮:LZW法
30 TIFFファイル

次回

5章

今日の学び: 2019/03/28

仕事ではじめる機械学習

Amazon CAPTCHA

5 学習のためのリソースを収集しよう

用語:

https://products.sint.co.jp/aisia/blog/vol1-20

  • 転移学習(Transfer Learning)

https://qiita.com/icoxfog417/items/48cbf087dd22f1f8c6f4

  • k係数(カッパ係数, Kappa Cofficient)

https://istat.co.jp/sk_commentary/kappa

次回

6 効果検証

今日の学び: 2019/03/22

仕事ではじめる機械学習

Amazon CAPTCHA

4章 システムに機械学習を組み込む

4.1 システムに機械学習を含める流れ
4.2 システム設計

バッチ処理とバッチ学習を混同しないこと。

処理

一括で何かを処理すること、またその処理そのもの。

  • リアルタイム処理

刻々と流れてくるセンサーデータやログデータに対して逐次処理をすること。

学習

  • バッチ学習(一括学習)

データをまとめて処理する最適化方針

  • オンライン学習(逐次学習)

データを1レコードずつ処理する最適化方針

  • ミニバッチ学習(一括学習と逐次学習の中間)

ある程度のデータをサンプリングしたグループを作り、このグループに対する一括学習を繰り返す。

Note: バッチ処理で逐次学習はあり得る。

用語:

バンディッドアルゴリズム: 実データに基いてWebサイトなどの改善を行う手法の総称

次回

4.3 ログ設計から