9月と10月
生きてます.
研究室のあれこれ
ML系の研究室なら実験の再現性や環境を共有、担保するためにdocker使ったり、過去の実験なんかが繰り返し試せるような基盤作りをした方が良いと思うわけですが、
— shopetan (@ss_shopetan) 2017年9月28日
結局同じレベルのリテラシを持った(または志してくれる)ラボ生がいる前提じゃないと成立しないんだよな
うちのラボ全体でみたらgit分かる人がまず半数しかいないらしいので、それを教育するコスト、窓口役をするコスト、理解されない以上1人で運用保守が行われる危険性、その結果属人化して俺の卒業後に誰も分からなくなる可能性などなど
— shopetan (@ss_shopetan) 2017年9月28日
問題解決に対して明らかにコストが高すぎる
研究室での運用は難しいという話.
個人的にはそれくらいの周辺知識は持っていてほしいなと考えるわけですが,難しさも当然あるなと思う.
特にM2,B4は一部を除いて基本的に研究室に来ないので彼らとのコミュニケーションはまず諦めないといけない.
加えてそんな彼らに対して指導をすることは一学生の身分では不可能なので,研究室を脱出する以外の方法はないと思った.
未来の明るいB3生の研究室配属が決まったので,個人個人のパワープレイで殴っていける組織教育をしていきたい所存.
組織の一部の人間の態度がデカかったり、他人を舐めた態度取るせいで組織全体に嫌悪感湧く現象に名前つけて
— shopetan (@ss_shopetan) 2017年10月20日
リスペクトし合えない文化は嫌いという話.
他所の組織を貶すのも構わないが,発言には責任を持ってほしい.
その他大学院の話
こちらが受けたコメント例になります pic.twitter.com/9eIfqg8aKX
— shopetan (@ss_shopetan) 2017年10月12日
これうちの大学院生にも言いたいけど,「よく分からなかった」とかレスポンスされても応答出来ないから勘弁して欲しい
— shopetan (@ss_shopetan) 2017年11月1日
基本的に弊大学院は他所の大学院と比較して卒業に必要な取得単位数も多く,面倒な課題も多い.
上記のツイートは学内での自身の研究発表に対して受けたレビュー(質問用紙)に回答するレポートの話(必修).
研究発表をする以上は議論がしたいので,分からなかったという当日の質問は基本的に歓迎.
が,分からなかったことを分からないとコメントだけされても,何が分からなかったのかが分からないので非常に困る.
要はロクでもない課題を出すなということ.
slack障害時
slackが落ちたことで,Githubが落ちた時のエンジニアの気持ちがわかってもらえたと思う pic.twitter.com/vbNhv4Jw98
— shopetan (@ss_shopetan) 2017年10月31日
みんな帰りたいのだと思った.
研究や面白い論文の話
いわゆる最適化問題を解くという問題に帰着した.
Y.Ito, S.Oeda, and K.Yamanishi: “Rank selection for non-negative matrix factorization with normalized maximum likelihood coding." Proceedings of SIAM International Conference on Data Mining (SDM2016), pp:720-728, Mar. 2016.
NMFなどの行列因子分解では行列を分解する際に適切なrank数(何行何列の行列に分解するか)を設定する必要がある.
人間や専門家が決定したrank数は情報理論的に正しい根拠がなく,専門家が決定した内容が正しいとは限らない.
そこで情報理論における符号化長の決定に用いるNML(正規化最尤符号化長)に基づいて推定できないかという話.
情報理論に基づいた推定方法はAIC,BIC,MDLなど様々なものが存在するが,どの手法も潜在変数(この場合,rank数が潜在変数となる)が含まれる場合は適切なパラメータを決定することができない.
そこでこの研究では完全変数化という方法を用いて観測変数と潜在変数を同時に現れるものとし,rank数の決定に応用している.
仕事などの話
9月
メルカリのインターン期間は8月いっぱいであったが,無事に成果を出せたこともあって長期バイトという扱いに変化した.*2
会社では同期の行なっていた業務の内容を引き継ぎ,精査された本番環境にデプロイするところまでを行なった.
久しぶりにPRレビューバトルを行なったがコメントは余裕で100件以上指摘していただいた.
自分にこれだけの時間を割いてくれるのもありがたいですが,それ以上に質の良いものを本番に持ってくというプロフェッショナル精神とマンパワーに圧倒される1ヶ月だった.
特に平気な顔してすごいことをやってのける人ばかりで,まだまだ自分は未熟だしエンジニアリングも足りてないなと思った.
「データサイエンスを扱ってる人は会社によっては分析だけが仕事になる場合があるが,君は機械学習エンジニアなので,エンジニアリングも徹底して出来る人になってほしい.素養あるし頑張って.」と,終わらないレビューで凹んでいた自分に対してメンターさんから激励をもらった.
期待に応えられるだけの地力を残りの学生生活でも身につけられるように勉強する.
そのほかに,会社に居て良かったなと思うのはベースラインとしてよく用いられるナイーブベイズ君を好きになったこと.
分類に深く影響する特徴量の影響度合いを調べるのも簡単だし,何より早い安い旨いの3拍子揃ったようなイケてるやつだなと思った.
全然利用していなかったがclass_weightもデータによってはいい影響を及ぼすものもあって,それぞれのオプション引数も深掘りしていくと面白いなあと思った.
今月読んだ本
- 作者: アンドレアス・M・アントノプロス,今井崇也,鳩貝淳一郎
- 出版社/メーカー: エヌティティ出版
- 発売日: 2016/07/14
- メディア: 大型本
- この商品を含むブログ (7件) を見る
なんとなく技術概要は知っていたがマイニングもしたいので体系的に勉強しようと思って買った.
ざっと見だけどエンジニア素養のある人は抵抗なく読めると思う.
情勢の変化が激しいのでこれ以外にも時事関連のキャッチアップを引き続き勉強する必要がある.あくまで手元にあると良いなって感じの本.