35歳からのデータサイエンティスト

ふとしたことから、ジョブチェンジ。IT業界未経験ですが、データサインティストを目指して見ます。

久々の更新。会社のパソコンにインストール

久々です。

 

昨日まで別試験があったため、あまり勉強していなかったです。

まぁ、試験は別で書きますがおそらく落ちたので来年再チャレンジです。

 

 

さて、そろそろpythonがある程度わかってきたので、
グラフとか幾つかデータを分析しようと思いました。

anacondaは、なんなくインストールできたのですが、
seabornがインストールできない。

どうやら、proxyの設定のようです。

pip install seaborn がエラー・・・。

と、いろいろサイトで調べながら、聞きながら作業中です。

プログラマーを初めて気づいたのですが、
Gitってサービスがあるのですね・・・。

 

全然知らなかったよ~。

と思ったら、オープンが、2005年。

私がphpなどプログラミングを辞めた年ですね・・。

 

そりゃ、知らんがな。

 

と歴史を感じた日でした。

 

さておき、新しい用語や機能がたくさんでてきますが、
なんとかクリアしながら勉強勧めて行きたいです。


【世界で2万人が受講】実践 Python データサイエンス やっとnumpyが終わった。

この3連休、2日は朝まで飲みコース。

大いに遊びすぎたので残り、2日は勉強をすることにします。

pythonを簡単なのですが、業務で多少使えるようになってきたので
もうちょっと実際に使いやすいようにしたいかな~。

あんまり会社の人には日々の作業を自動化していることを
伝えず、余った時間でデータ解析をしたい。

統計と数学の勉強の進捗だとこっちの方が早く進みそうだけど、
とりあえず重回帰分析ぐらいはざっくり理論が早いので、
年末ぐらいまでに行きたいな~。

実務的には今月末までには、pythonのファイルの書き出しぐらいはしたい。

まだ、実務だとnumpyは使っていないので、うまくnp使って、
EXCELのデータを読み込み、処理という形をしたい。


本当はRも勉強したいのですが、実務活用ではpython覚えた方が役に立ちそうなのでこっちを少し勧めます。

 

 

pythonの数字処理

上司には、正式には伝えていませんが、一部業務でpythonを使って業務をしています。

現在の主な業務がBIツールの管理です。

 

一定期間ごとに売上などの集計を行っているのですが、

過去にも様々なイベントをおこなっているので、場合によってな日時だけ違うSQLを数十個実装するという作業があります。

 

単純のですが、差し込み印刷能代わりに、pythonを使ってみました。

イベント自体もエクセルで管理されているため、今までは実質手打ちだったのですが、

入力ミスや見間違えミスが多く、確認作業が非常に面倒でした。

 

ということで、単純なのですが差し込み印刷として、pythonを使ってい見ました。

 

と具体的に書きたかったのですが、眠いので寝ます。

 

時間があるときに、備忘録として日時処理を書いておこうと思います。

 

 

半年分のデータサイエンティストになるための学習プロセスの戦略とプラン

久々の休みで勉強中です。

この分野に従事してちょうど、一年ぐらい。

今の職場も半年たったので、半年後を目標にキャリアプランを考えて見ました。

 

まず、学習の視点から

データサイエンティストのスキルとしてよく取りげられる3つの視点で評価。

 

http://static1.squarespace.com/static/5150aec6e4b0e340ec52710a/t/51525c33e4b0b3e0d10f77ab/1364352052403/Data_Science_VD.png?format=750w

The Data Science Venn Diagram — Drew Conway

http://www.datascientist.or.jp/news/2014/pdf/1210.pdf

 

エンジニア力、サイエンス力、ビジネス力3つです。

 

 

エンジニア力

<現状分析>

ここは、どちらかというとビハインドが大きい。

プログラム経験は、大学以来だし、ディスレクシアの毛がある私は、

どちらかというとプログラミング向きじゃないかもしれない。

ただ、昔と違ってエディターが便利でハイライト機能や、

テキスト予測などを使ってやれるので注意すればある程度できると思う。

業務としてのプログラマーはちょっと厳しいし、戦略的に除外したので、

最低限理解できるレベルでやってきたいです。

SQLが一番、使っているかな~。業務の9割もSQL書いてBIツールの実装です。
(Bigqueryばっかり、jsonに苦戦中。RDBはほどほど理解あるが、リピートする構造に悩む)

 

<プラン>

業務的にはフロントに特化して行く予定。

hadoopとかサーバは必要最低限で!!

言語は、python、Rを主体にBIツール周りで使えそうなJavaScriptは時間が

余力があったらやりたい程度。

 

<現状態>

pythonはスタートアップが終わったので、Udemyで

データサイエンス講座を受講。実務でも自分用に作っているので、

ライブラリー入れながら実務でも使っていきたい。

Rは、見ながら叩ける程度。これは統計学習と合わせて勉強しようと検討中。

<目標>

機械学習を作るために使いたいな。

Python機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)

Python機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)

 

 この辺ぐらいまで行くのが目標。

 

サイエンス力

 

<現状分析>

統計は、大学で基礎はやったのですが、ブランクありすぎなので、再勉強。

習ったのは、重回帰分析とか実験計画法ぐらいまで。
実務で使ったことがあるのは、重回帰とアソシエーション分析かな~。

と、勉強し始めたが、さらにみどり本を買ったら

 

 わかんない。無理。

と悲鳴をあげたので戻って戻って

 <プラン>

統計学のための数学入門30講 (科学のことばとしての数学)

統計学のための数学入門30講 (科学のことばとしての数学)

 

 からやっています。

次に赤本と青本を経て、みどり本まで行きたいです。
(赤本がどっかにあるはずなんだけどな~。)

 

<現状>

微分までやりました。なんとか2ヶ月で終わりにしたい。

<目標>

2ヶ月、数学、1ヶ月赤本、1ヶ月、青本、2ヶ月、みどり本、

MCMCまで行きたい。(マルコフ連鎖モンテカルロ法・・・)

 

最後に、

 

ビジネス力

<現状分析>

ここは圧倒的に優位だと思っている・・・。

感じです。コンサルタントしての経験や自営業者としての経験は、

多分データサイエンス業界にもまずいないキャリアだと思う・・・。

現場レベルの業務理解能力や特定業界の知見はほどほどかと。

小売、アパレル、不動産、サービス業界は強みあり。

メーカーなど大企業は少し苦手ですが、なんとかなるでしょう。

 

<プラン>

さておき、宅建の勉強中なので不動産業界をもう少し深めつつ、

せっかくゲーム会社にいるのでもう少し内部を理解しておきたい。

 

<現状態>

ゲーム内経済については、スペシャリストが後ろの席なので、

いろいろと吸収したいな~。

 

<目標>

最低限のビジネス書は読みつつつ、中小企業向けの

データサイエンスについては、考えておきたい。

 

一応、目標は書いたので半年きっちり勉強していきたい。

 

バランススコアカードっぽくなったので他の視点も次回書いてみます。

 

 

 

 

 

python

ドットインストールとpythonスタートブックを元手になんとか基本的なことができるようになりました。

 

とりあえず日々の業務で使っているSQLの自動差し込みように作ってみる。

BIツール管理用に業務効率化できればと思っています。

 

やっぱり、目的があると勉強はかどりますね。

 

 

Pythonスタートブック

Pythonスタートブック