tkherox blog

データサイエンスおよびソフトウェア開発、たまに育児についての話を書いています

terraformで if 分を扱ってみたい

はじめに Terraformとは 実装方法 まとめ はじめに terraformでモジュールを定義している際にIF文を扱いたいと思った際に調べたことをまとめておきます。 結論から言うとTerraformでは他のプログラミング言語で実装されているIF文と呼ばれる構文は定義されて…

GCP Associate Cloud Engineer を受けたよ

はじめに Associate Cloud Engineer試験 勉強開始前の状態 試験対策 試験結果 まとめ はじめに 最近仕事でGCPを触る機会が増えてきたので、 Google Cloud 認定資格である「Associate Cloud Engineer」の資格を取得しました。この記事では学習前の状態から実…

ネットワークスペシャリストに合格するまでの勉強法

本記事で記載すること 勉強方法 午前対策 午後対策 全体のスケジュール 全体所管 試験傾向 試験結果 まとめ 本記事で記載すること 本記事ではネットワークスペシャリストに合格するまでの実体験をもとに学習として取り組んだ内容を中心に簡単に記載しようと…

S3で5GB以上のファイルを操作する方法

はじめに 実行環境 発生事象 原因と解決策 まとめ 参考情報 はじめに データ分析に関わる人であれば誰でも一度は AWS の S3 をストレージとして利用したことはあるかと思います. 今回は Jupyter Notebook より boto3 を介して S3 に5GB以上のデータを保存し…

SHAPの各種可視化プロットを日本語化する

今回の記事は備忘録も兼ねて軽めの内容を記載していきます. はじめに 実行環境 問題 対策 まとめ はじめに 機械学習のモデル解釈で頻繁に用いられるのがSHAPです. 実際のデータ分析の現場で頻繁に用いられるライブラリとしては shap があります. github.c…

flowWeaverでSankey Diagramの可視化

今回は可視化の記事についてです. Sankey Diagramとは floWeaver 実行環境 インストール floWeaverの実装方法 データ 可視化 まとめ 参考資料 Sankey Diagramとは SanKey Diagramとは各プロセス間の流量を表現する可視化パターンです.矢印の向きでプロセス…

『ソフトウェア・ファースト』を読んでみて

今回は読んだ書籍について私なりの意見を記載していこうと思います. 本の選定 読了した後の考え方の変化 ソフトウェアの過小評価 マネージャーの在り方 主役は現場社員 10X思考 全員がプロダクト志向 まとめ 本の選定 社内人になってライフステージも変化し…

CLIアプリケーションのためのTyper

Typerとは インストール 使い方・実装方法 CLI Arguments CLI Options SubCommand まとめ 参考資料 Typerとは TyperはCLIアプリケーションを作成するためのライブラリです. github.com Typerの特徴は大きく以下になります. 直感的なコーディング 使いやす…

データ分析におけるキャリブレーション

キャリブレーションとは クラス分類におけるキャリブレーション キャリブレーションの評価指標 Reliability Diagram Expected Calibration Error(ECE) Maximum Calibration Error(MCE) キャリブレーション方法 Isotonic Regression Platt Scaling キャリブレ…

matplotlibの文字化け解決の最適解『japanize-matplotlib』

matplotlibの文字化け 対処法 japanize-matplotlib まとめ matplotlibの文字化け データ分析を行なっている方であれば当然EDA(探索的データ分析)のフェーズで自身が扱っているデータを理解することに努めると思います.このプロセスを丁寧に行うことで「扱っ…

令和2年秋季応用情報技術者試験の受験結果は...

経緯 受験結果 次の試験に向けて まとめ 経緯 過去の記事で「応用情報技術者試験に合格するまで」というタイトルで内容を記載しています. その中で令和2年秋季の応用情報技術者試験の受験報告と自己採点を記載したのですが,正式な受験結果を記載していなか…

データ分析でもアルゴリズム『いもす法』

はじめに 『いもす法』ってなんぞや Pythonでの実装例 まとめ はじめに データサイエンスを日常的に行う中で大量のデータを扱うことが往々にしてあります.その際に頻繁に発生してくる問題が膨大な計算量による待ち時間発生や計算が有限時間内に終了しないと…

Pytorchにおけるモデル保存の使い分け

はじめに モデル保存パターン 各パターンの解説 state_dictのモデル保存 entireのモデル保存 TorchScriptのモデル保存 べストな保存方法 まとめ はじめに TorchServeを利用してサービングを実施する際にモデルの保存方法についていくつかパターンがあり,Tor…

TorchServe入門

TorchServeとは アーキテクチャ メリット 事前準備 利用データ インストール TorchServe実践 モデル作成 デプロイ 推論リクエスト まとめ TorchServeとは TorchServeはPytorchで構築したモデルをサービングするためのモデルサービングライブラリです. AWSと…

DjangoのORMにおけるコネクション管理

事の経緯 Django ORMとは Connection管理 まとめ 事の経緯 DjangoのORMについて深く理解しておらず,Djangoにおけるコネクションの管理とかってどうなっているのだろと気になったので調べてみました. 加えて,このままなんとなくで利用していたら,いつか絶…

応用情報技術者試験に合格するまで

応用情報技術者試験とは 受験日までのロードマップ 書籍やツール 具体的な勉強法 【午前対策】通勤時間での1問1答 【午後対策】仕事終わりの1時間で午後対策 【直前対策】過去問演習 試験 合格判定 まとめ 応用情報技術者試験とは 応用情報技術者とはIPAが試…

SHAPでモデルを解釈してみた

はじめに SHAPとは ライブラリについて インストール データセット モデル作成 LightGBM Xgboost SHAP Value Violin Plot Dependence Plot Monotonic Constraints まとめ はじめに XAI(Explainable AI)という言葉を聞いたことはありますでしょうか. 日本…

リモートワーク効率化に向けて自宅環境の整備をしてみた

自宅環境は整備しよう 購入した機器 デスク ディスプレイ マウスとキーボード PCスタンド 自宅整備を実施して良かったこと 生産性 モチベーション維持 個人ワーク時間が増加 まとめ 今回の記事は本ブログの趣旨から外れるため投稿するか迷いましたが,是非皆…

Pythonデータ分析100本ノックを実践【後半】

はじめに 後半部分の内容について 実践してみて 意外と苦労したポイント まとめ はじめに 本記事は過去記事のPythonデータ分析100本ノックを実践【前半】の続きの内容になっています.Pythonデータ分析100本ノックの書籍内容については前半にて言及しており…

MixConvの論文を読んでみた

MixConvとは 概要・イントロ 関連研究 MixConvの手法 MixConvにおけるデザイン設計 パフォーマンス MixNet まとめ MixConvとは MixConv1とはConvolutional Nueral Networkのにおいてパラメータ数を減らしつつ,高精度を実現する新しい畳み込みを提案した手法…

Pythonデータ分析100本ノックを実践【前半】

Pythonデータ分析100本ノックって? 書籍構成 対象者はどれくらいの層なのか? 前半部分を実践してみて まとめ Pythonデータ分析100本ノックって? Pythonデータ分析100本ノックとは秀和システムから出版されている書籍です.現場を想定したデータ分析に必要な…

DjangoのURLFieldでURLValidatorを設定できなかった話

やろうとしていたこと 問題との遭遇 原因 解決策 まとめ やろうとしていたこと 事の経緯を簡単にお話すると,DjangoのRestFrameworkにて一部のモデルに対してURLFieldを用いてURL情報を保存するカラムを用意してAPIを作成していました.そんな矢先にURLに登…

Django Rest FrameworkでAPIをサクッと作ってみた

Django Rest Framworkとは Django Rest Frameworkの仕組み インストール 実装方法 APIサーバの実行 まとめ Django Rest Framworkとは Pythonのwebフレームワークと言えばDjangoがメジャーですよね. Flask等の軽量フレームワークなどもありますが,世の中で…

dvcによるデータの管理をしてみた

はじめに dvcのインストール dvcの使い方 ファイル保存先をリモートサーバに設定 まとめ はじめに 最近ではKaggleなどでkernelをsubmitしてコンペティションに参加するなどデータ分析においてもデータの管理や試行した履歴を残すといった再現性により一層注…

回帰における評価指標

回帰の評価指標はこれ 評価指標の種類 決定係数 平均絶対誤差(MAE) 平均二乗誤差(MSE) 平均二乗平方根誤差(RMSE) 平均絶対パーセント誤差(MAPE) なぜ「MAEとRMSE」なのか 整数値で均一な観測データを含む場合 外れ値の観測データを含む場合 予測値が小数点以…

G検定に合格した時の勉強法

はじめに G検定とは 勉強前の状況 教材 学習方法 受験 合格結果 まとめ はじめに XAIの流行りもあり最近ではGBDT系のアルゴリズムを活用する場合が多いのですが,特徴量エンジニアリングの過程の中で深層学習を用いた特徴量生成などに挑戦する機会があり,デ…

データ分析における基礎【モデル評価】

はじめに 一般的なデータ分析の問題設定 問題設定の種類 適切な分類とその評価 分類 回帰 まとめ はじめに データ分析におけるモデル評価についての内容をまとめてみます. データ分析を初めて行うとモデル作成や手法に注目しがちですが,目的を達成するため…