K.S.Ha

Bioinformatics / Data Analysis Portfolio

Data Analyst with an interest in biological datasets

About

Interested in data analysis and visualization, with projects involving biological datasets such as virus genomes and ClinVar variants.

코딩과의 인연은 어릴적부터 시작했던 네이버 마이홈, 나모 웹 에디터, HTML에서 시작되었습니다. 고등학생 때는 Visual Basic, 대학생 때는 MATLAB, 그리고 일하면서 JSP, Python, JavaScript까지 경험하게 되면서 지금의 데이터 분석까지 이어졌습니다.

이와 별개로 Bioinformatics에도 관심이 있어, 개인적으로 Biopython cookbook을 따라하며 다양한 분석을 시도했습니다. R도 공부했지만, 주로 Python을 활용하여 데이터를 탐색하고 분석하는 경험을 쌓았습니다.

TMI

도서실 지박령으로 살다가 고등학생때 담임 선생님의 추천으로 도전 골든벨에 출연해서 최후의 3인까지 갔었습니다. 당시 최후의 3인 중에서는 유일한 1학년이었습니다.

윈도우, 리눅스(Ubuntu), 맥을 전부 써봤습니다. 코딩할 때 편한건 맥 > 리눅스 > 윈도우 순입니다. 세팅도 혼자 할 수 있습니다.

주로 VScode(+Antigravity)를 씁니다. Pycharm은 쓰긴 쓰지만 리눅스에서는 일일이 설치경로까지 찾아가야 해서 번거롭고, Spyder는 리눅스에서 한글 입력이 안 돼서 불편해합니다.

대학교 전공은 컴퓨터쪽이 아니라 분자생물학이었지만, 그때부터 막연하게 '생물학과 코딩이 만난다면 어떨까?'라는 생각은 가지고 있었습니다.

Education

2010 ~ 2014 세종대학교 분자생물학과 졸업

Paper

Plant Cell Physiol. 2015

Genetic identification of ACC-RESISTANT2 reveals involvement of LHT1 in the uptake of ACC in Arabidopsis thaliana

Shin K, Lee S, Song WY, Lee RA, Lee I, Ha K, Koo JC, Park SK, Nam HG, Lee Y, Soh MS.

Certificate

2018.09 | 컴퓨터활용능력 2급

2025.12 | 데이터분석준전문가(ADsP)

2025.12 | SQL 개발자(SQLD)

Training

멋쟁이사자처럼 | 데이터분석 부트캠프 7기 수료(진행중)

NIPA | AI 전문 인력 양성 과정 이수

가톨릭대학교산업협력단 | 연구데이터 디지털 전환 및 표준화 교육

Skill

Python library

Data Processing

  • Numpy
  • Pandas
  • Polars

Visualization

  • Matplotlib
  • Seaborn
  • Plotly

Statistics

  • Scipy.stats
  • statsmodels

Bioinformatics

  • Biopython
  • GEOparse

Tools

Visualization

  • Tableau

Collaboration

  • Notion
  • Slack

Documentation

  • MS-Office

Data & Database

  • SQL
  • Oracle

OS & Environment

  • Ubuntu
  • Mac OS

Biology

Viral Genomic Insight: Structural and Evolutionary Profiling of Hantavirus and H3N2

Project summary

MSA와 Shannon entropy를 기반으로 Hantavirus와 Influenza H3N2의 유전자 변이 패턴을 분석하고, 거리행렬 기반 k-medoids를 이용해 유사한 서열들을 군집화

Our purpose

바이러스의 유전적 변이가 무작위로 발생하는지, 아니면 특정 영역에 집중되는지 확인하고, 유전적 거리와 서열 유사성 간의 관계를 규명하여 바이러스의 진화적 패턴과 군집 구조를 파악하는 것

Image

인플루엔자 H3N2 k-medoid 군집분석 결과

Process & Statics

1. NCBI Entrez 모듈을 이용해 바이러스의 게놈 데이터 입수

retmax=300, Hantavirus의 경우 segment S만 필터링해서 분석 진행

2. MUSCLE MSA

3. MSA 데이터를 바탕으로 Shannon entropy를 도출하여 변이 핫스팟 탐색, Mann-Whitney U test 진행

4. Phylogenetic tree 생성 후 거리행렬 기반 k-medoid(k=5) 및 Mann–Whitney U test, Spearman correlation(Influenza) 분석

인플루엔자는 H3N2 아종 고정으로 Mann–Whitney U test 대신 Spearman 상관분석을 적용함

Associated link

Lung Cancer Expression Insight: Identifying Key Genetic Drivers through DEG Analysis

Project summary

폐암의 병리학적 특성에 따른 생존 곡선 및 평균 생존 기간을 비교 및 시각화

Our purpose

암종별(SCLC vs NSCLC) 및 세부 병리학적 조직학(Histology) 분류에 따라 생존 곡선과 평균 생존 시간의 차이가 실제 통계적으로 유의미한지 분석하는 것

Images

폐암의 조직학적 유형에 따른 평균 생존기간 비교 (boxplot)

Process & Statics

1. GEOparse를 통해 GEO에서 폐암 데이터 입수 (Dataset No: GSE30219)

2. 필요한 칼럼만 추출한 다음 NSCLC, SCLC의 생존 곡선 및 평균 생존 기간 비교를 위해 Mann-Whitney U-test 및 Kruskal-Wallis test, Dunn's test를 진행

3. 암종/조직학적 분류별 생존 곡선 및 평균 생존 기간 비교

암종별 분류에서는 SCLC(소세포성 폐암), 조직학적 분류에서는 SCC(소세포암)와 LCNE(대세포 신경내분비암)의 중앙값이 15~20년으로 가장 낮았음을 확인

Associated link

ClinVar Insight Engine: Interactive Genomic Variation Analysis Dashboard

Project summary

clinVar의 유전자 변이 데이터를 분석하고, Tableau를 이용해 각 염색체별 현황 및 개별 유전자별 현황을 볼 수 있는 인터렉티브 대시보드 생성

Our purpose

clinVar VCF파일을 INFO 칼럼을 파싱해 CSV파일로 저장한 다음 Tableau 대시보드를 생성하고, Polars와 Plotly로 시각화는 것

Images

Tableau Dashboard (각 염색체별로 필터가 걸려 있음)

Process

1. clinVar에서 vcf파일 입수

2026.4.4일에 생성, GRCh37

2. VCF파일의 INFO칼럼 파싱 및 데이터프레임화

Tableau 대시보드를 만들기 위해 csv파일을 저장

3. Polars를 이용한 EDA 분석 및 Plotly를 이용한 시각화

4. Tableau를 이용한 대시보드 및 스토리보드 제작

Associated link

Team project

Marketing Efficiency Engine: Behavioral Segmentation and Strategy Optimization for Portugal Bank Telemarketing

Project summary

고객의 예금 상품 가입 전환률을 분석하고, 가입 전환률을 높일 방안을 고객 차원과 마케팅 차원에서 도출

Why? 이들이 은행측의 주요 타겟인 반면 가입 전환율이 제일 낮았음을 EDA를 통해 확인하였음.

Role

1. 전처리 파이프라인 설계 및 다변량 통계 분석(Multivariate Analysis) 주도

2. 고객 행동 데이터 기반의 세그먼트별 전환 가설 검정 수행

Process & Statics

Static analysis

1. Hypothesis Testing: Chi-square 및 Mann-Whitney U Test를 통해 타겟 그룹 간의 유의미한 행동 차이 규명.

2. ANOVA & Post-hoc (Tukey HSD): 그룹 간 평균 차이의 유의성을 검정하고, 사후 분석을 통해 가장 전환율이 낮은 20~40대 타겟층의 구체적인 이탈 원인을 수치로 증명.

3. FAMD (Factor Analysis for Mixed Data): 수치형과 범주형이 혼합된 데이터 특성을 고려하여 차원 축소를 진행, 고객의 복합적인 프로파일링을 2차원 평면상에 시각화하여 잠재적 기회 요인 포착.

Associated link

Humanoid Strategy Insight: Economic Viability and Productivity Analysis in Manufacturing

Project summary

사람의 노동력 데이터를 바탕으로 휴머노이드의 노동력을 추정하고, 제조업에서 휴머노이드를 도입했을 때의 이점에 대해 분석

Role

1. 공공 데이터(KOSIS) 기반의 산업 동향 분석 및 데이터 정문화(Normalization)

2. MTM 기법을 활용한 인간-로봇 작업 효율 비교 알고리즘 설계 및 함수화

Process

Preprocessing

1. KOSIS 통계 데이터의 복잡한 다중 헤더 구조를 분석 목적에 맞게 재설계.

2. 정규표현식을 활용하여 화폐 단위 및 비정형 텍스트를 정제하고 데이터의 일관성 확보.

3. melt 함수를 이용해 Wide-format을 분석 최적화된 Long-format으로 변환하여 시계열/비교 분석 토대 마련.

MTM

1. 특정 작업 동작을 MTM(Methods-Time Measurement) 기준으로 수치화하여 인간과 로봇의 생산성 차이를 정밀 비교.

2. 가변적인 무게(최대 25kg)와 작업 환경을 반영한 시뮬레이션 함수를 구축하여, 단순 정적 분석을 넘어선 동적 데이터 도출 성공.

Associated link

Event-based Branding Insight: Integrated Funnel Structure and Productivity Analysis of the Rextreme Marketing Campaign

해당 프로젝트의 경우 프로젝트를 의뢰한 곳이 사업체인 관게로 따로 GitHub에 코드를 올리지 않았습니다.

Project summary

SNS·GA4·구매 데이터 통합 분석을 통해 렉스트림 이벤트의 단계별 퍼널 성과와 병목 구간을 진단하고, 일회성 관심을 넘어 브랜드 이미지 전환을 위한 지속 가능(Continuity)한 마케팅 최적화 전략을 도출

Role

1. GA4 기반 사용자 행동 데이터 분석 및 전환 퍼널 최적화 지표 수립

2. 유입 채널별 기여도 분석을 통한 고객 접점(Touchpoint)별 마케팅 효율 검증

Process

GA4 analysis & Funnel

1. GA4에서 발생한 일별 이벤트 및 사용자 데이터를 수집하고, 분석 목적에 맞게 전처리하여 유입-탐색-구매로 이어지는 데이터셋 구성

2. '방문 → 탐색 → 도입 의사 결정(상세 확인) → 최종 전환'으로 이어지는 사용자 경험 단계를 정의하고, 각 단계별 잔존율(Retention Rate)과 이탈 규모를 수치화

3. 전체 전환율을 기준으로 최대 규모 이탈 구간(방문→탐색)과 핵심 병목 구간(결정→구매)을 파악하여 프로세스 개선 시사점 도출

4. 리퍼럴(Referral), 검색 등 유입 경로/채널별 사용자 수와 실제 전환 사용자 수를 비교하여 전환 효율이 가장 높은 핵심 채널 식별

Associated link