분류 전체보기 22

# 데이터 연결 분석이 중요한 시대

데이터시장현황 국내 데이터산업 시장 → 계속해서 성장중 '21년 약 23조, 5년간 GAGR(연평균 성장률) 12.6%로 빠르게 성장중 시장규모 전망: 29.3조('23) - 33조('24) - 37.1('25) - 47.1('27) 오픈뱅킹·마이데이터 시행으로 금융 분야를 중심으로 데이터 통합 진행중 기업 내부, 이종 산업간 데이터 연결 가속화 왜 데이터 연결인가? 소비자 편의성 제고 ex) 오픈뱅킹: 여러 금융기관에 분산된 예금, 대출, 보험, 카드 등 데이터 연결 ~ 효율적인 자산관리 서비스 제공 마이데이터: 금융 → 빅테크·의료 등으로 확대 23. 2월 개인정보보호법 개정 개정안 주요내용 : ① 불합리한 동의제도 완화, ② 정보주체 권리 확대, ③ 정보통신 서비스 제공자에 대한 특례규정 삭제, ④..

py) return과 print의 차이

알고리즘 연습을 하다가 return과 print의 개념에 대해 명확히 짚고 가면 좋겠다 싶어서 작성해본다. 먼저, return -> 말 그대로 값을 '반환'하는 것이고 print -> 말 그대로 값을 '출력'하는 것이다. 그런데 왜 헷갈릴까? 다음의 예시를 살펴보자. # return 예시 함수 def func1(x): a = 10 b = 3 ans = a + b*x return ans c = func1(10) # 반환 값은 40 c # print 예시 함수 def func2(x): a = 10 b = 3 ans = a + b*x print(ans) d = func2(10) # 출력 값은 40 d (indent가 왜 저렇게 뜨는지 모르겠다;;) c의 값 d의 값은 모두 40으로 같다. 하지만 c의 경우, ..

Python 2023.05.03

책 [데이터 리터러시] 내용 발췌

구텐베르크의 금속활자가 기술적 혁신을 넘어 역사적 도구가 된 것도 '지식의 개인화'에 기여했기 때문이라는데, 데이터 역시 그에 필적할 만한 도구로 기능할지 기대된다. 데이터를 그런 도구로 만들려면 데이터 활용에 필요한 생각 근육을 키워야 한다. ... 데이터는 어디가지나 생각을 거드는 도구이지, 그 자체가 생각이 될 수는 없기 때문이다. 데이터는 분석의 대상이 아닌 소통의 도구이고 그렇기에 언어를 배우듯 접근해야 한다. (서문 中) - 글로벌 주요 기업들이 가진 데이터의 약 60-73%는 전혀 분석되지 못하고 사장된다(2019, 포레스터Forrester) - 처리되지 않고 막연히 '언젠간 쓸 일이 있겠지' 하며 쌓아둔 데이터: 다크 데이터(dark data) - 전 세계 데이터의 80% 이상(가트너Gar..

AI 교양 2023.05.02

성공 지표와 가드레일 지표

프로덕트 개발 프로세스는 일반적으로 다음의 과정을 거친다. 1. 기획 및 플래닝 2. 디자인 3. 개발 4. QA 5. 성과분석 그리고 분석가는 이 모든 단계에 대부분 참여하게 된다(!) 프로세스 중 성과분석 단계에서 기획 단계에서 정했던 '성공 지표'와 '가드레일 지표'를 지속적으로 모니터링 하면서 효과가 있는지 확인한다. 여기서 '성공 지표'와 '가드레일 지표'는 무엇인가? A/B 테스트를 진행할 때 체크해야 할 중요 지표(metric)들인데, (A/B 테스트에 대해서도 추후 포스팅해보자) 성공 지표(success metric): 가설을 검증할 수 있는 지표 기능이 사용되는 것 / 의도하고자 하는 바가 얼마만큼 이뤄졌는지 확인 ex) 장바구니 결제율, 크로스플랫폼 설치율, 구독 전환율, 콘텐츠 소비율..

Data Science 2023.04.07

<한 권으로 끝내는 AI 비즈니스 모델> 1장 리뷰

1장 [ 혁신을 이뤄낼 공간은 어디에 있는가 ] STEP 1 > AI 혁신의 종류부터 이해하라 # AI 혁신의 핵심요소 알고리즘, 데이터, 애플리케이션 # AI 혁신의 특징 테크놀로지 푸시 (V) 마켓 풀 STEP 2 > 엔지니어의 눈으로 문제를 통찰하라 # 문제정의의 중요성 사용자 / 문제 / 명분 / 제약 / 이점 # 사례: Zone7 1. - 데이터 분석에 관심을 갖고 있는데 다시금 데이터의 중요성을 인지하게 되었다. 인공지능이라는 건 결국 인간이 사고하는 것을 따라가고, 이를 더 키워나가려는 것인데, 그 사고하는 학습에 있어서 결국 많은 데이터가 주어져야 하는 것이 필수이기에. 열심히 공부하자는 동기를 획득. 2. - 다른 영역과 다르게 AI 분야가 기술적인 부분이 중요하기 때문에, & 기술적인 ..

AI 교양 2022.11.21

한 권으로 끝내는 비즈니스 모델

책: 1장: 혁신을 이뤄낼 공간은 어디에 있는가 "많은 경우 사람들은 원하는 것을 보여주기 전까지는 자신이 무엇을 원하는지 모른다." - 스티브 잡스(Steve Jobs) 1. AI 혁신이란 AI(Artificial Intelligence, 인공지능): 인간의 지각능력, 추론능력, 학습능력, 이해능력 등을 컴퓨터 프로그램으로 실현한 기술을 의미 지능을 모방한다는 의미: 지능을 가진 인간은 동물과 다르게 사고를 한다 인공지능이 바로 인간의 사고과정인 추론과 판단을 하며, 이 사고를 더욱 잘해내기 위해 학습 데이터 학습을 통해 경험을 반복하면서 점점 발전 AI 혁신: 이러한 인공지능 기술을 이용해 혁신(Innovation)을 하는 것 인공지능 기술을 이용해 고도화된 기능..

AI 교양 2022.11.21

ADF(Augmented Dickey-Fuller Test) 검정 간단 정리

ADF(Augmented Dickey-Fuller Test) 검정 간단 정리 : 시계열의 안정성(stationary)을 테스트하는 통계적 방법 [ 순서 ] 1. 귀무가설(Null Hypothesis) 세움: 주어진 시계열 데이터가 안정적이지 않다 2. 통계적 가설 검정 과정 3. 귀무가설이 기각된다면: 대립가설(Alternative Hypothesis) 채택 ▶ 이 시계열 데이터가 안정적이다 [ 귀무가설 / 대립가설 ] 귀무가설(Null Hypothesis) 대립가설(Alternative Hypothesis) 의미 처음부터 버릴 것을 예상하는 가설 (차이가 없거나 의미있는 차이가 없는 경우의 가설) 귀무가설이 거짓이라면 대안적으로 참이 되는 가설 단위근 자료에 단위근이 존재한다 자료에 단위근이 존재하지 ..

데이터 전처리 코드 정리

import numpy as np import pandas as pd pd.read_csv("") 0. 기본 정보 확인 df.index df.columns df.head() df.tail() df.shape df.info() df.describe() 1. 결측치 확인(Missing Data) df.isnull() df.isnull().sum(axis=0) df.isnull().any(axis=1) df[df.isnull().any(axis=1)] : 값이 True인 데이터만 추출 df.dropna(how='all/any', subset=[], inplace=True) 2. 중복 데이터 확인 3. 이상치 확인(Outlier) z-score IQR 4. 정규화(Normalization) 5. 원-핫 인코딩(..

Data Science 2022.11.16

[Pandas] datetime / dt / dt.isocalendar

1. pandas.to_datetime [공식문서] - 날짜/시간을 사용하는 datetime 객체로 변환 - 보통 csv 파일 불러왔을 때 날짜가 object로 되어 있는 경우가 많음, 이를 datetime으로 타입 변경 - 날짜/시간 활용도가 높아짐 # ex 1 df['date'] = pd.to_datetime(df['date'], format='%Y-%m-%d') # ex 2 df = pd.DataFrame({'year':[2015, 2016], 'month': [2, 3], 'day' : [4, 5]}) pd.to_datetime(df) >> 0 2015-02-04 1 2016-03-05 dtype: datetime64[ns] %d : day ..

Python 2022.11.16

Regularization & Normalization

Regularization(정칙화) 오버피팅(overfitting)을 해결하기 위한 방법 중 하나 오버피팅(overfitting): 과적합, train set은 매우 잘 맞히지만 validation/test set은 맞히지 못하는 현상 기출문제는 외워서 잘 맞히지만, 새로운 응용 문제로 시험을 볼 때는 잘 풀지 못하는 경우이다 ex) L1, L2 Regularization, Dropout, Batch normalization 모델이 train set의 정답을 맞히지 못하도록 오버피팅을 방해(train loss가 증가) 하는 역할 train loss는 약간 증가하지만 결과적으로, validation loss나 최종적인 test loss를 감소시키려는 목적 ▶ 오버피팅을 막고자 하는 방법 Normalizat..

ML 2022.11.16