'데이터' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

Julie 네이버 블로그

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록데이터 (2)

SWE Julie's life

Data Sampling에 관하여 - (2) Bootstrap, 부트스트랩

이전 글에서는 데이터 샘플링에 대한 개념과 랜덤샘플링, 편향(Bias)에 대해 간단하게 살펴보았다. 이번 글은 Bootstrap 이라는 개념에 대해 알아보자. 통계량의 표본 분포에 대해 측정하려고할 때 가장 쉽고도 효과적인 방법은, 반복해서 샘플링을 추출해내는 것이다. 이 때 복원 추출을 허용한다. 우리가 A라는 모집단에서 A', A'', A'''..., 로 표본을 계속해서 뽑고 그 표본의 통계량을 반복해서 계산한다고 생각해보자. 표본을 추출하는 횟수를 늘려갈수록 이 통계량들의 평균은 A 모집단의 통계량 평균과 유사해질 것이다. 이 과정을 Bootstrap이라고 부른다. 부트스트랩은 표준분포와 같은 일반적인 가정을 포함하여 어떠한 조건도 요구하지 않아 간단하다. Bootstrap 과정을 간단하게 ..

Tech/ML, DL 2022. 4. 2. 13:39

ML Ops, 머신러닝 파이프라인 설계 - (3) Data Ingestion

이번 글부터는 머신러닝 파이프라인 단계별로 좀 더 상세하게 살펴볼 것이다. 일단 가장 첫 단추라고 할 수 있는 데이터 Ingestion 부터 알아보도록 하자. TFX 는 데이터를 파일 혹은 어느 서비스 형태로 파이프라인에 삽입할 수 있도록 Component를 제공한다. 그 중 하나가 TFRecord , 즉 사이즈가 큰 데이터를 스트리밍하는 용도로 최적화된 경량화된 format 이다. TFRecord 파일은 여러개의 tf.Example 레코드로 구성되어 있는데, 각 레코드는 하나 이상의 feature 로 구성되어있다. feature는 데이터에서 컬럼에 대응하는 단위로 생각하면 된다. 이 레코드들이 바이너리 형식의 TFRecord로 저장되게 된다. 따라서 큰 데이터를 write하거나 다운로드할 때 최적화..

Tech/MLOps 2021. 9. 7. 23:19

이전 Prev 1 Next 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

SWE Julie's life

목록데이터 (2)

SWE Julie's life

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역