일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 플랫폼
- BERT이해
- 자연어처리
- COFIBA
- MAB
- BANDiT
- 머신러닝 파이프라인
- aws자격증
- chatGPT
- BERT
- 네트워크
- transformer
- 중국플랫폼
- 추천시스템
- HTTP
- docker
- MSCS
- llm
- TFX
- 언어모델
- AWS
- 클라우드
- 머신러닝
- RecSys
- Collaborative Filtering Bandit
- 미국석사
- MLOps
- 메타버스
- 클라우드자격증
- nlp
- Today
- Total
목록데이터 (2)
Julie의 Tech 블로그
이전 글에서는 데이터 샘플링에 대한 개념과 랜덤샘플링, 편향(Bias)에 대해 간단하게 살펴보았다. 이번 글은 Bootstrap 이라는 개념에 대해 알아보자. 통계량의 표본 분포에 대해 측정하려고할 때 가장 쉽고도 효과적인 방법은, 반복해서 샘플링을 추출해내는 것이다. 이 때 복원 추출을 허용한다. 우리가 A라는 모집단에서 A', A'', A'''..., 로 표본을 계속해서 뽑고 그 표본의 통계량을 반복해서 계산한다고 생각해보자. 표본을 추출하는 횟수를 늘려갈수록 이 통계량들의 평균은 A 모집단의 통계량 평균과 유사해질 것이다. 이 과정을 Bootstrap이라고 부른다. 부트스트랩은 표준분포와 같은 일반적인 가정을 포함하여 어떠한 조건도 요구하지 않아 간단하다. Bootstrap 과정을 간단하게 ..
이번 글부터는 머신러닝 파이프라인 단계별로 좀 더 상세하게 살펴볼 것이다. 일단 가장 첫 단추라고 할 수 있는 데이터 Ingestion 부터 알아보도록 하자. TFX 는 데이터를 파일 혹은 어느 서비스 형태로 파이프라인에 삽입할 수 있도록 Component를 제공한다. 그 중 하나가 TFRecord , 즉 사이즈가 큰 데이터를 스트리밍하는 용도로 최적화된 경량화된 format 이다. TFRecord 파일은 여러개의 tf.Example 레코드로 구성되어 있는데, 각 레코드는 하나 이상의 feature 로 구성되어있다. feature는 데이터에서 컬럼에 대응하는 단위로 생각하면 된다. 이 레코드들이 바이너리 형식의 TFRecord로 저장되게 된다. 따라서 큰 데이터를 write하거나 다운로드할 때 최적화..