Talend Open Studio(이하 TOS) 란?


아실만한 분들은 아시겠지만 모르는 분들은 모르시니까(잉?) 간단히 설명드리겠습니다.


TOS는 자바(이클립스) 기반의 ETL 을 자동화해주는 도구 입니다.


그럼 ETL이란 무엇이냐?


Extract Transform Load 의 약어로서,


어떤 데이터 집합으로부터 원하는 정보를 추출(Extract)하여 


사용자가 원하는 형태의 정보로 가공/변환(Transform)한 후,


원하는 목적지에 적재(Load)하는 일련의 행위를 말합니다.



이해를 돕기 위해, 금번 유출된 궁민은행 개인정보 사건으로 예를 들어봅시다.


제4 금융권 일수업자 갑돌이는 유출된 1억건의 개인정보 명단을 엑셀 파일 형식으로 전달받습니다.


갑돌이가 원하는 정보는 30대 기혼 남성 중 신용 등급이 7등급 이하인 사람의 이름과 사는 곳 전화번호인데요.


갑돌이네 사무실은 영세하기 때문에 MS Office를 쓸 수 없습니다. 엑셀 파일을 텍스트 파일로 변환해야 해요.



개인정보 1억건(엑셀) -> 30대/기혼/남성/7등급 인 사람의 이름/전화번호 -> .txt 파일로 김미영 팀장에게 전달



요런 행위를 ETL이라고 합니다. 실제로는 excel 보다 DB 나 bulk data 변환 시에 사용을 많이 하는 편이구요.


TOS 는 메이져 DB(Oracle, Postgresql, mysql, MSsql...) 뿐 아니라 요새 대세인 R 이나 Hadoop 과의 연동(쫌 어설픔) 도 지원합니다. 


TOS 의 가장 큰 장점은 접근성인데요.


왠만한 작업은 Drag & Drop 으로 만들어낼 수 있는 사용자 친화적인 그래피컬 유저 인터페이스를 지원합니다.


코딩 한 줄 못 짜도 쓸 수 있어요!!


또한 이클립스 기반으로 작성된 프로그램인지라 모든 ETL 작업은 Java code와 1:1 로 매핑됩니다.


자바 코딩이 가능한 유저는 내가 원하는 작업을 정의내리고 코드로 짤 수도 있어요.(하지만 이미 있는 템플릿을 잘 조합하면 왠만한 작업은 다 할 수 있어요.)


Talend 메인 개발자(사장이었나?)가 eclipse contributor 였던 것으로 기억합니다. 신뢰도 있고 잘만든 오픈소스 프로그램이에요.


라이센스는 epl 입니다. (맘대로 갖다 쓰세영)


파일이 10메가를 훌쩍 넘어가는 관계로 링크만 붙입니다.


http://www.talend.com/download