'목록하단 광고 치환자(withSeok)
출처 강의  : https://www.youtube.com/watch?v=oRH-1RG8oQY&t=3s

 

1. 싸이트 접속 

https://openrefine.org/

2. 약 102MB 다운로드 후 압축풀기 및 실행

3. 서버와 교신하는 프로그램창이 뜨고, 이후 프로그램이 웹상에서 실행됨.

4. 아래그림의 파일선택에 가공할 파일을 구해야 한다.

5. 공공데이터포털을 검색한다.

https://www.data.go.kr/
6. 데이터찾기 - 데이터목록

 

7. 표준데이터 클릭

8. 전국무료와이파이표준데이터 - CSV

9. CSV란? 
출처 : 나무위키

 

 

데이터 오염에 대단히 취약한 포맷이다 보니 본격적인 데이터 교환 포맷으로는 XML과 JSON을 쓴다. 둘 중 XML이 상대적으로 데이터 오염에 더 잘 견딘다. 하지만 CSV는 2017년 현재도 IT 및 산업계에서 널리 사용중인데 가장 결정적인 이유는 데이터의 크기가 작기 때문이다.
 
10. XLS 다운로드

11. 데이터 크기 확인

BIG DATA !!
12. 해당파일 OpenRefine에서 열기

13. 머리글 설정 및 프로젝트 만들기

14. 데이터 확인 및 이상데이터 수정

15. 정리불가능한 데이터 확인

16. 구분가능한 데이터 다듬기

추가 실행

17. Keying Function을 바꾸어 가며 데이터 정리하기

18. Nggram Size 1로 변경하여 Cluster 가능한 자료 찾기

 

19. Choices in Cluster 바를 조절하여 Cluster하기

20. 죽은 데이터 살리기!!! 섬세함!!!

 

21. 텍스트 필터 창 닫기 및 리셋

22. 정리하다가 찾는 아주 특이한 데이터

제주는 공공WIFI가 모두 KT~!!!
23. 2개의 Facet를 통해 Cluster~!!

24. 지역별 Facet를 통한 자료 조사 가능

데이터는 5가지 : KT,LG,SK,기타,식별불가
25. 빅데이터 안에서 작은 빅데이터

728x90

+ Recent posts