본문 바로가기

프로젝트/Data_Analysis_Track_33_FinalProject

FinalProject_04(개별 Action 수행)

모델링 파트 Action

  • 실시간으로 결과를 내야되기 때문에(시간문제) 한 detector 만 사용해야 할 것으로 보임
  • sudo labeling → dataset category 가 달라서 이 과정을 실행해야 할 것 같다.
  • 2만장에서 4만장 정도만 넣고 A model 만들기 (전체에서 sampling data 뽑는 것 → subsampling 작업)
  • 전체를 1/10 ~ 1/20 해서 뽑는 것 → 전체 dataset에서 대표성을 띄기 위해서
  • 성능은 안 뽑은 데에서 1000~2000 장 가져와서 확인하기 (90% 정도 나오면 쓰는 것)
  • 혹시 모르니,, 모델이 있을지 검색 해보기
  • AWS 환경 / 정부에서 빌려주는 GPU 서버가 있음 → 여기서 학습할 수 있는지 찾아보기

 

사용하는 데이터셋(AIhub): 지자체 도로부속시설물 파손 데이터, 도로장애물/표면 인지 영상(수도권)

- 도로장애물/표면 인지영상(수도권) 데이터셋은 활용 AI모델이 AIhub에 올라와 있지만 사용법을 찾아봐야 한다.

 

현재 지자체 도로부속시설물 파손 데이터셋 먼저 적당량 다운로드 

- AM 3짝, PM 2짝 다운로드 하여 데이터 수량 체크

 

tar파일 어떻게 처리해야 하는지 찾아보기

-> tar파일을 압축풀면 training데이터안에 원천데이터, 라벨링데이터가 나오는데 디렉토리안의 part파일들을

다음과 같은 주소에서 변환한다. https://filext.com/ko/pail-hwagjangja/PART

-> part0파일은 풀리는데 part01354425와 같은 긴 숫자가 뒤에 붙는 파일들은 풀리지 않는다. 같은 압축파일에서 나온 part0파일과 part0325664같은 파일들의 용량이 같은데 part0파일만 풀면 되는 건지?

-> 다른 것도 있다. 망했다.

 

-> tar파일 형식이 아닌 원천데이터를 jpg로, 라벨링데이터를 json으로 받을 수 있었다!!. 해결

 

모델링 위한 데이터셋 colab으로 옮기기

- local에서 실행하기에는 용량이 크고 데이터 수가 많아 작업시간이 오래 소요되기에 GPU가 제공되는 colab에서 실행

-> 컴퓨터 사양이 좋지 않아 colab으로 옮기지도 못함. local anaconda환경에서 실행..

yam파일 작성

- colab에서 yaml파일을 생성하여 작성한다. 출처: https://velog.io/@choonsik_mom/YOLO-Detector-%EC%BB%A4%EC%8A%A4%ED%85%80-%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%85%8B-%ED%9B%88%EB%A0%A8%ED%95%98%EA%B8%B0

-> colab으로 10000개 이상의 파일을 옮기기에 용량이 너무 크다. 컴퓨터가 느린 이유도 있을 것

--> local anaconda환경에서 실행