작은 물체 감지

Small object detection

작은 물체 감지는 디지털 이미지와 비디오에서 작은 물체를 감지하기 위해 다양한 기술이 사용되는 물체 감지의 특정한 경우입니다."작은 물체"는 입력 이미지에서 작은 픽셀 발자국을 가진 물체입니다.항공 이미지와 같은 영역에서는 작은 물체로 인해 최첨단 물체 감지 기술이 제대로 수행되지 않습니다.

사용하다

개체 추적의 예

소형 물체 탐지는 비디오 감시(교통 영상 감시,[1][2] 소형 물체 검색,[3][4] 이상 탐지,[5] 해양 감시, 드론 조사, 교통 흐름 [6]분석 및 물체 추적)와 같은 다양한 분야에서 응용되고 있습니다.

작은 물체에 대한 문제

  • YOLO([7][8][9][10][11][12][13]You Only Look Once)와 같은 현대의 객체 감지 알고리듬은 기능을 학습하기 위해 컨볼루션 레이어를 많이 사용합니다.개체가 컨볼루션 레이어를 통과하면 크기가 줄어듭니다.따라서, 그 작은 물체는 여러 겹의 층이 지나면 사라지고 감지할 수 없게 됩니다.
  • 때때로, 물체의 그림자는 물체 [14]자체의 일부로 감지됩니다.따라서 경계 상자의 배치는 객체보다는 그림자를 중심으로 하는 경향이 있습니다.차량 감지의 경우 보행자 감지와 이륜 감지가 이로 인해 어려움을 겪습니다.
  • 현재 드론[15]항공 이미지에 매우 널리 사용되고 있습니다.그들은 비행 중에 특정한 안정적인 위치를 유지하는 데 도움이 되는 하드웨어(센서)와 소프트웨어(알고리즘)를 갖추고 있습니다.바람이 부는 조건에서, 드론은 자동으로 위치를 유지하기 위해 미세한 움직임을 하고 그것은 경계 근처의 시야를 변화시킵니다.일부 새 개체가 이미지 경계 근처에 나타날 수 있습니다.전체적으로 분류, 탐지 및 추적 정확도에 영향을 미칩니다.
Here, both images are from same video. See, How the shadow of objects affecting detection accuracy. Also, drone's self-movement changes the scene near boundary(Refer to object "car" at bottom-left corner).
그림자 및 드론 이동 효과

방법들

작은 개체를 감지하기 위해 다음 세 가지[16] 범주에 해당하는 다양한 방법을 사용할 수 있습니다.

YOLOv5 탐지 결과
YOLOv5 및 SHAHI 인터페이스
YOLOv7 감지 출력

기존 기술의 개선

기존 기술로 작은 물체를 감지하는 방법은 다양합니다.그 중 일부는 아래에 언급되어 있습니다.

작은 개체가 있는 데이터 세트 선택

기계 학습 모델의 출력은 "얼마나 잘 [17]훈련되었는지"에 따라 달라집니다.따라서 이러한 개체를 탐지하려면 데이터 세트에 작은 개체가 포함되어야 합니다.또한 YOLO와 같은 현대의 탐지기는 [18]앵커에 의존합니다.최신 버전의 YOLO(YOLOv5에서[19] 시작)는 자동 앵커 알고리즘을 사용하여 데이터 세트의 개체 크기 특성에 따라 양호한 앵커를 찾습니다.따라서 데이터 집합에 더 작은 개체가 있어야 합니다.

필요한 경우 확대를 통해 더 많은 데이터 생성

러닝 모델에는 훈련 후 일부 가중치에 정착하는 수십억 개의 뉴런이 있습니다.따라서,[20] 그것은 더 나은 훈련을 위해 많은 양의 양적, 질적 데이터를 필요로 합니다.데이터 확대는 기존 데이터 세트에서 더 다양한[17] 데이터를 생성하는 데 유용한 기술입니다.

이미지 캡처 해상도 및 모델의 입력 해상도 향상

이러한 기능은 객체로부터 더 많은 기능을 얻고 궁극적으로 객체로부터 최고의 기능을 학습하는 데 도움이 됩니다.예를 들어 1280 X 1280 해상도 이미지의 자전거 개체에는 640 X 640 해상도보다 더 많은 기능이 있습니다.

자동 학습 앵커

앵커 크기를 선택하는 것은 작은 물체 [21]감지에서 중요한 역할을 합니다.직접 고르는 대신 데이터 세트를 기반으로 식별하는 알고리즘을 사용합니다.YOLOv5에서는 K-평균 알고리즘을 사용하여 앵커 크기를 정의합니다.

훈련 및 추론 중 타일링 접근법

최첨단 객체 탐지기는 고정된 크기의 이미지만 허용하고 그에 따라 입력 이미지 크기를 변경합니다.이렇게 변경하면 이미지의 작은 개체가 변형될 수 있습니다.타일링[22] 접근 방식은 이미지의 해상도가 모델의 고정 입력 크기보다 높을 때 도움이 됩니다. 축소하는 대신 이미지를 타일로 분해한 다음 교육에 사용합니다.추론 중에도 동일한 접근 방식이 사용됩니다.

피쳐 피라미드 네트워크(FPN)

피처 피라미드[23] 네트워크를 사용하여 다중 스케일에서 피처를 학습합니다. 예를 들어, Twin Feature Pyramid Network(TFPN),[24] Extended Feature Pyramid Network(EFPN).[25]FPN은 컨볼루션 레이어에 대해 작은 객체의 기능을 유지하는 데 도움이 됩니다.

추가 기능 기술

기존 방법을 수정하는 대신 기존 접근 방식 위에 직접 배치하여 더 작은 개체를 감지할 수 있는 몇 가지 추가 기술이 있습니다.그러한 기술 중 하나는 슬라이싱 지원 하이퍼 추론(SAHI)[26]입니다.이미지는 서로 다른 크기의 여러 중복 패치로 슬라이스됩니다.하이퍼 파라미터는 차원을 정의합니다.그런 다음 패치는 미세 조정 중에 가로 세로 비율을 유지하면서 크기가 조정됩니다.그런 다음 모델 교육을 위해 이러한 패치가 제공됩니다.

소형 물체 감지를 위한 최적화된 기술

이러한 객체 감지 문제에 초점을 맞춘 다양한 딥 러닝 기술을 사용할 수 있습니다. 예를 들어 Feature-Fused SSD,[27] YOLO-Z.[28]이러한 방법은 "작은 물체가 컨볼루션 네트워크를 통과하는 동안 특징을 유지하는 방법"에 적용됩니다.

기타 응용 프로그램

참고 항목

레퍼런스

  1. ^ Saran K B; Sreelekha G (2015). "Traffic video surveillance: Vehicle detection and classification". 2015 International Conference on Control Communication & Computing India (ICCC). Trivandrum, Kerala, India: IEEE: 516–521. doi:10.1109/ICCC.2015.7432948. ISBN 978-1-4673-7349-4. S2CID 14779393.
  2. ^ Nemade, Bhushan (2016-01-01). "Automatic Traffic Surveillance Using Video Tracking". Procedia Computer Science. Proceedings of International Conference on Communication, Computing and Virtualization (ICCCV) 2016. 79: 402–409. doi:10.1016/j.procs.2016.03.052. ISSN 1877-0509.
  3. ^ Guo, Haiyun; Wang, Jinqiao; Xu, Min; Zha, Zheng-Jun; Lu, Hanqing (2015-10-13). "Learning Multi-view Deep Features for Small Object Retrieval in Surveillance Scenarios". Proceedings of the 23rd ACM International Conference on Multimedia. MM '15. New York, NY, USA: Association for Computing Machinery: 859–862. doi:10.1145/2733373.2806349. ISBN 978-1-4503-3459-4. S2CID 9041849.
  4. ^ Galiyawala, Hiren; Raval, Mehul S.; Patel, Meet (2022-05-20). "Person retrieval in surveillance videos using attribute recognition". Journal of Ambient Intelligence and Humanized Computing. doi:10.1007/s12652-022-03891-0. ISSN 1868-5145. S2CID 248951090.
  5. ^ Ingle, Palash Yuvraj; Kim, Young-Gab (2022-05-19). "Real-Time Abnormal Object Detection for Video Surveillance in Smart Cities". Sensors. 22 (10): 3862. Bibcode:2022Senso..22.3862I. doi:10.3390/s22103862. ISSN 1424-8220. PMC 9143895. PMID 35632270.
  6. ^ Tsuboi, Tsutomu; Yoshikawa, Noriaki (2020-03-01). "Traffic flow analysis in Ahmedabad (India)". Case Studies on Transport Policy. 8 (1): 215–228. doi:10.1016/j.cstp.2019.06.001. ISSN 2213-624X. S2CID 195543435.
  7. ^ Redmon, Joseph; Divvala, Santosh; Girshick, Ross; Farhadi, Ali (2016-05-09). "You Only Look Once: Unified, Real-Time Object Detection". arXiv:1506.02640 [cs.CV].
  8. ^ Redmon, Joseph; Farhadi, Ali (2016-12-25). "YOLO9000: Better, Faster, Stronger". arXiv:1612.08242 [cs.CV].
  9. ^ Redmon, Joseph; Farhadi, Ali (2018-04-08). "YOLOv3: An Incremental Improvement". arXiv:1804.02767 [cs.CV].
  10. ^ Bochkovskiy, Alexey; Wang, Chien-Yao; Liao, Hong-Yuan Mark (2020-04-22). "YOLOv4: Optimal Speed and Accuracy of Object Detection". arXiv:2004.10934 [cs.CV].
  11. ^ Wang, Chien-Yao; Bochkovskiy, Alexey; Liao, Hong-Yuan Mark (2021-02-21). "Scaled-YOLOv4: Scaling Cross Stage Partial Network". arXiv:2011.08036 [cs.CV].
  12. ^ Li, Chuyi; Li, Lulu; Jiang, Hongliang; Weng, Kaiheng; Geng, Yifei; Li, Liang; Ke, Zaidan; Li, Qingyuan; Cheng, Meng; Nie, Weiqiang; Li, Yiduo; Zhang, Bo; Liang, Yufei; Zhou, Linyuan; Xu, Xiaoming (2022-09-07). "YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications". arXiv:2209.02976 [cs.CV].
  13. ^ Wang, Chien-Yao; Bochkovskiy, Alexey; Liao, Hong-Yuan Mark (2022-07-06). "YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors". arXiv:2207.02696 [cs.CV].
  14. ^ Zhang, Mingrui; Zhao, Wenbing; Li, Xiying; Wang, Dan (2020-12-11). "Shadow Detection Of Moving Objects In Traffic Monitoring Video". 2020 IEEE 9th Joint International Information Technology and Artificial Intelligence Conference (ITAIC). Chongqing, China: IEEE. 9: 1983–1987. doi:10.1109/ITAIC49862.2020.9338958. ISBN 978-1-7281-5244-8. S2CID 231824327.
  15. ^ "Interactive workshop "How drones are changing the world we live in"". 2016 Integrated Communications Navigation and Surveillance (ICNS). Herndon, VA: IEEE: 1–17. 2016. doi:10.1109/ICNSURV.2016.7486437. ISBN 978-1-5090-2149-9. S2CID 21388151.
  16. ^ Nguyen, Nhat-Duy; Do, Tien; Ngo, Thanh Duc; Le, Duy-Dinh (2020). "An Evaluation of Deep Learning Methods for Small Object Detection". Journal of Electrical and Computer Engineering. 2020: 1–18. doi:10.1155/2020/3189691.
  17. ^ a b Gong, Zhiqiang; Zhong, Ping; Hu, Weidong (2019). "Diversity in Machine Learning". IEEE Access. 7: 64323–64350. doi:10.1109/ACCESS.2019.2917620. ISSN 2169-3536. S2CID 206491718.
  18. ^ Christiansen, Anders (2022-06-10). "Anchor Boxes — The key to quality object detection". Medium. Retrieved 2022-09-14.
  19. ^ Jocher, Glenn; Chaurasia, Ayush; Stoken, Alex; Borovec, Jirka; NanoCode012; Kwon, Yonghye; TaoXie; Michael, Kalen; Fang, Jiacong (2022-08-17). "ultralytics/yolov5: v6.2 - YOLOv5 Classification Models, Apple M1, Reproducibility, ClearML and Deci.ai integrations". doi:10.5281/zenodo.3908559. Retrieved 2022-09-14. {{cite journal}}:저널 요구 사항 인용 journal=(도움말)
  20. ^ "The Size and Quality of a Data Set Machine Learning". Google Developers. Retrieved 2022-09-14.
  21. ^ Zhong, Yuanyi; Wang, Jianfeng; Peng, Jian; Zhang, Lei (2020-01-26). "Anchor Box Optimization for Object Detection". arXiv:1812.00469 [cs.CV].
  22. ^ Unel, F. Ozge; Ozkalayci, Burak O.; Cigla, Cevahir (2019). "The Power of Tiling for Small Object Detection". 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Long Beach, CA, USA: IEEE: 582–591. doi:10.1109/CVPRW.2019.00084. ISBN 978-1-7281-2506-0. S2CID 198903617.
  23. ^ Lin, Tsung-Yi; Dollár, Piotr; Girshick, Ross; He, Kaiming; Hariharan, Bharath; Belongie, Serge (2017-04-19). "Feature Pyramid Networks for Object Detection". arXiv:1612.03144 [cs.CV].
  24. ^ Liang, Yi; Changjian, Wang; Fangzhao, Li; Yuxing, Peng; Qin, Lv; Yuan, Yuan; Zhen, Huang (2019). "TFPN: Twin Feature Pyramid Networks for Object Detection". 2019 IEEE 31st International Conference on Tools with Artificial Intelligence (ICTAI). Portland, OR, USA: IEEE: 1702–1707. doi:10.1109/ICTAI.2019.00251. ISBN 978-1-7281-3798-8. S2CID 211211764.
  25. ^ Deng, Chunfang; Wang, Mengmeng; Liu, Liang; Liu, Yong (2020-04-09). "Extended Feature Pyramid Network for Small Object Detection". arXiv:2003.07021 [cs.CV].
  26. ^ Akyon, Fatih Cagatay; Altinuc, Sinan Onur; Temizel, Alptekin (2022-07-12). "Slicing Aided Hyper Inference and Fine-Tuning for Small Object Detection". 2022 IEEE International Conference on Image Processing (ICIP). pp. 966–970. arXiv:2202.06934. doi:10.1109/ICIP46576.2022.9897990. ISBN 978-1-6654-9620-9. S2CID 246823962.
  27. ^ Cao, Guimei; Xie, Xuemei; Yang, Wenzhe; Liao, Quan; Shi, Guangming; Wu, Jinjian (2018-04-10). Dong, Junyu; Yu, Hui (eds.). "Feature-fused SSD: fast detection for small objects". Ninth International Conference on Graphic and Image Processing (ICGIP 2017). SPIE. 10615: 381–388. arXiv:1709.05054. Bibcode:2018SPIE10615E..1EC. doi:10.1117/12.2304811. ISBN 9781510617414. S2CID 20592770.
  28. ^ Benjumea, Aduen; Teeti, Izzeddin; Cuzzolin, Fabio; Bradley, Andrew (2021-12-23). "YOLO-Z: Improving small object detection in YOLOv5 for autonomous vehicles". arXiv:2112.11798 [cs.CV].
  29. ^ Rajendran, Logesh; Shyam Shankaran, R (2021). "Bigdata Enabled Realtime Crowd Surveillance Using Artificial Intelligence And Deep Learning". 2021 IEEE International Conference on Big Data and Smart Computing (BigComp). Jeju Island, Korea (South): IEEE: 129–132. doi:10.1109/BigComp51126.2021.00032. ISBN 978-1-7281-8924-6. S2CID 232236614.
  30. ^ Sivachandiran, S.; Mohan, K. Jagan; Nazer, G. Mohammed (2022-03-29). "Deep Transfer Learning Enabled High-Density Crowd Detection and Classification using Aerial Images". 2022 6th International Conference on Computing Methodologies and Communication (ICCMC). Erode, India: IEEE: 1313–1317. doi:10.1109/ICCMC53470.2022.9753982. ISBN 978-1-6654-1028-1. S2CID 248131806.
  31. ^ Santhini, C.; Gomathi, V. (2018). "Crowd Scene Analysis Using Deep Learning Network". 2018 International Conference on Current Trends Towards Converging Technologies (ICCTCT): 1–5. doi:10.1109/ICCTCT.2018.8550851. ISBN 978-1-5386-3702-9. S2CID 54438440.
  32. ^ Sharath, S.V.; Biradar, Vidyadevi; Prajwal, M.S.; Ashwini, B. (2021-11-19). "Crowd Counting in High Dense Images using Deep Convolutional Neural Network". 2021 IEEE International Conference on Distributed Computing, VLSI, Electrical Circuits and Robotics (DISCOVER). Nitte, India: IEEE: 30–34. doi:10.1109/DISCOVER52564.2021.9663716. ISBN 978-1-6654-1244-5. S2CID 245707782.
  33. ^ Wang, Hongbo; Hou, Jiaying; Chen, Na (2019). "A Survey of Vehicle Re-Identification Based on Deep Learning". IEEE Access. 7: 172443–172469. doi:10.1109/ACCESS.2019.2956172. ISSN 2169-3536. S2CID 209319743.
  34. ^ Santhanam, Sanjay; B, Sudhir Sidhaarthan; Panigrahi, Sai Sudha; Kashyap, Suryakant Kumar; Duriseti, Bhargav Krishna (2021-11-26). "Animal Detection for Road safety using Deep Learning". 2021 International Conference on Computational Intelligence and Computing Applications (ICCICA). Nagpur, India: IEEE: 1–5. doi:10.1109/ICCICA52458.2021.9697287. ISBN 978-1-6654-2040-2. S2CID 246663727.
  35. ^ Li, Nopparut; Kusakunniran, Worapan; Hotta, Seiji (2020). "Detection of Animal Behind Cages Using Convolutional Neural Network". 2020 17th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON). Phuket, Thailand: IEEE: 242–245. doi:10.1109/ECTI-CON49241.2020.9158137. ISBN 978-1-7281-6486-1. S2CID 221086279.
  36. ^ Oishi, Yu; Matsunaga, Tsuneo (2010). "Automatic detection of moving wild animals in airborne remote sensing images". 2010 IEEE International Geoscience and Remote Sensing Symposium: 517–519. doi:10.1109/IGARSS.2010.5654227. ISBN 978-1-4244-9565-8. S2CID 16812504.
  37. ^ Ramanan, D.; Forsyth, D.A.; Barnard, K. (2006). "Building models of animals from video". IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (8): 1319–1334. doi:10.1109/TPAMI.2006.155. ISSN 0162-8828. PMID 16886866. S2CID 1699015.
  38. ^ Cui, Suxia; Zhou, Yu; Wang, Yonghui; Zhai, Lujun (2020). "Fish Detection Using Deep Learning". Applied Computational Intelligence and Soft Computing. 2020: 1–13. doi:10.1155/2020/3738108.

외부 링크

  • 중국 톈진 대학교 기계 학습 및 데이터 마이닝 연구소의 AISKYEYE 팀의 VisDrone 데이터 세트.