2021년 12월 13일 월요일

OCR 인식률 비교. 테서렉트 vs paddleocr vs easyocr vs 카카오 api vs < 네이버 api


최근 디아블로2 레저렉션을 시작 했다. 예전과 다르게 유니크 아이템 외에도 확인 해야 하는 아이템들이 많았다.

그런 정보를 다 찾고 확인 하는 게 힘들었다. 

디아블로 아이템의 아이템명이나, 속성들을 감별해서 미리 등록해 놓은 DB와 비교하여 가지고 있어야 할 아이템을 판별하는 프로그램을 만들고 싶었다.

결론은 실패. OCR 문자 인식부터 막혔다.

OCR 인식에 총 3일을 투자 했는데, 이틀을 테서랙트(tesseract)에 투자했다.  


테서렉트

인식률 향상을 위해 gray 변환, medianBlur로 노이즈 제거, thresholding, erosion, dilation 등 온갖 기법을 다 써도 인식률이 크게 향상되지는 않았다.

psm 옵션과 oem옵션을 아무리 조절해도 인식률은 크게 향상 되지 않았다.

디아블로2의 폰트 자체가 일반적인 폰트가 아니다 보니 인식률이 떨어 지는 것으로 보인다.

디아블로 폰트를 새로 학습하여 인식을 해 보기로 했다.

블리자드에서 공식적으로 제공하는 폰트는 없고 비슷하게 만든 폰트는 있었다.

이중에 kodia만 한글을 지원해서 사용했다.

학습에는 jTessBoxEditor를 사용했다. 

일단 학습완료는 되긴 하는 데, 오류가 나는 부분이 많다.

APPLY_BOXES: boxfile line 1/가 ((104,3153),(145,3193)): FAILURE! Couldn't find a matching blob

그래도 완료된 모델로 돌려 보았으나 여전히 인식률은 좋지 못했다.

학습이 제대로 안 된 것 같다.

이틀동안 이 삽질을 하고 있으니 저 오류 나는 것도 찾기 싫어졌다. 테서랙트는 포기.


EasyOCR

다음으로 시도한 건 EasyOCR. 이거 꽤 좋다. 설치도 쉽고, 사용법도 굉장히 쉽다. 인식률 자체도 테서렉트보다 확실히 좋다.

이미지 전처리를 시도한 거랑, 안한 거랑 크게 인식률 향상은 없었다.

다만 내가 원하는 정도의 인식률은 안 되었다.


API

이쯤되면 그냥 돈내고 사용하는 API를 사용해볼까하는 생각이 들었다.

테스트 해본 API는 카카오랑 네이버

카카오 ocr api 테스트

네이버 ocr 테스트 - CLOVA OCR

네이버는 테스트를 위해서 이름, 이메일, 사업체를 등록해야 한다. 좀 꺼림칙했지만 일단 테스트만 해보기 위해 넣었다.

결과는 네이버의 압승. 단 2군데만 조금 틀린 결과를 보여줬다.

카카오 OCR은 생각보다 좋지 않았다. EasyOCR보다 못한 것 같다.



주관적인 OCR 인식률 비교

테서렉트 == paddleocr < 카카오 api < easyocr < 네이버 api


인식에 사용한 이미지



@Scheduled 어노테이션 파라미터를 환경변수로 사용하기

@Scheduled  어노테이션으로 10초마다 실행하는 스케쥴은 아래와 같이 쉽게 만들 수 있다.

@Scheduled(fixedDelay = 10000)
public void scheduleTask() {


여기서 10000 값을 환경변수로 적용하려고 하면 fixedDelay는 final long 타입이여야 등록 가능한데,  환경변수로 가져오는 값은 final로 처리 할 수가 없다.

그럴때는 아래처럼 fixedDelayString을 사용하면 된다.

  @Scheduled(fixedDelayString = "${myscheduler.period}")
  public void scheduleTask() {

2021년 11월 25일 목요일

자바에서 퍼센트율(나누기)을 구할 때 유의사항.

일부값 / 전체값 * 100   X 

100d * 일부값 / 전체값 O


long part = 1;
long total = 3;

double ok = 100d * part / total;
double no = part / total * 100;

System.out.println(ok);
System.out.println(no);

33.333333333333336
0.0

1 / 3 = 0.333333 이다.

'part / total' 은 항상 정수형을 반환한다. part과 total의 타입이 long 타입이기 때문에 묵시적 형변환을 통해 끝수를 버리고 long타입으로 변환 된다.

만약 part나 total이 double 타입이라면 정상적으로 0.33333을 반환한다.

그래서 처음 100d를 통해 double 타입으로 반환하라고 명시 하면 오류 없이 퍼센트 결과를 얻을 수 있다.

2021년 9월 15일 수요일

수식없는 Isolation Forest 분석

 이상 탐지는 '정상'이 아닌 데이터를 식별하는 것이다. 여기서 '정상'의 정의는 관찰되는 현상과 속성에 따라 다르다.

이상 탐지는 정상을 정의하고 그 안에 속하지 않는 모든 것을 비정상으로 판별한다.


기본적으로 정상을 정의 하는 방법은 통계적 방법(statistical methods), 분류(classification ) 또는 클러스터링(clustering)을 사용하지만 프로세스 자체는 동일하다. 

정상을 정의하고 다른 모든것은 비정상으로 판별하는 것이다.

이러한 방식은 비정상을 감지하는 데, 최적화 되어 있지 않고, 정상을 찾는 데에 최적화되어 있다. 그로 인해 너무 많은 오탐이나 너무 적은 비정상이 감지 될 수 있다.

또 계산의 복잡성으로 인해 저차원 이나 작은 크기의 데이터에 적합하다.


Isolation Forest 알고리즘은 위 두가지 문제를 해결하고 이상현상을 감지하는 데 효율적이고 정확한 방법을 제공한다.

Isolation Forest의 핵심원리는 의사 결정 트리(decision tree)를 생성하여 이상을 '격리'하는 것이다.

격리에 필요한 분할 수가 작은 값은 이상 데이터로 볼 수 있다.


여러번의 분할을 거친 데이터는 정상이라고 판별한다.

이상 데이터는 단 4번의 분할로 격리 되었다.


정상 데이터를 분리하기 위해서는 수많은 분할(depth)이 필요한 데 반해, 이상 데이터는 정상 데이터에 비해 훨씬 낮은 분할만을 필요로 한다.

분할은 무작위(random)으로 발생한다. 여기서 분할 수는 이상 점수(anomaly score)을 생성하는 데 사용된다.

이상 점수는 하나의 데이터를 격리하기 위해 사용된 분할 수의 평균이다. 이상 점수, 즉 분할 수의 평균보다 낮은 분할 수를 이상이라고 판별한다.




서브샘플링

정상 데이터가 이상 데이터에 가까울 수록 격리가 어려워 잘못 된 판별을 할 수 있다. 이 때 

서브샘플링을 이용하면 알고리즘을 효율을 높일 수 있다.

Isolation Forest 알고리즘은 전체 데이터 세트가 아닌 서브샘플링 된 데이터 세트에서 더 잘 작동한다. 


성능 향상

이상 탐지는 depth가 낮은 값을 판별하므로 하나의 데이터를 격리하기 위해 깊게 들어갈 필요가 없다. 그렇기에 일정한 깊이에 제한을 걸어 성능을 향상 시킬 수 있다.

이 값은 log2(nodes_count)을 사용한다. 이는 노드에서 생성할 수 있는 적절한 이진 트리의 평균 높이이다.



Isolation Forest 는 수직, 수평 방향으로만 분할 하기 때문에 잘못된 Scoring 이 발생할 가능성이 있다. 이를 해결하기 위해 Extended isolation forest 알고리즘을 사용한다. 다만 연산량은 더 많다.


참조

https://medium.com/@arpitbhayani/isolation-forest-algorithm-for-anomaly-detection-f88af2d5518d

https://en.wikipedia.org/wiki/Isolation_forest

2021년 8월 27일 금요일

AttributeError: 'Sequential' object has no attribute 'predict_classes'

 텐서플로우의 예제를 colab을 사용하지 않고 다운 받아서 돌리려고 할 때 문제 발생.

공식 문서의 예제에는 "!pip install -q tensorflow-gpu==2.0.0-rc1" 명령어로 텐서플로우 버전을 지정해서 다운로드 한다.

이걸 무시하고 최신버전(2.6.0)의 tensorflow를 설치해서 나는 오류. 

predict_classes 는 2021-01-01 이후에 제거됨.


https://androidkt.com/get-class-labels-from-predict-method-in-keras

Could not load dynamic library 'cudart64_110.dll'; dlerror: cudart64_110.dll not found

컴퓨터에 그래픽 카드가 없어서 발생하는 에러. 혹은 그래픽 드라이버가 설치 되지 않았다.

tensorflow가 아닌 tensorflow-cpu를 설치한다.

2021년 7월 15일 목요일

ObjectMapper로 형변환이 안되는 문제. (대문자 스네이크 케이스)

 DTO 객체명이 대문자 스네이크 케이스 형태일 경우 ObjectMapper convertValue 메소드로 형변환시 값이 들어가지 않는다.


여기에서 대문자 스네이크 케이스 코드를 받아서 적용했더니 정상적으로 값이 들어간다.


아래와 같이 네이밍 전략을 선언해서 사용한다.

ObjectMapper mapper = new ObjectMapper();
mapper.setPropertyNamingStrategy(CustomUpperSnakeCaseStrategy.UPPER_SNAKE_CASE);

ObjectMapper로 List Map 타입을 List Dto 타입으로 변환 방법

 

ObjectMapper mapper = new ObjectMapper();
List<Map<String, Object>> listMap = new ArrayList<>();
...
List<MyDto> testDtoList =
mapper.convertValue(listMap, TypeFactory.defaultInstance().constructCollectionType(List.class, MyDto.class));


2021년 5월 4일 화요일

maven resource 파일 지정.

 legacy 프로젝트를 maven으로 바꾸면서 properties 파일이나 mybatis xml 파일을 찾지 못하는 현상이 있었다.


Caused by: java.io.FileNotFoundException: class path resource [applicationResources.properties] cannot be opened because it does not exist


기존 프로젝트는 resourse 디렉토리가 따로 있는 게 아니라, 여기 저기 중구난방으로 되어 있다.

maven에서 아래의 설정을 추가하면 된다.

        <resources>
            <resource>
                <directory>src</directory>
                <includes>
                    <include>**/*.xml</include>
                    <include>**/*.properties</include>
                </includes>
            </resource>
        </resources>


2021년 3월 29일 월요일

Java로 무한 loop 쉘스크립트 실행

 java에서 쉘스크립트를 실행하는 기능을 추가 했다.

문제는 자바 프로그램이 종료되면 쉘스크립트 역시 1~2초 후에 멈춰 버린다.

쉘스크립트는 while true로 무한루프로 실행이 되는 스크립트였다.


자바에서 실행 명렁어를 nohup, &, sh -c 등 이것 저것 다 해 보았지만 쉘스크립트는 멈췄다.

결국 찾은 방법은 두가지이다. 두가지 방법 다 정석적인 해결책은 아니고 trick으로 볼수 있는 방법이다.


하나는 중간 launch 스크립트를 두는 방식이다.

실제 내가 실행해야 할 스크립트가 target.sh 이면 launcher.sh를 둬서 자바에서는 launcher.sh를 실행하는 방법이다.

launcher.sh에는 아래와 같은 명령을 넣는다.


#/bin/sh

nohup ./target.sh 1> /dev/null 2>&1 &



다른 하나는 trap을 사용한 방법이다. 

trap 명령어는 특정 시그널이 들어올 때 어떤 일을 할 지 적용할 수 있다.


실제 적용한 방법은 두번째 방법으로 trap명령어를 통한 방법이다.

적용 방법은 아래와 같다.


trap "method_name" 0


0은 EXIT 인 경우 이다. 자바 프로세스 종료시 EXIT 시그널이 오는 데, 그 때 loop를 사용하는 method_name를 다시 한번 사용하게 하였다.

종료는 9(SIGKILL) 시그널을 발생시켜서 종료하므로 문제 없이 stop을 할 수 있다.

2021년 3월 20일 토요일

netstat말고 ss명령을 사용합시다.


tcp 파일을 이용해서 현재 접속 현황을 가지고 오는 자바로 만들어진 프로그램이 있다.
이 프로그램에서 cpu 사용량이 15% 이상을 치는 문제가 발생했다.

리눅스에서 tcp와 udp의 소켓 정보는 /proc/net/tcp, tcp5, udp, udp6 파일에서 확인 할 수 있다.
문제의 프로그램은 위 파일을 읽고 파싱하여 데이터를 가져온다.
커넥션이 적을 때는 문제가 없지만, 커넥션이 많아지면서 문제가 발생한 것이다. 

커넥션 수가 20000개가 넘어가면 읽는 시간은 느려지지 않지만, cpu사용율이 15% 가까이 발생한다. 
커넥션 수가 50000개가 넘어가면 전체 데이터를 읽어오는 시간은 20초 가까이 걸리며 cpu사용율을 100% 가까이 사용한다.

tcp, udp 파일에서 하나의 라인은 하나의 커넥션이다.
처음에는 5만 라인이 굉장히 많은 줄 알았다. 그러나 /proc/net/tcp 파일을 복사해서 그 복사한 파일을 읽었더니 굉장히 빨랐다. 
/proc/net/tcp 파일 자체가 문제였던 거다. 구글링으로 문제에 대해 검색을 시작했다. 

구글링 후 알게 된 하나는 netstat명령과 ss 명령의 차이점이었다. 둘 다 네트워크의 상태를 보는 명령이지만 구조 자체가 다르다. 
netstat은 /proc/net/tcp 파일을 읽어들인다. 그렇기 때문에 커넥션이 많을 때는 netstat 명령 역시 느려진다. 
반대로 ss 명령은 커넥션이 많을 때도 굉장히 빠르다. 


AF_NETLINK를 이용하기 위해서는 C 언어를 이용해야 했다. C 언어 자체는 잘 모르지만 예제 샘플을 이용해서 원하는 형태의 프로그램은 만들 수 있을 것 같았다. 
만들어진 프로그램을 JNI을 이용해서 가지고 오면 될것으로 봤다.

여기에는 몇가지 문제가 있었다. kernel 과 직접 통신하기 때문에 커널 버전에 맞는 각각의 실행파일을 따로 준비해야 한다. (문제가 있었던 프로그램은 여러 서버에서 돌아가야 했다.)
커스터마이징을 한다고 해도 c 코드 자체를 수정하기가 쉽지 않다. 관리포인트가 늘어나는 문제도 있다.

고민을 거듭하다 방향을 바꿔서 그냥 ss 명령을 사용하는 방법을 생각했다.
ss 명령은 iproute 패키지의 일부분이다. iproute 패키지는 소스가 공개되어있다.
문제가 되었던 프로그램이 돌아가던 운영체제는 대부분이 centos나 redhat이었다.
centos 4,5,6,7 버전의 minimal 설치 패키지를 조사하여 iproute 패키지가 있는 지 확인하였다. 전부 있는 것으로 확인하였다.

ss 커맨드를 이용한 방법으로 개발을 진행하겠다고 컨펌을 받고 개발을 진행하였고 잘 마무리 되었다.

나중에 알게된 솔라윈즈에서 작성한 글이 딱 내가 겪었던 일을 잘 설명해 주어서 링크한다.

2021년 1월 27일 수요일

단락 연산자(short-circuit operator)

 리눅스에서 명령어를 연속 해서 사용 할 때가 있다.

보통 || 와 &&을 사용한다. 이를 단락 연산자(short-circuit operator)라고 한다.

첫번째 명령어를 실행하고 곧이어 두번째 명령어를 실행하는 역할이다.


예제는 다음과 같다.

[root@localhost ~]# true || echo 'ok'
[root@localhost ~]# false || echo ok
ok
[root@localhost ~]#

||는 앞의 명령어 성공하면 뒤의 echo 'ok'는 실행하지 않는다.
앞의 명령이 실패하면 뒤의 echo 'ok' 명령를 실행한다.

&&은 ||과 반대이다. 앞의 명령이 성공하면 뒤의 명령을 실행한다.
앞의 명령이 실패하면 뒤의 명령을 실행하지 않는다.

[root@localhost ~]# true && echo 'ok'
ok
[root@localhost ~]# false && echo 'ok'
[root@localhost ~]#

앞 명령어와 상관없이 실행하고자 할 때는 ;를 쓴다.
[root@localhost ~]# echo '1ok'; echo '2ok'
1ok
2ok
[root@localhost ~]#