자유 그리고 경험

네이버 현재 검색 알고리즘과 출처(Reference) 본문

경험한 것

네이버 현재 검색 알고리즘과 출처(Reference)

배아줄기세포 2022. 1. 23. 23:48
반응형

  네이버 검색 공식 블로그에 따르면 현재(2022년) 네이버 VIEW에 적용되고 있는 알고리즘은 크게 두가지입니다. C-RANK와 D.I.A+ 알고리즘.

  C-Rank(Creator Rank)는 출처의 신뢰도를 분석하고, D.I.A+(Deep Intent Analysis)는 문서의 정보성을 분석합니다. 또한 두 알고리즘 모두 '시의성' 도 비교적 중요하게 취급하고 있습니다.

 

  각종 블로그를 돌아다니며 로직의 요약글들을 살펴보았지만 그것이 자기들의 상상에서 지어낸 소위 말하는 '카더라'인지, 실제 네이버의 공식적인 발표에서 나온 것인지 알 길이 없었기 때문에 그 출처를 찾아야 했습니다. 답은 '네이버 검색 공식 블로그'에 있었습니다.

 

네이버 검색 공식 블로그

 

반응형

C-Rank 알고리즘

C-Rank 알고리즘(2016.7.29)-네이버 검색 공식 블로그

 

 

 

 

  출처의 신뢰도가 좋으면 좋은 글이 많을 확률이 높다는 아이디어에서 나온 알고리즘입니다. 요약하면, 특정 관심사에 대해서 얼마나 깊이 있는 좋은 콘텐츠를 생산하는 생산자인지 순위를 매기겠다는 것입니다.

  맥락(Context), 품질(Content), 연쇄반응(Chain)을 통해 블로그(Creator)의 신뢰도를 파악합니다.

맥락

  이 블로거가 한 주제에 대한 집중도가 얼마나 되는지를 파악합니다. 여러 관심사를 포스팅 하는 블로거는 분리할 수 있다는 말이라고 생각합니다.

품질

  품질을 어떻게 파악하겠다는 것인지에 대한 설명은 나와있지 않습니다. 키워드 5개 이상 반복, 그림 3개 이상 등의 루머들이 돌아다니는 원흉이라고 생각합니다.

연쇄반응

  역시 기준이 따로 나와있지 않습니다. 소비/생산이라고 하면 당장 생각나는 것은 댓글과 공감, 공유 정도입니다. 이 역시 블로그 품앗이의 원흉이 되었다고 생각합니다.

상황에 따라 C-Rank가 다르다

  네이버 라이브 검색에 적용된 C-Rank와 블로그에 적용된 C-Rank는 또 다르다고 생각합니다. 200가지가 넘는 알고리즘을 적용해 심플하게 검색결과를 보여주는 구글과 달리, 200가지 View를 보여주기 위해 200가지 알고리즘을 만들어내는 모습입니다.

  또한 단순 최신순이 아니라 '검색 모델(search model)' 이라는 것을 적용하여 가중치를 부여, 계산한 뒤 실시간에 가깝게 순서를 정합니다. 관련도와 별도로 '시의성'이라는 것을 포기하지 않는다는 것이 구글과 차이라고 생각합니다.

C-Rank에 반영되는 정보

  • BLOG Collection  - 블로그 문서의 제목 및 본문, 이미지, 링크 등 문서를 구성하는 기본 정보를 참고해 문서의 기본 품질을 계산
  • 네이버 DB - 인물, 영화 정보 등 네이버에서 보유한 콘텐츠 DB를 연동해 출처 및 문서의 신뢰도를 계산
  • Search LOG - 네이버 검색 이용자의 검색 로그 데이터를 이용해 문서 및 문서 출처의 인기도를 계산
  • Chain Score - 웹문서, 사이트, 뉴스 등 다른 출처에서의 관심 정도를 이용해 신뢰도와 인기도를 계산
  • BLOG Activity - 블로그 서비스에서의 활동 지표를 참고해 얼마나 활발한 활동이 있는 블로그인지를 계산
  • BLOG Editor 주제 점수 - 딥러닝 기술을 이용해 문서의 주제를 분류하고, 그 주제에 얼마나 집중하고 있는지 계산

참고하는 항목들은 알고리즘 개선을 위해 계속 변경 적용된다고 합니다. 활동지수라는 것도 실제 참고한다는 것이 놀랍습니다. 이런 항목이 의미없는 글 생산을 부추기는 것은 아닐까요? 사실 C-RANK라는 것을 적용해 네이버 블로그 내부에서 블로그 통째로 패널티를 준다는 발상 자체가 이상합니다. 출처 본문에 써 있는대로 '나쁜 글만 썼던 사람이 좋은 글을 쓸 수도, 좋은 글만 썼던 사람이 나쁜 글을 쓸 수도' 있다는 것을 인정한다면, 문서 자체로 평가하는 것이 좋은 것 아닐까요? 

D.I.A 알고리즘

D.I.A 알고리즘 (2018.6.12)-네이버 검색 공식 블로그

D.I.A+ 알고리즘 (2020.11.18)-네이버 검색 공식 블로그

 

  문서의 주제 적합도, 경험 정보, 정보의 충실성, 문서의 의도, 상대적인 어뷰징 척도, 독창성, 적시성 등 복합적 요인을 반영한다고 합니다. '경험 정보' 항목에서 볼 때, 네이버가 블로그를 '후기 쓰는 공간'으로 생각하는 측면도 있다는 것을 엿볼 수 있습니다.

  키워드별로 날짜에 랭킹이 더 민감하다는 말로 미루어서 키워드 별로 점수 반영률이 다르다고 유추할 수 있습니다.

D.I.A+

  기존 D.I.A가 업그레이드 되었습니다. '질의 의도 분류기'로 검색어를 통해 질의의 의도를 파악합니다. 한 편에서는 '문서 확장 모듈'로 문서 내의 단어들을 '어휘 불일치 문제'를 해결할 수 있도록 미리 적절하게 분류(인덱싱; indexing)해 놓습니다.

 

문서 확장 기술 (2020.11.18)-네이버 검색 공식 블로그


  네이버 검색 공식 블로그의 첫번째 글은 2015년 8월 6일에 작성되었습니다. 따라서 2012년 12월 초에 적용된 것으로 알려져있는 초창기의 알고리즘 리브라(LIBRA)에 대한 설명은 나와있지 않습니다. 네이버 검색 알고리즘의 역사를 레퍼런스를 통해 조사하기 위해 검색을 해보았지만 초창기 알고리즘이였던 리브라, 소나에 대한 공식 문서는 찾지 못하였습니다.

  공식 블로그도 사실 완전히 믿을 수 없기는 마찬가지입니다. 자세한 기술적 설명이 있지 않은 이상 '이러이렇게 반영하려고 의도했습니다'는 본인들의 의도일 뿐이고, 실제로 어떻게 작동할지는 별도의 문제이기 때문입니다. 하지만 기본적인 의도를 포함하여 다른 설명들을 읽어보면 앞으로의 변화에도 대응할 수 있도록 포스팅 방향을 잡을 수 있습니다.

 

  문서를 읽고보니 네이버는 자신들의 서비스인 '네이버 블로그'를 우선적으로 노출시켜줄 뿐 아니라 '시의성'과 '개인의 경험(후기)=주관성'를 중요한다는 느낌을 받았습니다. 개인이 쓴 다양한 표현도 검색에 불리하지 않도록 '어휘 불일치 문제(term-mismatch problem)을 해결할 수 있는 '문서 확장 기술'도 적용했습니다.

  오래된 정보라도 정확한 '객관성과 정보성'을 중요하게 생각하는 구글과는 알고리즘이 다를 수 밖에 없습니다.  '시의성'을 중요하게 생각한다면 계속 새로운 정보를 생산하는 사람이 살아남는 구조이기 때문에 좋은 글들을 쌓아놓고 지속적 수익을 누리는 '연금형' 블로그에는 적합하지 않은 타겟이라고 다시 한 번 생각하게 되었습니다.

반응형
Comments