동국대학교 컴퓨터·AI학부

뉴스

[동국대 성연식 교수 연구팀] 개별연구 및 종합설계1 수강 학부생 국제우수학술지 5편 등 출판

작성자 AI융합 관리자
작성일 2025-09-04
조회수 2084

첨부파일 없음

동국대학교 컴퓨터·AI학부 성연식 교수가 개설한 2024학년 및 2025학년도 개별연구 및 종합설계1을 수강한 학부생들이 국제우수논문지(SCI급, Q1) 5편 및 국내우수논문지(등재지) 1편을 출판하였다. 이번 기회를 통해서 학부생들이 수행한 우수한 연구결과를 국내외에 알릴 수 있는 기회를 가지게 되었다.

성연식 교수는 학부생들이 다양한 연구 경험을 얻을 수 있도록 개별연구 및 종합설계1 운영에 많은 노력을 기울이고 있다. 개별연구는 2024학년도 2학기 14명 및 겨울학기 27명, 2025학년도 1학기 8명이 수강하여 1년동안 총 49명의 학부생이 개별연구를 수행했다. 종합설계1은 2024학년도 2학기 19명 및 2025학년도 1학기 62명이 수강하여 총 81명이 수강했다. 출판한 논문은 다음과 같다.

1. Kim, S., Kim, G., Yagishita, S.,Han, D., Im, J., & Sung, Y. (2025). Enhancing Diffusion-Based Music Generation Performance with LoRA. Applied Sciences, 15(15), 8646.

(왼쪽부터) 김선표(학부생), 김건희(학부생), 야기시타 쇼키(학부생), 한대운(학부생), 임정현, 동국대학교 컴퓨터·AI학부 성연식

최근 생성형 인공지능은 텍스트-음악 생성 분야를 발전시켰지만, 기존 모델들은 장르별 특성 반영과 음악적 속성 제어에 한계가 있었다. 본 논문에서는 AudioLDM에 Low-Rank Adaptation(LoRA)을 적용한 경량화된 미세 조정 방식을 제안한다. 제안 기법은 적은 데이터와 연산 비용으로도 특정 장르에 효과적으로 적응할 수 있으며, 리듬·감정·음색 등 주요 요소 제어를 강화한다. 실험 결과, 텍스트-음악 일관성을 나타내는 CLAP 점수가0.0498 증가했고, 실제 음악 분포와의 유사성을 측정하는 KAD 점수가 0.8349 감소했으며, 청취자 평가인 평균 의견 점수(MOS)는3.5~3.8로 나타나 높은 품질을 입증했다.

2. Shin, H., Im, J., & Sung, Y. (2025). Enhancing MusicGen with Prompt Tuning. Applied Sciences, 15(15), 8504.

(왼쪽부터) 신호현(학부생), 임정현, 성연식

최근 생성형 인공지능은 다양한 창의적 영역에서 주목받고 있으며, 그 중에서 MusicGen은 텍스트나 오디오 입력을 기반으로 음악을 생성하는 대표적 접근 방식으로 꼽힌다. 그러나 기존 MusicGen은 특정 장르에서 고품질 음악을 생성하거나 사용자 의도를 충분히 반영하는 데 한계가 있다. 본 논문에서는 원래의 모델 파라미터를 수정하지 않고 출력 품질을 조정할 수 있는 프롬프트 튜닝 기법을 제안한다. 이를 통해 특정 장르와 스타일에 최적화된 음악 생성을 가능하게 한다. 실험 결과, 제안 기법은 기존 MusicGen 대비 텍스트-음악 정합성을 나타내는 CLAP 점수가 0.1270 증가하였고, 음악적 일관성을 평가하는 KLD 점수가 0.00403 향상되었다. 이러한 성과는 프롬프트 튜닝이 MusicGen의 성능 최적화에 효과적임을 입증하며, 생성형AI 기반 음악 생성 도구 발전에 중요한 가능성을 제시한다.

3. Kim, D., Park, M.,Lee, J., Lee, I., Jin, J., & Sung, Y. (2025). Enhanced Semantic Retrievalwith Structured Prompt and Dimensionality Reduction for Big Data. Mathematics, 13(15), 2469.

(왼쪽부터) 김동현(학부생), 박민기(학부생), 이정선(학부생), 이인호, 진정현, 성연식

최근 헬스케어, 금융, 스마트 제조 등 다양한 분야에서 텍스트 데이터가 폭발적으로 증가하면서 효과적인 빅데이터 분석의 필요성이 높아지고 있다. 대규모 언어모델(LLM)은 강력한 언어 처리 능력으로 주목받고 있으나, 정적 특성으로 인해 실시간·도메인 특화 지식을 반영하는 데 한계를 가진다. 이를 보완하기 위한RAG(Retrieval-Augmented Generation) 기법이 제안되었으나, 기존 방식은 대규모 데이터 환경에서 검색 지연, 중복, 응답 품질 저하 문제가 발생한다. 본 논문에서는 이러한 한계를 해결하기 위해 구조화된RAG 프레임워크를 제안한다. 제안 기법은 비구조적 부분 프롬프트를 의미적으로 일관된 구조화 프롬프트로 변환하고, 요소별 임베딩 모델과 주성분분석(PCA) 기반 차원 축소를 적용한다. 또한 다단계 필터링을 통해 검색 정확도와 계산 효율성을 개선한다. 실험 결과, 제안 기법은 기존 구조화RAG 대비 임베딩 클러스터 품질을 나타내는 실루엣 점수를32.3% 향상시켜 대규모 빅데이터 분석 환경에서 정확성과 다양성, 효율성을 모두 강화했음을 입증했다.

4. Choi, Y., Kim, S.,Bassole, Y. C. F., & Sung, Y. (2025). Enhanced Retrieval-Augmented Generation using Low-Rank Adaptation. Applied Sciences, 15(8), 4425.

(왼쪽부터) 최예인(학부생), 김성우, Bassole Yipene CedricFrancois, 성연식

최근 Retrieval-Augmented Generation(RAG) 발전은 정보 검색 효율성을 크게 높였지만, 기존 방식은 출력 결정 지연, 교통 법규 검색 부정확성, 대규모 처리 시 높은 연산 부담과 같은 한계를 안고 있다. 본 논문에서는 이러한 문제를 해결하기 위해 도로교통 법규 처리에 특화된 RAG 응용 기법을 제안한다. 제안된 시스템은 LoRA로 향상된 BERT 기반 임베딩 모델과 최대 주변 유사도 점수 임계치 및 맥락 압축 검색을 결합한 최적화 전략을 적용하여 정확성과 효율성을 동시에 강화하였다. 실험 결과, 본 모델은 학습 가능한 파라미터를13.6% 감소, 계산 비용을 18.7% 절감하였으며, 성능 평가에서 BLEU-4 점수 4.36%, CIDEr 6.83%, SPICE 5.46% 향상 효과를 보였다. 또한 검색 정확도에서도 8.5% 개선되어 기존 RAG 기반 시스템보다 우수한 성능을 입증했다. 이 성과는 자율주행 등 무인 시스템의 의사결정에서 도로교통 규제 처리의 신뢰성과 효율성을 크게 높일 수 있는 가능성을 제시한다.

5. Cho, M., Kim, S.,Choi, D., & Sung, Y. (2025). Enhanced BLIP-2 Optimization Using LoRA forGenerating Dashcam Captions. Applied Sciences, 15(7), 3712.

(왼쪽부터) 조민준(학부생), 김성우, 최두호, 성연식

최근 자율주행 기술은 빠르게 발전하고 있지만, 차량·신호등·도로 상황·날씨·시간대 등 동적인 요소가 포함된 주행 환경 장면을 정확히 묘사하는 캡션을 생성하는 데에는 여전히 어려움이 따른다. 이는 자율주행 시스템의 상황 인식과 해석 가능성을 높이는 데 핵심적이다. 그러나 기존 비전-언어 모델은 세밀한 캡션이 포함된 자율주행 데이터셋이 부족해 도메인 적응에 한계를 보인다. 본 논문에서는 BLIP-2 프레임워크와 LoRA 기반 최적화 기법을 적용하여 자율주행 환경에서 장면 캡셔닝 성능을 강화하는 방안을 제안한다. 구체적으로, 구조화된 JSON 라벨을 대형 언어모델(LLM)로 자연어 캡션으로 변환하고, BLIP-2의 Q-Former를 LoRA로 최적화하여 효율적 도메인 적응을 달성하였다. BDD-100K 데이터셋을 활용한 실험 결과, 본 기법은 BLEU-4, CIDEr, SPICE 점수에서 기존BLIP-2 대비 각각 약1.5배 향상을 기록했다. 이는 맥락적 타당성과 정확성을 동시에 강화하여, 자율주행 시스템의 장면 이해와 해석 가능성을 크게 높일 수 있음을 입증한다.

6. Lee, Y., Ji, Y., & Sung, Y. (2025). Persona-based One-shot MBTI Prompt Engineering. The Transactions of the Korea Information Processing Society, 14(8), 608-616.

(왼쪽부터) 이용재(학부생), 지영민, 성연식

전통적인 대화형 에이전트의 대화 스타일은 중립적인 응답스타일 혹은 특정 MBTI 유형에 편향된 스타일 한계를 보인다. 대화형 에이전트가 사용자에게 개인화된 응답 스타일을 제공하는 연구가 요구된다. 본 논문은 MBTI 기반 대화 스타일을 효과적으로 반영하는 대화 생성 기법을 제안한 다. One-shot Prompt Engineering 기법을 활용하여 소수의 프롬프트 예시만으로도 에이전트의 대화 스타일을 반영할 수 있는 시스템을 설계한다. 제안하는 시스템은 학습과 추론 과정으로 구성된다. 학습 단계에서는 대화가 대화형 에이전트 페르소나 및 MBTI 특성과 일치하는지 평가하고 보정한다. 추론 단계에서는 최적화된 MBTI 프롬프트를 도출하여, 대화 에이전트가 일관된 성격을 유지하며 개인화된 응답을 생성할 수 있도록 지원한다. 이러한 접근은 가상 비서, 교육용 튜터, 엔터테인먼트 캐릭터 등 다양한 분야에서 보다 자연스럽고 개인화된 상호작용 경험을 제공할 수 있는 가능성을 제시한다.

이외에도 정지윤 학부생은 다음과 같은 논문을 PeerJ Computer Science에 제출할 예정으로 추가 실적이 예상된다.

Jung, J., Lee, Y., & Sung, Y. Verified Few-shot Shot Prompt Generation for Conversation Style Transfer.

왼쪽부터) 정지윤(학부생), 이용진, 성연식

최근 문장 단위 대화 시스템에서는 Few-shot Learning 기반 프롬프트 엔지니어링이 생성 문장의 품질을 향상시키는 데 활용되고 있다. 그러나 기존 방식은 Few-shot 샘플의 효과를 검증하지 않고 사용하거나, 샘플 수의 한계로 인해 다양성이 부족하다는 문제가 있다. 본 논문은 이러한 한계를 해결하기 위해 검증된 Few-shot 학습 기법을 제안한다. 제안 방법은 먼저 스타일 전환 성능을 평가해 저품질 샘플은 제거하고, 고품질 샘플만을 검증된 후보 샘플로 수집한다. 이후 무작위로 선택된 일부 검증 샘플을 Few-shot 샘플로 활용하여 다양한 대화 스타일을 생성하고, 평가를 거쳐 최종 문장을 선택한다. 실험에서는 영화 러브 액츄얼리와 Generative Agents 대본을 이용해 외향적·내향적 스타일을 구분하고, 이를 작은 아씨들 및 또 다른 Generative Agents 대본에 적용하였다. 그 결과, 제안 방법은 기존 접근법 대비 정확도를 10.69포인트 향상시키고 더 다양한 문장을 생성할 수 있음을 입증했다.

조성원 학부생은 “MBTI-based Rescheduler in Generative Agents via Few-shot Prompting”라는 논문 제목으로 국제우수논문에 추가 제출할 예정이다.

Cho, S., Ji, Y., & Sung, Y. (2025). MBTI-based Rescheduler in Generative Agents via Few-shot Prompting

(왼쪽부터) 조성원, 지영민, 성연식

GenerativeAgents(GA)는 인간과 유사한 행동을 시뮬레이션할 수 있는 유망한 프레임워크지만, MBTI 성격 유형(특히 외향–내향 차원)을 일관되게 반영한 스케줄을 생성하는 데 한계가 있다. 본 논문에서는MBTI 평가 및 적응 기법을 제안하여GA의 스케줄을 성격 프로필에 맞게 조정한다. 제안 방법은5분 단위로 분할된1시간 스케줄을 입력받아GPT-4o mini 기반 평가기로MBTI 일치도를 확인하고, 기준에 미달한 스케줄은few-shot prompting을 통해 반복적으로 재생성한다. 이 과정을 통해 최종 스케줄은MBTI 특성과 일관되도록 보장된다.실험 결과, 제안된 프레임워크는MBTI 일치도를 평균14.7%에서78.4%로 향상시켰으며, 평균1.38회 반복만으로 높은 효율성을 달성하였다. 이는 모델 재학습 없이도 성격 일관성이 반영된 스케줄 생성이 가능함을 입증한다.