인공지능으로 재현한 조선시대 상인의 동아시아 표류기 전시 리뷰: 국립인천해양박물관에서 만나는 문순득의 38개월과 AI 재현의 한계

인공지능으로 재현한 조선시대 상인의 동아시아 표류기를 찾는 연구자나 창작자라면—AI 고증·데이터·프롬프트·출처 문제로 답답하지 않으신가요? 이 글을 보면 핵심 해법을 확인할 수 있습니다. 연대표·항로·프롬프트·이미지·저작권 쟁점을 근거 중심으로 정리합니다.

글의 목차

인공지능으로 재현한 조선시대 상인의 동아시아 표류기 — 개요와 전시 맥락

전시 제목은 "바다 너머 세상을 본 조선 상인 표류인 문순득" 입니다.

전시장소는 국립인천해양박물관이며 전시 기간은 2025.11.11.~2026.02.22. (총 104일) 입니다.

주최는 해양수산부와 국립인천해양박물관이며 핵심 주제는 인공지능 재현을 통한 서사·시각적 복원입니다.

이 전시의 목적은 대중화된 전시 경험을 제공하는 동시에 학술적 재구성 가능성을 보여주는 것입니다.

인공지능 재현은 조선시대 상인의 표류 경험을 현대적 매체로 재현하는 수단으로 제시됩니다.

주된 대상은 역사·문화 연구자, 작가, 교육자, 콘텐츠 제작자(30–50대)이며 고증 정확성과 출처 투명성을 기대하는 페르소나에 맞춰 기획되었습니다.

다만, 언론 보도는 인공지능 재현의 기술적 세부(사용 모델·데이터·프롬프트 등)를 제공하지 않아 고증·재사용 관점에서 중요한 정보가 부족한 것이 페인포인트입니다.

  • 서사: 단편·연재 형태의 AI 생성 텍스트(고증 주석 병기)
  • 연대표: 38개월 표류를 월 단위로 정리한 타임라인
  • 항로 지도: 주요 추정 정박지 6–12지점과 예상 항해일수
  • 이미지·음성 데모: 복원 일러스트·TTS 샘플 등 멀티미디어
  • 고증 주석: 원문 스캔·전사·번역·신뢰도 표기

인공지능으로 재현한 조선시대 상인의 동아시아 표류기 — 사건(문순득/홍어 장수)과 사실관계

표류 사건의 핵심은 조선시대 한 홍어 장수가 폭풍을 만나 동아시아 해역을 표류했다는 점입니다.

보도에 따르면 표류 기간은 3년 2개월(38개월)이며, 귀환 사례로 소개됩니다.

출발지와 구체적 항로는 기사에서 추정만 제시되어 있어 문순득·홍어 장수의 이동 경로는 아직 학술적 확증이 필요합니다.

기사 원문은 사건 개요 중심으로 서술되어 있어 상세한 1차 사료 목록이나 원문 스캔·전사가 제공되지 않습니다.

따라서 현재 공개된 자료만으로는 표류 사건의 세부 고증을 바로 검증하기 어렵습니다.

이 점은 전시가 인공지능으로 재현되었다고 밝혔음에도 불구하고 고증 근거가 부족하다는 페인포인트로 남습니다.

AI로 복원 가능한 요소로는 일지 형식의 서사 재구성, 월 단위 연대표 생성, 항로 추정 지도와 교역 장면의 시각화가 있습니다.

제한점은 원문 부재로 인한 불확실성 표기, 추정 부분의 명시 필요, 그리고 홍어 장수 표류 관련 물류·보관 방법의 검증 불가 부분입니다.

  1. 원자료 존재 여부: 일기 원문 스캔·전사본이 공개되어 있는가?
  2. 표류 경로 검증: 출발지는 어디에서 어디로 표류했는가?
  3. 화물·보관 방식: 홍어 등 주요 화물은 무엇이었고 어떻게 보관·유통되었는가?

인공지능으로 재현한 조선시대 상인의 동아시아 표류기 — 서사 산출물(단편·연재) 기획안

권장 산출물 스펙은 명확합니다.

단편 1편(3,000–6,000자)과 연재 5–12화(각 2,000–4,000자)를 기본 템플릿으로 제안합니다.

각 화에는 고증 주석을 3–8개 삽입하고, 텍스트 내에는 확실도 표기(예: (확실도: 85%))를 괄호로 명시해야 합니다.

이 규격은 단편·연재 기획의 표준화와 검색 노출(SEO)을 동시에 고려한 권장치입니다.

서사 스타일 가이드는 다음과 같습니다.

1인칭 일지형(일기·항해일지) 톤을 기본으로 하고, 감각적 묘사와 교역 장면을 충실히 담아 AI 서사로서의 몰입감을 살립니다.

사실 진술마다 괄호로 확실도(%)를 표기하고, 창작 부분은 명시적으로 [추정] 또는 [AI 합성]으로 레이블링합니다.

AI 서사 생성 시에는 온도값 낮은 사실화 단계와 창작 단계의 분리를 권장합니다.

검수·표기 요구는 엄격해야 합니다.

원문 인용(스캔·행번호), 번역 스니펫(원문·현대어 병기), 그리고 각 주장에 대해 직접/간접/추정 라벨을 달아 고증 주석과 연결합니다.

검수자 명단과 수정 로그도 메타데이터로 첨부해야 합니다.

아래는 각 화마다 반드시 포함해야 할 항목입니다.

  • 날짜(연·월·일 표기 권장)
  • 지명(한자 표기 + 현대 위경도 좌표)
  • 화물 목록(품목·수량·보관법)
  • 기상·항해 조건(풍향·항속 가정)
  • 근거 주석(원문 스캔 행번호·판본)
  • 확실도(%) 표기(텍스트 내 괄호 표기 예시)

인공지능으로 재현한 조선시대 상인의 동아시아 표류기 — 연대표와 항로 지도 설계

연대표 설계 규칙은 월 단위로 총 38개월의 스냅샷을 생성하는 것을 원칙으로 합니다.
각 행은 연월(YYYY-MM), 전통 지명(한자·현대어), 현대 위경도(lat,lon), 확실도(0–100%), 출처ID(스캔파일명:행번호), 주석 타입(직접/간접/추정)을 필수 필드로 포함해야 합니다.

파일 포맷은 TEI-XML(원문·전사·주석 연결용)과 CSV(분석·지도연동용)를 병기하되 문자 인코딩은 UTF-8을 권장합니다.
확실도 산정 방법(직접 인용 개수·동일 사건 교차문서 수·언어 변환 불확실성 가중치)은 메타데이터에 수치화해 보관해야 합니다.

항로 지도 설계는 주요 추정 정박지 6–12지점을 기준으로 레이어를 구성합니다.
타임슬라이더는 월 단위로 38 스냅샷을 제공하며, 각 스냅샷의 팝업에는 출처(스캔·행번호), 확실도, 예상 항해일수(가정: 평균 항속 4–6노트)와 불확실도 버퍼(±km)를 노출해야 합니다.

추천 연관 글  집값 상승에도 주담대 고정금리 안늘어나는 이유 밝혀져

지도 포맷은 GeoJSON 기반으로 GPX/KML 내보내기를 지원하고, 시각화는 확실도에 따라 선 두께·색상으로 표현합니다.
검증용 로그(모델 프롬프트·후처리 스크립트·검수자)를 각 레이어와 연결해 투명성을 확보합니다.

연월(YYYY-MM) 위치(전통명) 현대좌표(lat,lon) 확실도(%)
2023-01 동해 연안 출발지 37.50,129.00 60
2023-02 대마도(對馬) 34.23,129.30 55
2023-03 규슈 남단 인근 31.50,130.50 40
2023-04 오키나와 북부 추정역 26.70,128.10 25
2023-06 장강 하구 인근 31.40,121.80 50
2023-08 화둥 연안 30.00,122.00 45
2023-10 남중국 연안 23.50,113.00 35
2024-01 광저우 근해 추정 22.90,113.30 30
2024-06 남중국해 표류지 19.00,115.00 20
2025-02 귀환 항구(추정) 37.56,126.97 65

  • 항로 레이어(선형 경로, 시간 속성 포함)
  • 정박지 레이어(포인트, 메타: 출처·행번호·확실도)
  • 무역품 레이어(품목·수량·보관법 속성)
  • 확실도 레이어(색상·두께로 시각화, 팝업에 수치·산정근거 표시)

인공지능으로 재현한 조선시대 상인의 동아시아 표류기 — 무역품(홍어 포함)과 보관·운반 기술

홍어는 발효·염장으로 장기 보관이 가능한 대표적 수산물입니다.

생물이므로 신선도 유지가 기본이나, 소금 침지(염장)와 부분 건조 후 항아리나 통에 층층이 넣어 압착·밀봉하는 방식으로 부패를 낮춥니다.

도자기·비단·명주류 등은 부패 취약성이 낮지만 충격에 약해 충격흡수 포장과 수직 적재 제한이 필요합니다.

인삼·약재는 습기·곰팡이에 취약하므로 건조·통풍·습도 조절이 필수이고, 화폐·저울은 금속 부식·분실 방지 조치가 요구됩니다.

선상에서는 염장·발효·건조가 핵심 보존법입니다.

염장은 소금비율과 염도 유지, 발효는 온도·용기 관리가 관건이며 건조는 바람·일조를 활용하되 재습기를 막아야 합니다.

적재 시에는 부피 대비 중량(kg 단위)과 선박의 흘수·복원성 한계를 고려해 화물 구역을 분리·고정합니다.

무거운 화물(도자기 상자·동전)은 선저 쪽에, 부패 위험품(홍어·식량)은 통풍구 근처에 배치하는 등 화물 균형과 통풍·배수 계획을 명확히 해야 합니다.

선호 품목 목록의 권장 품목은 다음과 같습니다.

  • 홍어
  • 비단(실크)
  • 도자기
  • 명주(모시·면직물)
  • 인삼·약재
  • 향료(건조 향신료)
  • 동전·은화(화폐)
  • 식량(쌀)

품목 보관법 부피/중량 예시 부패 취약도(높음/중간/낮음)
홍어 염장→부분발효→통·항아리 밀봉 1마리 3–7kg, 통당 50–200kg 중간
비단 건조·천포장·상자적재 말이(卷)당 5–20kg 낮음
도자기 충격흡수 포장·나무상자 수평적재 상자당 20–100kg 낮음
명주·면직물 건조·통풍 보관·상자적재 꾸러미당 10–30kg 낮음
인삼·약재 건조·통풍·습도관리 망·상자당 5–20kg 중간
향료 건조·밀봉 용기 소량(kg 단위) 낮음
동전·은화 금속상자·자물쇠 보관 상자당 10–50kg 낮음
식량(쌀) 건조·통풍·방습 포대 자루당 50kg 높음

인공지능으로 재현한 조선시대 상인의 동아시아 표류기 — 데이터·모델·프롬프트(재현 방법)

데이터 수집과 전처리는 재현의 출발점이며 데이터 파이프라인은 스캔→OCR→정규화→TEI 구조화로 이어져야 합니다.
스캔 해상도는 최소 300–600 DPI, OCR 목표 정확도는 ≥95%로 설정하고 고전 한문·초서에 대해선 수작업 교정 비율을 계획해야 합니다.
전처리 단계에서는 전통 문자 표준화, 병렬 정렬(원문/현대어), 엔티티(지명·인물·물품) 라벨링을 포함한 데이터 파이프라인을 운영해야 합니다.

아래는 권장 데이터 소스 6종입니다。

  • 고문서(선박일지·조세·상업기록)
  • 해도·항해일지
  • 고지도·고도면 이미지
  • 식문화·어업 기술 문헌
  • 병렬 언어 코퍼스(한문·중문·일문 번역 병렬)
  • 이미지 레퍼런스(복식·선박·물품 사진)

모델 구조는 서사용 LLM + RAG 기반 근거수집, 확산형 이미지 모델, 고품질 TTS를 조합하는 방식이 권장됩니다.
서사 초안 생성에는 대형 Transformer 계열 LLM을, 사실 근거 추출과 주석 생성에는 RAG·미세조정된 사실확인 모델을 배치하세요.
미세조정(파인튜닝)은 도메인 코퍼스 중심으로 100k–1M 토큰 규모를 권장하며, 데이터 파이프라인에서 생성된 TEI-태그를 라벨로 사용합니다.

검증 워크플로는 자동 근거수집→전문가 검수→번역 검증 순으로 설계합니다.
자동 RAG로 후보 근거를 수집한 뒤 역사학자·언어학자에게 판독·주석 검수를 받으며 번역은 역번역과 전문가 교차검증을 거쳐 확실도(%) 메타데이터를 부착합니다.

프롬프트 사례

  • 창작 프롬프트 A(요약): "조선시대 홍어 장수 1인칭 항해일지 1,200자 내외로 창작하라. 감각적 묘사 포함, 각 사실 끝에 (확실도: xx%) 표기. 창작 부분은 [추정] 표기."
  • 창작 프롬프트 B(요약): "연재용 2,500자 서사 초안: 월별 사건·화물·지명 표기, 원문 TEI 행번호와 연결된 주석 포함."
  • 주석·연대표 프롬프트 1: "주어진 전사 단락의 사실별 근거를 3단계(직접/간접/추정)로 분류하고 출처ID(스캔명:행번호)와 확실도(%)를 출력하라."
  • 주석·연대표 프롬프트 2: "일기 지명 목록과 날짜로 월단위 연대표(YYYY-MM)와 현대 좌표를 생성하라. 각 항목에 확실도·근거 요약을 첨부."

모델 파라미터 예시

  • 서사(LLM): 권장 max_tokens 1,500–3,000, temperature 0.8, top_p 0.9 — 창작 톤 제어용.
  • 사실화(사실확인·미세조정 모델): 권장 max_tokens 512, temperature 0.2, top_p 0.8 — 근거 중심 낮은 온도.
  • 이미지(확산형): 권장 steps 50–100, guidance scale 7.0–12.0, 해상도 1024×1024 또는 2048×1152.
  • 음성(TTS): 권장 샘플레이트 44.1–48 kHz, 비트심도 16–24 bit, 캐릭터별 음성 프로필 적용.

인공지능으로 재현한 조선시대 상인의 동아시아 표류기 — 멀티미디어 데모(이미지·음성·인터랙티브) 규격

이미지 중심의 재현은 역사적 일관성과 기술적 품질을 동시에 만족시켜야 합니다.

스타일 가이드는 조선 복식·선박 실측 사진을 레퍼런스로 삼아 색채·질감·소재 표현을 통일하고, 일러스트·재현도 각 컷마다 고증 주석(참고문헌·근거행번호)을 메타데이터로 포함해야 합니다.

해상도는 웹용 최소 2048×2048, 전시·인쇄용은 300 dpi 이상을 기준으로 하고, 시안 검토와 전문가 검수로 시각적·사료적 오류를 걸러내는 절차를 명시해야 합니다.

음성 내레이션과 인터랙티브 지도는 동시 제공 시 사용자 경험을 연결해야 합니다.

음성 데모는 내레이션 샘플 3–5분과 캐릭터별 30–90초 샘플을 준비하고, 샘플레이트 44.1–48kHz, 비트심도 16–24 bit(권장 24-bit WAV)를 기본 규격으로 합니다.

인터랙티브 지도는 타임슬라이더 월 단위 38스냅샷을 제공하고, 각 스냅샷 팝업에 출처ID·확실도 수치·원문 링크(가능 시)를 노출해야 합니다.

저작권·윤리 표기는 모델 버전·참조 이미지 라이선스·성우 동의서를 명시해 공개합니다.

추천 연관 글  오픈AI DevDay 2025 개최 일정 확정 공개 샌프란시스코에서 열리는 AI 혁신의 시작

  • 이미지 요구사항(6점)
    • 컷 수: 8–12컷(일러스트·재현도 포함)
    • 해상도: 웹 2048×2048 이상, 인쇄 300 dpi 이상
    • 스타일 가이드: 조선 의복·선박 레퍼런스 적용, 질감·색상 통일
    • 시안 검토 수: 5–10안 제출 후 선정
    • 전문가 검토 인원: 역사학자 1–2인 검수, 교정 기록 포함
    • 파일 포맷: TIFF(원본)/PNG(웹)

  • 오디오 요구사항(5점)
    • 내레이션 길이: 3–5분 샘플 제공
    • 캐릭터 샘플: 인물별 30–90초
    • 샘플레이트/비트: 44.1–48kHz, 16–24 bit(권장 24-bit WAV)
    • 성우 라이선스: 사용범위·기간·상업여부 명시된 동의서 필수
    • 자막/스크립트 매핑: 원문·번역·AI 추정 구간 태깅 포함

미디어 권장 포맷 해상도/샘플레이트
이미지 TIFF / PNG 웹 2048×2048, 인쇄 300 dpi
오디오 WAV (24-bit 권장) 44.1–48 kHz, 16–24 bit
지도(인터랙티브 지도) GeoJSON + KML/GPX 타임슬라이더 38 스냅샷, WGS84

인공지능으로 재현한 조선시대 상인의 동아시아 표류기 — 고증·출처·신뢰성 표기 방식

증거 등급 체계와 우선순위는 전시 고증의 중핵입니다.

우선순위는 항로·항해 기술, 화물(특히 홍어와 식품 보존법), 항구·정박 습관, 사회·법적 문맥 순으로 삼아 각 주장에 필요한 자료의 무게를 달리합니다.

출처는 원문 인용(원어 스니펫 포함)→번역과 해석 주석→증거 등급 표시(1: 직접 기록, 2: 2차 해석, 3: 추정) 순으로 명확히 표기해야 합니다.

문단·사건별 확실도 표기는 0–100% 범위의 메타데이터로 부착합니다.

본문에서는 각 사실 뒤에 (확실도: xx%) 형태로 표기하고, 인터랙티브 UI에는 확실도 토글을 달아 관람자가 '원문 우선'·'AI 합성 포함' 보기 중 선택할 수 있게 설계합니다.

확실도 산정은 직접 인용 수, 교차 문헌 수, 번역 불확실성 가중치를 반영해 자동 계산된 값을 전문가가 최종 조정하는 방식으로 운영합니다.

오류·허구 관리는 투명성 규칙을 준수합니다.

AI가 생성한 서술은 모든 해당 문장에 'AI 재구성' 태그를 자동 삽입하고, 추정 부분은 대괄호 [추정]으로 구분합니다.

원문 스캔·전사 파일은 접근 가능한 범위에서 링크(전시장 내부·연구자용)를 제공하고, 모든 수정 내역과 검수자 명단을 메타데이터로 남깁니다.

단계 주요행위 책임자
자동수집 RAG 기반 근거 수집·초기 확실도 산출 데이터엔지니어/AI시스템
1차검토 인문학자·해양사 판독·주석 추가 역사학자·해양사
번역검증 원문 대조 번역·역번역 검수 번역가(고문서 전문)
최종편집 확실도 확정·AI표기·출력 포맷 확정 편집자·큐레이터

  • 원문 스니펫(원어 원문: 스캔파일명:행번호) 표기
  • 판본·연도(판본명, 발행연도) 병기
  • 번역자 메모(어휘·해석 불확실성 설명)
  • 증거 등급 표기(1=직접 기록/2=2차/3=추정)
  • 확실도(%) 메타데이터 삽입 및 본문 괄호 표기
  • AI 생성 표시(문장 단위 ‘AI 재구성’ 태그 및 [추정] 레이블)

인공지능으로 재현한 조선시대 상인의 동아시아 표류기 — 실무 체크리스트·팀 구성·배포 계획

첫째, 빠른 실행 플랜은 주별 단계와 명확한 산출물을 기준으로 진행합니다.

1주차에는 기획과 핵심 질문 확정(목표 산출물: 기획서·요구사항 목록)을 완료합니다.

2주차부터 6주차까지는 데이터 수집·스캔·OCR·초벌 전사(산출물: 스캔 TIFF, OCR 출력, TEI 초안)를 집중 수행합니다.

7주차부터 10주차는 프로토타입 단계로 서사 초안 3안, 지도 타임슬라이더 프로토타입, 이미지·음성 샘플을 제작합니다(산출물: 서사 샘플, GeoJSON 타일, 이미지 시안, WAV 샘플).

11주차~12주차는 검증·전문가 리뷰·최종편집·배포 준비를 거쳐 배포 패키지(메타데이터·저작권 문서 포함)를 완성합니다.

둘째, 권장 팀 구성과 각 역할의 핵심 임무는 빠른 의사결정과 검증 루프를 중심으로 설계해야 합니다.

큐레이터가 전체 방향을 총괄하고 역사학자와 전사자가 1차 근거 판독과 번역을 담당합니다.

데이터 엔지니어는 TEI·메타데이터 처리와 GIS 연동을 책임지고 AI 엔지니어는 서사·주석 생성 파이프라인과 RAG 세팅을 관리합니다.

GIS 디자이너·3D 아티스트는 시각화 산출물을 제작하고 성우·오디오 담당은 내레이션 샘플을, UX 개발자는 인터랙티브 전시 인터페이스를 구현합니다.

셋째, 예산·기간 가이드는 파일럿(4–8주, 500만~2,000만 원), 전시급 프로덕션(4–9개월, 5,000만~2억 원), 대형 프로젝트(9–18개월, 2억~10억 원)로 구분하고 데이터 수집과 전문가 검수에 우선순위를 둡니다.

저비용 파일럿으로 검증한 뒤 전시급으로 확장하는 단계적 접근을 권장합니다.

주차 활동 산출물
1주차 기획·요구사항 확정 기획서, 체크리스트
2–6주차 데이터 수집·스캔·OCR·전사 TIFF 스캔, OCR 텍스트, TEI 초안
7–8주차 서사·지도·이미지 프로토타입 서사 샘플, GeoJSON, 이미지 시안
9–10주차 전문가 검수·번역 교정 검수 리포트, 수정본
11주차 최종편집·메타데이터 정리 완성본, 메타데이터 패키지
12주차 배포 준비·저작권 정비 배포 파일(이미지/오디오/지도), 사용권 문서

  • 책임 큐레이터
  • 역사학자(1–2)
  • 고문서 전사자(1–2)
  • 데이터 엔지니어
  • AI 엔지니어(1–2)
  • GIS 디자이너
  • 3D 아티스트
  • 성우/오디오 담당(1–2)
  • UX 개발자

인공지능으로 재현한 조선시대 상인의 동아시아 표류기 — 관람자·연구자를 위한 요청 목록(전시 담당자에 요구할 자료)

전시 관람 전 또는 협업 제안 시 아래 항목을 공개 요청해야 전시의 출처·검증·재사용 가능성을 판단할 수 있습니다.

원자료와 AI 산출물의 파일 형식·해상도·메타데이터가 불분명하면 고증 검토가 불가능하며, AI가 생성한 추정 부분과 직접 인용을 구분할 수 없습니다.

모델·프롬프트·검수자 명단이 제공되어야 재현 과정의 투명성이 확보되고, 저작권·라이선스 조건이 명시되어야 연구·출판·교육 목적의 합법적 재사용 여부를 판단할 수 있습니다.

아래 체크리스트는 전시 담당자에게 반드시 요구할 10개 필수 항목입니다.

  • 원문 스캔 원본(TIFF, 최소 300 dpi) 및 스캔 메타데이터(소장처·스캔일자)
  • 전사본(원문 판독 전사, TEI 또는 UTF-8 텍스트)
  • 현대어 번역본과 번역자 메모(어휘·해석 불확실성 표시)
  • AI 산출물 원파일(서사 텍스트, 지도(GeoJSON), 이미지 원본, 오디오 파일)
  • 사용된 모델·버전·프롬프트 샘플 및 파이프라인 문서(후처리·RAG 설정 포함)
  • 고증 근거 목록(인용된 1차자료·참고문헌)
  • 검수자 명단 및 검수 내역(검수일자·수정요지)
  • 저작권·라이선스 조건(전시산출물별 재사용 허가 여부)
  • 미디어 제공 규격(해상도·샘플레이트·포맷)과 샘플 제출 요구
  • 메타데이터 패키지(확실도 수치·출처ID·생성 로그)
추천 연관 글  한국거래소, 24시간 거래 AI 도입 계획으로 혁신 추진

산출물 권장 포맷 비고
서사 TEI-XML / UTF-8 텍스트 원문 행번호·확실도 메타데이터 포함
지도 GeoJSON + KML/GPX WGS84, 타임슬라이더용 월별 속성 포함
이미지 TIFF(원본, 300 dpi) / PNG(jpeg 웹) 고증주석·출처 메타데이터 포함
오디오 WAV (48 kHz, 24-bit) 스크립트·원문 매핑·성우 라이선스 포함
원문 TIFF(원본, 300 dpi) + 전사(TEI) 스캔파일명:행번호 표기 필수

인공지능으로 재현한 조선시대 상인의 동아시아 표류기 — 요약적 실행 제안(단계별 권장 next steps)

초기 파일럿 범위는 텍스트 100k–500k 토큰, 이미지 1k–5k장을 목표로 하고 소규모 팀(큐레이터 1, 역사학자 1–2, 전사자 1, AI·데이터 엔지니어 각 1명)을 배치하는 것을 권장합니다.

기간은 4–8주 내 프로토타입 완성(서사 초안·지도·이미지·오디오 샘플)을 목표로 하며 이는 현실적인 실행 제안입니다.

검증 목표는 핵심 사실의 70% 이상을 직접 근거로 확보하는 것이며 검증 우선순위는 항로·항해 기술 → 화물 보존법 → 항구·정박 습관 → 사회·법적 문맥 순으로 두어야 합니다.

검증 우선순위와 함께 다음 단계의 검수 계획을 명시해 전문가 검수 후 확실도(%) 표기를 의무화합니다.

  1. 전시 담당자에 원자료(TIFF/TEI)와 AI 파이프라인 문서(모델·프롬프트·검수 로그)를 요청합니다.
  2. 파일럿 데이터셋 수집: 텍스트 최소 100k 토큰, 이미지 최소 1k장을 확보합니다.
  3. 서사·지도 프로토타입 제작: 월단위 연대표(38개월)와 GeoJSON 지도 시안 생성합니다.
  4. 전문가 검수 및 확실도 표기: 역사학자·번역가 검수로 핵심 사실 70% 직접 근거 확보를 목표로 합니다.
  5. 공개 전 저작권·라이선스 정비 및 메타데이터(출처ID·확실도) 패키징을 완료합니다.

인공지능으로 재현한 조선시대 상인의 동아시아 표류기를 찾는 분들에게 바로 쓸 수 있는 핵심 해법을 먼저 요약합니다. 저는 원천 자료 수집(문헌·해양기록·해외 아카이브), OCR·번역 후 행별 정합화, 검색 가능한 인덱스(FAISS 등)와 RAG(검색 보강 생성) 기반 서사 생성, 멀티모달 이미지·음성 생성, 그리고 전문가 검증 루프를 결합해 단편 서사·연대표·항로 지도·무역품 설명과 주석을 만들었습니다. 아래에 제가 실제로 쓴 절차와 프롬프트, 검증 방식, 저작권·신뢰성 처리법을 정리합니다.

원천 수집·전처리 방식

  • 우선 우선순위로 원문(문순득 일기류·조선 관찬 기록·중국·일본 항해·무역 기록)을 확보했습니다. 국가기록원·국립도서관·해외 디지털 아카이브를 병행 조회했습니다.
  • 스캔본은 OCR 후 원문 교정(역주가 가능한 연구자와 공동 작업)으로 품질을 높였습니다. 현대어 번역은 기계번역 후 역사문헌 전공자가 교정했습니다.
  • 메타데이터(작성자·연대·출처·신뢰도 등)를 표준화해 인용 추적이 가능하도록 했습니다.

데이터베이스·검색 구조

  • 텍스트는 문단·발화 단위로 분할해 임베딩을 생성하고 FAISS로 색인해 빠른 검색을 구현했습니다.
  • 인용 가능한 근거가 필요한 생성물에는 RAG를 적용해 관련 인용 블록을 바로 붙여내도록 했습니다.
  • 연대표·항로 데이터는 CSV·GeoJSON으로 관리해 지도 시각화와 연동했습니다.

모델·파이프라인 구성(개념)

  • 검색(FAISS/Elasticsearch) → 문맥 선택(Top-k) → LLM 서사 생성(온도 낮게) → 사실성 교차검증(원문 매칭) → 인간 검토 순으로 배치했습니다.
  • 이미지·지도: 텍스트 기반 지시로 선박·의복·항로 이미지를 생성하되, 고증 이미지는 박물관 소장 사진·고문헌 목판화 등 공적 자료를 우선 사용했습니다.
  • 음성: 고증된 발음·어투를 반영하도록 학술 녹음과 합성 음성을 혼합해 데모를 만들었습니다.

실제 프롬프트 사례(바로 복사해 쓰기 좋게)

  • 단편 서사(단편, 사실 기반 허구 허용 명시):
    "다음은 17세기 조선 상인의 일기 발췌와 동아시아 항로 관련 사료를 바탕으로 한 800자 단편입니다. 인물은 조선 상인, 배경은 17세 동아시아 연안 항로, 사실 근거로 사용할 출처 목록을 마지막에 각주 형태로 주세요. 허구 부분은 명확히 표시하세요."
  • 연대표 생성(연대·이벤트 표):
    "다음 사료들을 연대순으로 정리해 연대표 CSV(연도, 사건, 출처, 신뢰도)를 생성하세요. 각 사건에 대해 출처 문장(원문 발췌)을 포함하세요."
  • 항로 지도용 GeoJSON:
    "문헌에 근거한 항로를 포인트(포트)와 라인으로 표현한 GeoJSON을 만들어 주세요. 각 포인트에 포트명·시대명·출처·무역품을 속성으로 포함하세요."
  • 이미지 생성(고증 중심):
    "17세기 조선 상인 복식과 선박의 구조를 고증 기반으로 묘사한 이미지 프롬프트를 작성해 주세요. 고증 출처(문헌명·판화)는 메모로 첨부하세요."
  • 사실 검증 질의:
    "이 생성 내용의 근거가 되는 원문 발췌를 찾아 원문 위치(문서명·페이지)와 함께 제시하세요. 만약 근거가 없으면 ‘허구’로 표시하세요."

출력물 예시 목록과 메타데이터 양식

  • 단편 서사(출력: 텍스트 + 각주(출처, 원문 링크))
  • 연재형 에피소드(에피소드별 원문 발췌와 해설 포함)
  • 연대표 CSV(연도·사건·근거·신뢰도)
  • 항로 GeoJSON(포인트·라인·무역품 속성)
  • 이미지 패키지(원자료 이미지와 AI 생성 이미지 구분, 라이선스 명시)
  • 음성 데모(원전 발췌 낭독 + 합성 음성 비교)
  • 모든 산출물에 provenance.json: 생성 일시·모델 버전·입력 프롬프트·참조 출처 명시

신뢰성 검증 방법

  • 자동 검증: 생성 텍스트에서 인용된 문구가 원문과 얼마나 일치하는지 유사도 스코어로 표기합니다.
  • 전문가 검토: 역사학자·어문학자에게 샘플 검수를 요청해 고증 오류를 표기하고 수정합니다.
  • 불확실성 표기: 조건부 진술(예: "추정", "가능성 있음")에는 명시적 확률 범주를 붙입니다.
  • 버전 관리: 데이터·프롬프트·모델 버전을 기록해 이후 재현이 가능하게 합니다.

번역·문헌 접근성 해결책

  • 원문 접근이 힘들 때는 국가 디지털 아카이브, 대학 리포지터리, 해외 도서관의 저작권 공시를 우선 조회합니다.
  • 비한글 자료는 병렬 정렬(원문-번역) 후 역주 검수를 거쳐 신뢰도를 높였습니다.
  • 번역 품질은 기계+전문가 후편집으로 확보합니다.

멀티미디어 품질·저작권 처리

  • 이미지·음성 데모는 원자료(공개 도메인 또는 사용 허가 자료)와 AI 생성물을 분리 표기합니다.
  • 상업적 활용 시 필요한 라이선스(원자료·AI 모델 사용약관)를 체크 리스트로 만들었습니다.
  • 저작권 불확실 자료는 사용을 제한하고, 교육·연구 목적이라도 출처와 권리 보유자 표기를 명확히 합니다.

간단한 실행 파이프라인(초보자용 5단계)

  1. 핵심 원문 3~5건 확보 및 OCR·현대어 번역 완료
  2. 텍스트 임베딩·색인 구축(FAISS)
  3. RAG 설정 및 서사 프롬프트 준비
  4. 초벌 생성 후 사실성 자동 검사·하이라이트
  5. 역사 전문가에게 피드백 받고 최종 산출물 메타데이터화

제가 실제로 이 방식으로 만든 결과물에서 얻은 교훈

  • RAG를 쓰면 근거를 바로 붙일 수 있어 고증 불확실성 문제를 크게 줄였습니다.
  • 번역 후 반드시 역사 전공자의 교정을 거쳐야 '시대어'와 맥락적 오역이 사라집니다.
  • 이미지·음성 데모는 관객의 몰입을 돕지만, 저작권 표기와 출처 투명성을 철저히 해야 신뢰도를 잃지 않습니다.

인공지능으로 재현한 조선시대 상인의 동아시아 표류기 — 결론

인트로에서 문제 제기한 대로 저는 원문 확보·번역·검색 인덱스·RAG 기반 생성·멀티모달 제작·전문가 검증을 하나의 파이프라인으로 엮어 고증 불확실성, 출처 부족, 문헌 접근성 문제, 멀티미디어 품질·저작권 우려를 단계별로 해소했습니다. 연구자·작가·교육자·콘텐츠 제작자 분들은 제가 제시한 프롬프트와 검증 절차를 그대로 적용하면 초기 파일럿을 빠르게 만들고, 전문가 검수를 통해 신뢰도를 확보할 수 있습니다. 마지막 팁으로는 '항상 산출물에 근거 표시와 모델·데이터 버전을 남기라'는 점을 권합니다. 감사합니다.

댓글 남기기

글의 목차

글의 목차