그림 2는 생명과학 산업 종사자들에게 친숙한 현재의 기술 이전 프로세스를 보여줍니다. 왼쪽에는 제품, 포장 및 프로세스의 정의에 기여하는 모든 시스템이 있습니다. 이 모두는 방화벽을 통해 유입되어 관련 정보를 해석해야 하는 내부 제조 그룹 또는 여러 수탁 제조업체에서 수신되어야 합니다.
우리의 임무는 Paper-on-Glass 또는 이미지 기반 문서를 다운스트림 시스템에 지속해서 제공할 수 있는 구조화되고 반복할 수 있는 형태로 변환하고 해당 문서의 의도를 해석하는 인적 요소를 제거하는 것입니다. 그러면 모든 다운스트림 파트너가 데이터를 활용할 수 있습니다.
실행 방법
이 임무를 수행하는 과정을 살펴보면 먼저 데이터가 안전하게 제출되었는지 확인해야 합니다. 많은 기업이 FTP, 이메일, 전화 통화, 웹 사이트 등을 통해 커뮤니케이션하고 있으며, 통제 전략적 관점에서 지적재산권(IP)을 확보하기가 매우 어려워지고 있습니다. 결국 기술 이전을 통해 전달되는 모든 것은 보안이 유지되고 적시에 적절한 당사자에게 제공되어야 하는 회사의 IP입니다.
단순한 데이터 변환이 아니라 해당 데이터를 추적하는 것입니다. 부작용 발생 시 감사 추적이 있어야 변환된 내용, 승인자, 서명자, 데이터 수신자, 데이터 사용자 등을 정확하게 파악할 수 있습니다.
누군가는 과학자들과 프로세스 개발 엔지니어들이 사용하는 모든 다른 시스템으로부터 모든 정보를 수집할 책임이 있습니다. 그런 다음 이를 단일 문서 또는 문서 요약으로 집계하고 데이터를 제조 조직에 전달하는 프로세스를 조정해야 합니다.
구글 번역과 같은 조정 및 변환 메커니즘은 기술 이전을 통해 전달하려는 것의 진정한 의도를 파악하고 이를 예측 가능하고 활용 할 수 있는 것으로 전환합니다.
이 아이디어는 일단 데이터를 이해할 수 있고 재사용이 가능한 형식으로 구문 분석하면 다운스트림 시스템에서 사람이 모든 정보를 입력할 필요가 없다는 것입니다. 대신 정보가 필요한 시스템에 자동으로 전달됩니다.
우리의 의도는 문서(단어의 맥락, 의미, 문법적 의도)를 이해하는 자연어 처리 메커니즘을 이용하고 각 문서의 의도를 파악하여 이를 ISA 88 구조 형식으로 변환할 수 있는 머신 러닝 알고리즘을 갖추는 것입니다. 기본적으로 문서를 가져와 디지털 데이터와 결합하여 시스템에서 쉽게 수집할 수 있는 재사용 가능한 디지털 데이터 구조를 제시합니다.
그러나 기술 이전 문서에는 표나 계층 구조로 형식이 지정된 디지털 또는 텍스트 데이터만 있는 것이 아닙니다. 이미지 데이터도 있습니다. 크로마토그래피 분석이 있을 수 있습니다. 또한 샘플링 방법과 테스트 방법이 있을 수 있습니다. 이는 디지털 데이터로 쉽게 변환할 수 없는 비정형 데이터 세트입니다. 그러나 일정 수준의 디지털 데이터와 관련이 있으므로 해당 문서에 묻혀 있을 수 있는 여러 데이터 세트의 고유한 차이점을 이해할 수 있어야 합니다.
자연어 처리 툴을 통해 문서를 실행하면 스캔한 이미지를 촬영하고 광학 문자 인식(OCR) 기술을 사용하여 데이터를 추출할 수 있습니다. 또는 PDF 문서에 캡처된 디지털 데이터로 생성된 경우 데이터를 다시 가져올 수 있습니다.
이 지점에서 이 데이터 뒤에는 맥락이 없습니다. 이 툴은 단순히 데이터를 추출하고 "이 문서에 존재하는 데이터의 양을 이해합니다."라고 말합니다. 자연어 처리 출력은 주요 표시자를 찾기 때문에 다운스트림 시스템에서 쉽게 가져오거나 수집할 수 있는 표 형식의 데이터 세트를 생성할 수 있습니다.
이 접근 방식의 이점 중 하나는 협업이 가능하다는 것입니다. 값이 잘못 읽히면 PDF 문서에서 누군가와 협업하기가 매우 어렵습니다. 이것을 어떻게 전달할까요? 이메일을 보내 "22페이지, 3단락, 4행에 내가 읽을 수 없는 값이 있습니다."라고 말합니다. 이를 추출할 수 있다면 인텔리전스 계층은 누락된 부분을 알려 주거나 주의를 기울여야 하는 부분을 강조 표시하여 프로세스를 훨씬 더 효율적으로 만들 수 있습니다.
경로 선택
이를 통한 두 가지 방향이 있습니다. 하나는 이해했기 때문에 오늘 하고 있는 일을 계속하는 것입니다. 생명과학 산업에서 변화를 추구하는 것은 매우 어렵습니다. 따라서 개발 조직과 계속 협력하여 수년간 생산해오고 있는 것과 동일한 PDF를 만들도록 한 다음 자연어 처리 계층을 이용하여 재사용 가능하고 읽기 쉬운 디지털 형식으로 변환할 수 있습니다. 이것이 첫 번째 경로입니다.
두 번째 경로는 개발 프로세스 초기에 프로세스와 재료를 모델링하고 기본적으로 디지털 데이터 세트를 게시할 수 있는 디지털 기본 툴을 채택하는 것입니다. 이는 생명과학 산업의 특정 부분에서 기본적인 디지털 솔루션을 채택하는 데 수십 년은 아니더라도 수년이 걸린다는 것을 알고 있다는 점에서 현실적입니다.
우리는 이 두 번째 경로 접근법을 장려하고 있습니다. AI와 머신 러닝의 컴퓨팅 성능을 이용해 문서를 재사용 가능한 형태로 변환한 다음 디지털 기본 툴을 채택하는 것입니다. 가장 큰 이점은 순전히 노동 효율성이지만, 다음과 같이 그 이상의 이점을 제공합니다.
- 임상 시험, 시장 출시 및 시장 승인 시간 단축
- 제조로의 내부 및 외부 이전 비용 감소
- 프로세스 검증 속도 및 효율 개선
- 시설, 라인 및 장비 구축/스타트업 지연 감소
- 배치 품질 개선 및 폐기물 감소
- 규제 제출 및 승인 시간 단축
- 개발에서 제조, 규제에 이르기까지 설계를 통한 폐루프 품질 개선
- 배치 계보의 추적 기능 향상(올바른 국가, 올바른 제품)