CodeT5는 Salesforce Research에서 개발한 AI 모델로, 코드 이해와 생성에 특화되어 있습니다. 이 모델은 Identifier-aware Unified Pre-trained Encoder-Decoder Models를 기반으로 하며, CodeT5와 CodeT5+ 두 가지 버전이 있습니다.
실제로 CodeT5와 CodeT5+ 모델은 AI 지원 코딩 도우미로 배포될 수 있습니다. 예를 들어, Salesforce에서는 CodeT5를 VS Code 플러그인으로 사용하여 AI 코딩 도우미 데모를 구축하였습니다. 이 데모는 세 가지 주요 기능을 제공합니다.
첫째, Text-to-code generation 기능은 자연어 설명에 기반하여 코드를 생성합니다. 개발자가 원하는 기능에 대한 자연어로 된 설명을 입력하면, CodeT5가 해당하는 코드를 생성해줍니다.
둘째, Code autocompletion 기능은 주어진 타겟 함수 이름에 따라 코드의 전체 함수를 완성합니다. 함수 이름만 알고 있을 때, CodeT5가 나머지 부분의 코드를 자동으로 완성해주어 개발자의 작업 효율을 높여줍니다.
셋째, Code summarization 기능은 자연어 설명으로 함수의 요약을 생성합니다. 이미 존재하는 함수에 대해 CodeT5가 그 함수의 주요 내용을 자연어로 요약하여 개발자가 더 쉽게 이해할 수 있도록 도와줍니다.
CodeT5는 또한 다양한 연구 및 개발 활동을 통해 계속 발전하고 있습니다. 2023년 5월에는 CodeT5+ 논문과 모델이 발표되었으며, 이는 코드 이해와 생성에 대한 새로운 연구 결과를 포함하고 있습니다. 또한 2022년 NeurIPS에 CodeRL 논문이 수락되었고, HuggingFace에서도 여러 CodeT5 체크포인트가 발표되었습니다.
이 모델은 BSD-3-Clause 라이센스 하에 공개되어 있습니다. 그러나 사용자들은 이 소프트웨어를 폭력, 증오, 분열, 환경 파괴, 인권 침해, 또는 사람들의 신체와 정신 건강의 파괴를 촉진하거나 이익을 얻기 위해 사용해서는 안 됩니다. 또한 사용자들은 이 모델을 높은 위험을 수반하는 응용 프로그램을 개발할 때 적절한 문서화를 사용해야 하며, 사용하는 응용 프로그램에 대해 으로 이메일로 알려주는 것을 권장합니다.
만약 사용자가 어떤 질문, 제안, 요청 또는 버그 리포트가 있다면 GitHub 이슈를 생성할 수 있습니다. 또한 Pull requests도 환영합니다.