chatGPT가 환경하에서 데이터분석 수업방안 구상
chatGPT 돌풍
chatGPT가 돌풍을 일으키고 있다. 유튜브에서도 chatGPT를 활용할 수 있는 다양한 아이디어들이 쏟아지고 있다. 뉴스 등 다양한 매체에서 학생들이 과제나 오픈북 테스트 등에서 chatGPT를 활용하는 실태에 대해 보도하고 문제점들을 지적하고 있다. 일부 학교에서는 학생들이 숙제를 chatGPT가 내놓은 결과를 그대로 제출하여 문제를 제기하고 있고, 또 어떤 학교는 교내에서 아예 chatGPT 접속을 금지한다고 하는 보도도 나오고 있다. 나는 피하거나 외면 할 수 없는 이 상황을 차라리 적극적으로 활용하는 편이 좋겠다고 마음먹고 아예 유료형 chatGPt 서비스를 신청해서 사용하고 있다.
chatGPT는 데이터분석 중간고사 문제를 해결할 수 있을까?
우선 chatGPT가 어느 정도의 문제 해결 능력이 있는지 검증해보고 싶어 내가 담당하는 데이터분석 과목의 실제 실시했던 중간고사 문제를 chatGPT에게 입력하고 답을 구하라고 해봤다.
프롬프트에 입력한 문제는 다음과 같다.
Palmer Penguin 데이터로 다음을 수행하라.
1. Penguin의 품종(Species)별 날개 길이 분포를 박스플롯과 점그래프를 중첩하여 그래프를 작성하라, 단 품종별로 점의 색깔을 다르게 지정하고 점들이 중첩되지 않도록 jitter를 사용하라
2. Penguin의 품종(Species)과 날개 길이가 독립인지를 검정하기 위한 귀무가설과 대립가설을 설정하라.
3. 가설 검정을 위한 방법에 대해 설명하라.
4. 가설을 검정하는 R 소스코드와 가설검정 결과를 제시하고 해석하라
다음은 chatGPT가 내놓은 답이다.
- Palmer Penguin 데이터의 각 품종에 대한 날개 길이 분포 그래프를 생성하려면 R의 ggplot2 라이브러리를 사용하여 각 품종에 대한 히스토그램을 생성할 수 있습니다. 다음은 이를 수행하는 예제 코드 스니펫입니다.
소스코드
소소코드를 R studio에 붙여 넣기 하여 실행한 결과는 다음과 같다.
[펭귄 품종별 날개길이 분포]
(C:/Users/shine/OneDrive/바탕 화면/00/003_글또_08기/소스1_결과.png)
- 펭귄 종과 날개 길이가 독립적인지 검정하기 위한
귀무 가설은 두 변수 사이에 관계가 없으며 관찰된 날개 길이의 차이는 우연에 의한 것이라는 것입니다.
대립 가설은 두 변수 사이에 관계가 있고 날개 길이의 차이가 우연에 의한 것이 아니라는 것입니다. - 가설을 테스트하기 위해서 카이제곱 독립 검정을 사용합니다. 이 테스트는 두 변수가 독립적인 경우 펭귄 종과 날개 길이의 각 조합에서 관찰된 빈도를 예상 빈도와 비교합니다. 관찰된 빈도가 예상 빈도와 크게 다른 경우 귀무 가설을 기각하고 펭귄 종과 날개 길이 사이에 관계가 있다는 결론을 내립니다.
- 가설검정을 위한 테스트 코드는 다음과 같습니다.
[가설검정을 위한 소스코드 ] (C:/Users/shine/OneDrive/바탕 화면/00/003_글또_08기/소스2.png)
소스를 R studio에 붙여 넣기 하여 실행한 결과는 아래와 같다.
chatGPT가 검정 결과를 해석한 부분은 다음과 같다.
이 코드의 출력에는 관찰된 빈도 테이블과 카이 제곱 통계를 포함하는 카이 제곱 검정의 결과가 포함됩니다. 자유도 및 p값은 귀무가설이 기각될 수 있는지 여부를 나타냅니다. p값이 선택한 유의 수준(예: 0.05)보다 작으면 귀무 가설을 기각하고 펭귄 종과 날개 길이 사이에 관계가 있다는 결론을 내릴 수 있습니다.
chatGPT에게 추가적인 질문을 통해 독립성 검정에 대한 개념의 이해정도를 확인해보았다.추가적인 질문은 다음과 같다.
카이제곱 검정에서 사용한 예상빈도와 기대빈도란 각각 어떤 의미인가? 그 빈도가 독립성과는 무슨 관계가 있다는 것인지 예를 들어 설명해주라
이에 대해 chatGPT 아래와 같은 답을 내 놓았다.
카이제곱 검정에서 “예상 빈도”는 독립 귀무 가설 하에서 분할표의 각 셀에서 예상되는 관측값의 수를 나타냅니다. 예상 빈도는 행 및 열 총계와 총 샘플 크기를 기반으로 계산됩니다.
예를 들어, 성별과 흡연 상태 사이에 연관성이 있는지 확인하는 데 관심이 있는 연구를 생각해 보십시오. 500명의 샘플에서 데이터를 수집하고 성별(남성 또는 여성)과 흡연 상태(흡연자 또는 비흡연자)를 기록합니다. 아래와 같이 데이터를 요약하는 우발표(Contingency Table)를 만들 수 있습니다.
구분 | 비흡연자 | 흡연자 | 전체 |
---|---|---|---|
남성 | 200 | 50 | 250 |
여성 | 150 | 100 | 250 |
총계 | 350 | 150 | 500 |
성별과 흡연 상태 사이에 연관성이 있는지 테스트하기 위해 카이제곱 테스트를 사용할 수 있습니다. 분할표의 각 셀의 예상 빈도는 다음과 같이 계산할 수 있습니다.
남성/비흡연자 셀의 예상 빈도: (250 x 350) / 500 = 175
남성/흡연자 셀의 예상 빈도: (250 x 150) / 500 = 75
여성/비흡연자 셀의 예상 빈도: (250 x 350) / 500 = 175
여성/흡연자 셀의 예상 빈도: (250 x 150) / 500 = 75
각 셀에서 관찰된 빈도와 예상 빈도를 비교하여 다음을 테스트할 수 있습니다. 성별과 흡연 상태 사이의 연관성에 대한 증거가 있습니다. 관찰 빈도가 예상 빈도와 크게 다른 경우 두 변수 사이에 연관성이 있다는 증거가 있다고 결론을 내릴 수 있습니다.
예를 들어 남성/흡연자 셀에서 관찰 빈도가 40, 기대 빈도인 75가 아니라 관찰 빈도가 독립 귀무 가설 하에서 예상되는 것보다 훨씬 낮기 때문에 성별과 흡연 상태 사이에 관계가 있음을 시사합니다.
추가적인 질문을 통해 확인한 것도 구체적인 예까지 들어가면서 마치 아는 사람이 설명하듯 설명하고 있었다. 솔직히 충격을 받았다.
위험성
이러한 상황으로 추정해보면, 비교적 답이 명확한 문제(이과적 문제)는 학생들이 과제나 평가에 chatGPT를 이용해서 정확한 답을 아주 빠른 시간에 작성하는 것이 가능해 보인다. 이것이 의미하는 바는 학생이 이 제출한 과제 결과물을 가지고 학생의 노력이나 이해의 정도를 평가한다는 것은 더이상 유효한 방법이 아니라는 사실이다. 그렇다면 교수도 과제를 채점할때 chatGPT를 이용하여 학생이 작성한 내용이 학생이 작성한 것인지 아니면 AI가 작성한 것인지를 물어보면 되지 않을까? 그래서 다음 같은 질문을 chatGPT에게 던져봤다.
학생이 제출한 과제물이 사람이 작성한 것인지 AI가 작성한 것인지 구분할 수 있는가?
이에 대한 chatGPT의 답은 다음과 같다.
학생의 과제가 사람이 쓴 것인지 AI 언어 모델이 쓴 것인지 확실하게 구분하기 어려울 수 있습니다. 특히 AI가 사람이 쓴 것과 구별하기 어려운 고품질 텍스트를 생성하도록 훈련된 경우에는 더욱 그렇습니다.그러나 텍스트의 패턴이나 이상을 확인하거나 표절 탐지 소프트웨어를 통해 텍스트를 실행하거나 구문 분석을 사용하는 등 AI가 과제를 작성했는지 감지하기 위해 교육자가 사용할 수 있는 몇 가지 방법이 있습니다. 쓰기 스타일, 문법 및 문장 구조의 차이를 식별합니다.
전반적으로 학생의 과제가 사람에 의해 작성되었는지 여부를 감지하는 것은 어려울 수 있습니다. 또는 AI는 비정상적인 쓰기 패턴 또는 스타일 모니터링, 표절 감지 소프트웨어를 통한 텍스트 실행, 텍스트의 이상 확인을 포함한 접근 방식의 조합을 사용하여 교육자가 AI에 의해 생성되었을 수 있는 과제를 식별하는 데 도움을 줄 수 있습니다.
chatGPT의 답은 chatGPT로 사람이 쓴것인지 AI가 쓴것인지 구분하는 것은 어렵다는 것이다.
그렇다면 학생들이 chatGPT를 숙제를 하거나 시험을 보는데 부정하게 사용하는 것을 예방 할 수 있는 방법과 사례에 대해 chatGPT에게 물어보았다. 다음은 chatGPT가 내놓은 답변이다.
학생들이 숙제나 시험에 ChatGPT와 같은 AI 언어 모델을 부정하게 사용하는 것을 방지하기 위해 교육자가 구현할 수 있는 몇 가지 조치는 다음과 같습니다.
학생에게 책임 있는 사용 교육: 교사와 교육자는 학생을 교육할 수 있습니다. ChatGPT의 책임감 있는 사용에 대해 알리고 AI 모델을 사용하여 부정 행위를 할 때 발생할 수 있는 잠재적 위험과 결과를 인식하게 합니다. 학생들은 AI 언어 모델을 사용하여 자료를 배우지 않고 단순히 답을 얻는 것은 부정 행위임을 이해해야 합니다. 예: 교사는 원격 학습 중에 학문적 정직성과 윤리적 행동의 중요성에 대한 토론을 통합할 수 있습니다.
표절 감지 소프트웨어 사용: 학교와 교육자는 표절 감지 소프트웨어를 사용하여 숙제를 확인하고 ChatGPT와 같은 AI 언어 모델로 생성된 텍스트와의 유사성을 테스트할 수 있습니다. 이것은 부정 행위를 식별하고 방지하는 데 도움이 됩니다. 예: 학교에서는 인기 있는 표절 감지 소프트웨어인 Turnitin을 사용하여 표절을 확인하고 ChatGPT에서 생성한 텍스트와 일치하는 텍스트를 식별할 수 있습니다.
시험 문제 개인화: 교육자는 학생들이 ChatGPT에서 답변을 복사하여 붙여넣는 것을 방지하기 위해 시험 문제를 개인화할 수 있습니다. 질문의 문구나 맥락을 변경함으로써 학생들은 대답에 대해 비판적으로 생각하도록 강요받습니다. 예: “프랑스의 수도는 어디입니까?”라고 묻는 대신 교육자는 ” 프랑스의 수도가 국가 경제에 어떤 영향을 미치나요?”
사용 모니터링: 학교와 교육자는 잠재적인 부정 행위를 감지하기 위해 시험 및 숙제 중에 ChatGPT 사용을 모니터링할 수 있습니다. 여기에는 학생이 답을 복사하여 붙여넣지 않도록 의심스러운 행동을 표시하거나 키 입력을 기록하는 부정 행위 방지 소프트웨어의 사용이 포함될 수 있습니다. 예: 온라인 시험 중에 교육자는 학생의 화면을 모니터링할 수 있습니다. 다른 애플리케이션이나 웹사이트에 액세스하지 않도록 합니다.
학습 결과 강조: 교육자는 수업의 초점을 성적보다는 학습 결과를 강조하도록 전환할 수 있습니다. 자료의 숙달을 강조함으로써 학생들은 단순히 올바른 답을 얻는 것보다 주제를 배우도록 권장됩니다. 예: 교사는 개선 영역 및 학생들이 학습 과정에 집중하도록 격려합니다.
비판적 사고 장려: 교사는 학생들이 ChatGPT에서 제공하는 답변에 대해 비판적으로 생각하도록 격려할 수 있습니다. 후속 질문을 하거나 추가적인 맥락을 제공함으로써 학생들은 단순히 답을 모델에 의존하기보다 자료에 대해 더 포괄적인 방식으로 생각하도록 권장됩니다. 예: 교사는 다음을 수행할 수 있습니다. 학생들에게 특정 답변에 도달한 방법을 설명하고 결론에 대한 이유를 제공하도록 요청합니다.
이러한 조치를 적용함으로써 교육자들은 ChatGPT를 부정적으로 활용한 학생들을 방지하면서도, 학습 성과를 개선하기 위한 교육 보조 도구로서 인공 지능 언어 모델을 활용할 수 있습니다.
chatGPT에 대응하기 위한 자구책들
하지만 chatGPT 출시 이후 이런 chatGPT의 부정적인 문제를 인식하고 chatGPT를 비롯한 AI가 작성한 글인지를 판단해주는 AI가 출시되고 있고 표절여부를 검증하는 도구들이 개발되고 있다. GPTzero라는 서비스를 이용해 위 chatGPT가 내놓은 답을 평가 해보니 “Your text is likely to be written entirely by AI” 란다. 처음부터 끝까지 대부분을 AI가 작성한 것 같다는 답이 나왔다. 바야흐로 AI가 답을 하고 그 답이 AI가 한것인지를 확인하는 AI까지 나와있는 상황이다.
AI를 사용해서 슬기롭게 문제를 해결하고 자신의 역량을 키우는 방법을 배우는것도 학생들에게는 중요하다. 학생들에게 chatGPT를 사용하지 못하게 하는 것이 문제의 해결방안은 결코 될 수 없다. 교수가 학생들에게 과제를 부여하고 그것으로 평가를 하는 이유는 부여된 과제를 해결하는 과정을 통해 학생들이 지식에 대한 이해가 깊어지고 관련 지식들이 학생에게 내재화 되기 때문이다. 과제나 평가의 본질적은 목적을 달성하면서도 chatGPT 등 AI를 슬기롭게 이용할 방법은 무엇일까? 정답은 없겠지만 학생과 교수 모두 고민이 깊어 지는 때 임에는 틀림없다.