Câu trả lời bằng văn bản của học sinh Texas trong bài kiểm tra STAAR rất có thể sẽ được chấm bởi máy tính chứ không phải do con người thực hiện.
Một số nhà lãnh đạo giáo dục bối rối trước sự thay đổi này và đặt câu hỏi việc sử dụng công nghệ này để đánh giá bài luận sẽ tác động như thế nào đến học sinh và giáo viên. Các quan chức nhà nước cho biết hệ thống này không giống như trí tuệ nhân tạo tổng hợp hỗ trợ các chương trình như ChatGPT, mà là một công cụ có khả năng hạn chế có thể cải thiện hiệu quả tính điểm.
Cơ quan Giáo dục Texas đã lặng lẽ triển khai một mô hình mới để đánh giá các câu trả lời của học sinh trong Bài đánh giá Mức độ sẵn sàng Học tập của Tiểu bang Texas, hay STAAR, vào tháng Mười Hai. Khoảng 3/4 số câu trả lời bằng văn bản được chấm điểm bằng “công cụ chấm điểm tự động”.
Các quan chức nhấn mạnh rằng những công cụ này không học ngoài một câu hỏi duy nhất và được lập trình để mô phỏng cách con người chấm điểm một bài luận. Máy tính xác định cách đánh giá các câu trả lời bằng văn bản sau khi phân tích hàng nghìn câu trả lời của học sinh đã được mọi người chấm điểm trước đó.
Jose Rios, giám đốc bộ phận đánh giá học sinh cho biết, công cụ chấm điểm tự động “được con người lập trình, con người giám sát và được con người phân tích cuối cùng”.
Phương pháp tính điểm mới được đưa ra trong bối cảnh thiết kế lại STAAR rộng hơn. Hiện đã có giới hạn cho các câu hỏi trắc nghiệm. Bài kiểm tra mới – được ra mắt vào năm ngoái – bao gồm các bài luận ở mọi cấp lớp.
Rios nói: “Những câu hỏi này rất tốn thời gian và công sức để chấm điểm. “Đồng thời, bạn cần cân bằng điều đó với cam kết của chúng tôi là mang lại kết quả nhanh nhất có thể cho các quận. Chúng tôi cần tìm cách hiệu quả hơn.”
Các quan chức của cơ quan ước tính hình thức kiểm tra mới sẽ yêu cầu số lượng người chấm điểm gấp bốn đến năm lần, tiêu tốn thêm từ 15 triệu đến 20 triệu đô la mỗi năm nếu họ chỉ sử dụng con người.
Chỉ có khoảng một trong bốn câu trả lời của học sinh sẽ xuất hiện trước mắt mọi người.
Việc triển khai khiến một số nhà lãnh đạo giáo dục bối rối, họ cho rằng các quan chức của cơ quan lẽ ra có thể công bố động thái này một cách minh bạch hơn.
“Ít nhất, họ nên làm thí điểm hoặc nghiên cứu trong một thời gian khá dài,” thành viên Hội đồng Giáo dục Tiểu bang Pat Hardy, R-Fort Worth, cho biết. “Đó là một lĩnh vực cần được khám phá nhiều hơn. … Chỉ là trời có vẻ lạnh quá thôi.”
Giám đốc các trường học ở Dallas, Stephanie Elizalde, cho biết cô chỉ mới biết về sự thay đổi này gần đây và vẫn còn nhiều câu hỏi về cách hệ thống được tạo ra cũng như những thành kiến tiềm ẩn bên trong nó.
Elizalde nói: “Chắc chắn đó cũng chính là bài học mà tôi học được và muốn cải thiện: Rằng chúng ta càng cung cấp nhiều thông tin cho cộng đồng của mình thì chúng ta càng xây dựng được những mối quan hệ tin cậy tốt hơn”.
Các quan chức TEA cho biết một báo cáo kỹ thuật với tổng quan chi tiết về hệ thống sẽ được công bố vào cuối năm nay.
Các tiểu bang khác đã sử dụng loại mô hình này trong nhiều năm, mặc dù không phải không có những lời chỉ trích. Ở Ohio, Ví dụmột số quận cho biết họ phát hiện ra những điều bất thường sau khi các bài kiểm tra được chấm bằng máy tính, Người bán đồng bằng được báo cáo vào năm 2018.
Tờ báo của Cleveland đưa tin rằng các quan chức học khu bắt đầu đặt câu hỏi về việc chấm điểm sau khi số lượng câu trả lời của học sinh lớn hơn mong đợi không nhận được điểm nào.
Một câu hỏi tương tự xuất hiện ở Texas, nơi một số lượng lớn học sinh trung học nhận được điểm 0 trong bài kiểm tra STAAR gần đây nhất. Các quan chức bang khẳng định công cụ chấm điểm tự động không phải là nguyên nhân dẫn đến tình trạng này.
Các quan chức cơ quan nói rằng họ tin tưởng vào chương trình của họ.
Họ cho biết các công cụ tính điểm “đã thành công trong việc tái tạo kết quả Mùa xuân 2023 và được chứng minh là chính xác như những người ghi bàn là con người”. Các quan chức TEA đã không cung cấp thông tin cho thấy kết quả này Tin tức buổi sáng Dallas.
Con người xác nhận khoảng 25% số câu trả lời do máy tính ghi. Các bài luận được chuyển đến người chấm điểm dựa trên các điều kiện nhất định hoặc nếu công cụ chấm điểm thể hiện mức độ tin cậy thấp về quyết tâm của nó. Các bài kiểm tra ngẫu nhiên cũng được kiểm tra.
Theo một nghiên cứu, “Những câu trả lời có độ tin cậy thấp thường là những câu trả lời nằm ở ranh giới giữa hai điểm số”. tài liệu tiểu bang phác thảo phương pháp. “Mục đích của việc định tuyến này là để đảm bảo rằng những phản hồi bất thường hoặc gần ranh giới sẽ nhận được điểm số công bằng và chính xác.”
Tất cả các bài kiểm tra STAAR tiếng Tây Ban Nha đều do người dân chấm điểm. Các quan chức của cơ quan cho biết công cụ chấm điểm tự động của họ không hoạt động với các ngôn ngữ khác ngoài tiếng Anh.
Les Perelman, cựu phó hiệu trưởng Viện Công nghệ Massachusetts và là nhà phê bình lâu năm về việc chấm điểm bài luận tự động, cho biết sự khác biệt này khiến ông lo ngại.
“Nó vốn đã không bình đẳng,” ông nói.
Sự thay đổi trong việc chấm điểm các bài kiểm tra STAAR là một phần của cuộc thảo luận lớn hơn về vai trò của công nghệ trong lớp học. Làm thế nào giáo viên có thể bắt được học sinh sử dụng ChatGPT để viết bài luận? Những gì có thể đạt được với gia sư AI?
“Nơi mà tôi thực sự thấy AI đang phát triển trong giáo dục đang hướng tới: làm thế nào để chúng tôi đưa ra những phản hồi thực sự kịp thời, hữu ích nhằm cho phép học sinh học tập tốt hơn?” Peter Foltz, Đại học Colorado, giáo sư Boulder và giám đốc Viện Hợp tác Sinh viên-AI cho biết.
Mối quan tâm của giáo viên
Một số nhà giáo dục đã rất ngạc nhiên trước sự ra đời lặng lẽ của phương pháp tính điểm mới này. Các trường được xếp loại theo hệ thống trách nhiệm học tập của tiểu bang chủ yếu dựa trên kết quả học tập của học sinh trong bài STAAR.
Trong vòng kiểm tra STAAR mới nhất vào mùa thu, một số lượng lớn học sinh trung học đạt điểm kém trong các câu hỏi viết. Khoảng 8 trong 10 câu trả lời bằng văn bản trong bài kiểm tra cuối khóa tiếng Anh II không nhận được điểm nào.
Vào mùa xuân – lần lặp lại đầu tiên của bài kiểm tra được thiết kế lại nhưng chỉ được chấm điểm bởi con người – khoảng một phần tư số câu trả lời không đạt được điểm nào trong cùng một chủ đề.
Nhiều học sinh thi STAAR vào mùa thu là những “người thi lại” không đạt được trình độ cấp lớp trong lần thi trước. Theo các quan chức của cơ quan, những người được yêu cầu giải thích sự gia tăng điểm thấp vào mùa thu, những người thử nghiệm vào mùa xuân có xu hướng hoạt động tốt hơn.
Chris Rozunick, giám đốc bộ phận phát triển đánh giá của bang, cho biết cô hiểu lý do tại sao mọi người liên hệ số 0 tăng đột biến với việc triển khai tính năng chấm điểm tự động dựa trên thời gian. Tuy nhiên cô khẳng định hai việc này không liên quan tới nhau.
Rozunick nói: “Thực sự là số lượng người thử nghiệm nhiều hơn bất cứ thứ gì khác.
Sự hoài nghi của các nhà quan sát có thể được thúc đẩy bởi các vấn đề trước đây của Texas với công nghệ STAAR.
Vào năm 2016, hàng nghìn học sinh Texas gặp khó khăn khi đăng nhập và trực tuyến trong kỳ thi viết, khiến các quan chức tiểu bang hủy kết quả đó.
Nhà cung cấp xét nghiệm ETS bị phạt TEA bồi thường 5,7 triệu USD và yêu cầu chi hơn 15 triệu USD để cải tiến hệ thống trực tuyến và vận chuyển thử nghiệm.
Năm 2018, nhà nước buộc phải thực hiện 71.000 bài thi STAAR trực tuyến sau khi sự cố máy chủ gây ra sự cố trong thời gian thử nghiệm tháng 4 và tháng 5.
Ba năm sau, nhà nước chứng kiến nhiều sự bùng nổ công nghệ hơn trong quá trình thử nghiệmvới học sinh ở nhiều quận khác nhau đã bị đuổi khỏi bài kiểm tra và không thể đăng nhập lại. Hợp đồng của ETS kết thúc vào năm đó.
Các quan chức TEA cho biết họ đã làm việc với các nhà cung cấp dịch vụ đánh giá của mình, Cambium và Pearson, để phát triển công cụ chấm điểm tự động.
Perelman cho biết một trong những mối quan tâm của ông đối với xu hướng chấm điểm bằng máy là nó “dạy học sinh trở thành những người viết kém”, trong đó giáo viên được khuyến khích hướng dẫn trẻ cách viết vào máy tính thay vì viết cho con người. Ông nói, vấn đề là máy móc “thực sự ngu ngốc” khi đưa ra ý tưởng.
Trước đó anh từng gây sóng gió khi anh ấy và những người khác đã phát triển “Máy phát điện BABEL,” đưa ra những bài luận không mạch lạc nhưng lại đạt điểm cao khi được đánh giá bằng công cụ chấm điểm tự động khoảng một thập kỷ trước.
Các quan chức của Cơ quan Giáo dục Texas cho biết công cụ chấm điểm của họ tìm kiếm những điều bất thường, chẳng hạn như nếu một học sinh không trả lời bằng tiếng Anh hoặc viết câu trả lời “độ dài ngoài dự kiến”. Những phản hồi đó được gửi đi để con người chấm điểm.
Foltz cho biết máy ghi điểm tự động phải được xây dựng với các rào chắn vững chắc. Ông nói thêm rằng không dễ để huấn luyện học sinh cách sử dụng công cụ tính điểm.
Ông nói thêm, tiêu chuẩn kiểm tra khoảng 25% bài luận của Texas với người chấm điểm mang lại “một mức độ an toàn khá tốt… để biết rằng mọi thứ đang diễn ra tốt đẹp”.
Dự kiến sẽ có thêm thông tin về cách vận hành hệ thống mới của Texas trong những tháng tới. Các nhà quan sát giáo dục có thể sẽ tìm hiểu xem liệu hệ thống này có thiên vị đối với bất kỳ nhóm học sinh nào hay không.
Foltz nói: “Ở đó cũng có những thành kiến của con người và máy tính có thể tìm hiểu bất kỳ thành kiến nào mà con người có thể có. “Nếu có một số loại cụm từ nhất định mà con người đánh giá cao hơn, thì máy tính sẽ có xu hướng xử lý cụm từ đó.”
Nhân viên nhà văn Ari Sen đã đóng góp cho bài viết này.
Phòng thí nghiệm Giáo dục DMN tăng cường đưa tin và thảo luận về các vấn đề giáo dục khẩn cấp quan trọng đối với tương lai của Bắc Texas.
Phòng thí nghiệm Giáo dục DMN là một sáng kiến báo chí do cộng đồng tài trợ, với sự hỗ trợ của Bobby và Lottye Lyle, Tổ chức Cộng đồng Texas, Quỹ Dallas, Phòng Khu vực Dallas, Deedie Rose, Garrett và Cecilia Boone, Quỹ Meadows, Quỹ Murrell, Giải pháp Mạng lưới Báo chí, Đại học Southern Methodist, Sydney Smith Hicks và Đại học Texas ở Dallas. Dallas Morning News giữ toàn quyền kiểm soát biên tập đối với hoạt động báo chí của Phòng thí nghiệm Giáo dục.