|
Журналы — Исследовательская работа школьников — Выпуск №1/2026
Емельянов А. М. Сравнение методов анализа человека и нейросети при оценке проектной деятельности школьников
В статье исследуются и сравниваются два подхода к оценке индивидуальных школьных проектов: традиционная человеческая оценка (учитель + административная комиссия) и автоматизированная оценка на основе больших языковых моделей (LLM) при помощи промтзапросов. Проанализированы критерии, надёжность и валидность оценок, влияние рубрик и инструкции на согласованность суждений, а также проблемы прозрачности, воспроизводимости и педагогической обоснованности. Показано, что LLM способны приближённо воспроизводить экспертную оценку по отдельным измерениям (структура, аргументация, язык), но при этом демонстрируют ограниченную интерпретируемость, чувствительность к формулировке промта и риск объективных искажающих ошибок. Даётся практическая рекомендация по комбинированной модели: использовать LLM как вспомогательный инструмент для предварительного скоринга и генерации обратной связи, сохраняя окончательное суждение за учителем/комиссией и применяя прозрачные рубрики. Ключевые слова: проектная деятельность, оценивание, автоматизированное оценивание, большие языковые модели (LLM), промт-инжиниринг, рубрика, надёжность, валидность, учебная администрация Comparison of Human and Neural Network Analysis Methods for Assessing School Students’ Project Activities Alexey M. Emelyanov, Research Lecturer, Assistant Professor of the Department of Corporate Information Systems, Russian University of Technology (MIREA), Moscow Abstract. This article explores and compares two approaches to assessing individual school projects: traditional human assessment (teacher + administrative committee) and automated assessment based on large language models (LLM) using Prompt queries. The criteria, reliability, and validity of assessments, the impact of rubrics and instructions on the consistency of judgments, and issues of transparency, reproducibility, and pedagogical validity are analyzed. It is shown that LLMs are capable of approximately reproducing expert assessments for individual dimensions (structure, argumentation, language), but exhibit limited interpretability, sensitivity to Prompt wording, and the risk of objective bias. A practical recommendation for a combined model is provided: using LLMs as an auxiliary tool for preliminary scoring and feedback generation, while retaining the final judgment of the teacher/committee and using transparent rubrics. Keywords: project activities; assessment; Automated assessment; large language models (LLM); industrial engineering; rubric; reliability; validity; academic administration
|