Для оценки качества обучения классификатора по виду документов используйте метрики:
•precision (точность). Отображает долю документов, которые отнесены классификатором к классу и действительно принадлежат ему. Другими словами, отображает, сколько полученных от классификатора положительных ответов являются правильными. Например, на обработку отправлено 100 договоров и 100 дополнительных соглашений. Предположим, что классификатор определил:
•110 документов как «Договор». При этом 100 из них действительно являются договорами, но к ним также ошибочно отнесено десять доп.соглашений;
•90 документов как «Дополнительное соглашение». При этом все из них действительно являются доп.соглашениями.
Таким образом, процент точности классификации договоров составляет – 90%, а дополнительных соглашений – 100%.
•recall (полнота). Отображает долю документов нужного класса, которые нашел классификатор, по отношению к тем документам, которые он ошибочно пропустил. Другими словами, метрика отображает способность классификатора предсказывать как можно большее число положительных ответов среди ожидаемых. Например, на обработку отправлено 100 договоров и 100 дополнительных соглашений. Предположим, что классификатор определил:
•90 документов как «Договор»;
•110 как «Дополнительное соглашение».
Таким образом, процент полноты классификации договоров составляет – 90%, а дополнительных соглашений – 100%.
•f1Measure (мера успешности обучения). Так как одновременное достижение максимальной точности и полноты классификации в реальности практически невозможно, вводится метрика, которая отображает гармоническое среднее между точностью (precision) и полнотой (recall). По ее значению можно сделать вывод о результатах обучения:
•0,8-0,84 – удовлетворительно;
•0,85-0,93 – хорошо;
•0,94 и выше – отлично.
Максимальное значение каждой метрики 1. Чем больше значение, тем точнее и полнее результат обучения.
Информация о метриках содержится в соответствующих параметрах ответа.
Пример:
В примере мера успешности обучения (f1Measure) больше 0,85, но меньше 0,93 – значит, модель обучена хорошо.
© Компания Directum, 2024 |