SAS Credit Scoring for Banking (Кредитный скоринг ) представляет на сегодняшний день огромный интерес в связи с развитием программ кредитования физических лиц.
Это решение обладает полной и законченной функциональностью, является настраиваемым под специфику использования в банке и является составной частью семейства продуктов Banking Intelligence Solution.
Какие задачи можно решить?
Основные задачи, решаемые в рамках SAS Credit Scoring for Banking:
- Application scoring - оценка кредитной способности претендентов (апликантов) на получение кредита. Осуществляется с целью принятия решения о возможности предоставления кредита.
- Behavioral scoring - оценка вероятности возврата уже выданных кредитов. Осуществляется в пределах кредитного периода с целью выявления риска дефолта и принятия превентивных мер по снижению этих рисков.
- Collection scoring - оценка возможности полного или частичного возврата кредита заемщиком при нарушении им сроков погашения задолженности. Осуществляется после истечения кредитного периода с целью принятия адекватных мер по возврату кредита.
Решение указанных задач может осуществляться в отношении различных кредитных продуктов: потребительского кредитования, ипотечного кредита, кредитного обслуживания посредством кредитных карт и др. при наличии достаточной обучающей выборки данных.
При создании системы кредитного скоринга в банке обычно в состав работ входят:
- Консультации заказчика по выбору оптимального пакета базового программного обеспечения, поставка программных продуктов компании SAS для системы кредитного скоринга и установка их на стороне заказчика.
- Настройка решения на специфические особенности информационной инфраструктуры банка, то есть подключение системы к оперативным системам банка с разработкой программного комплекса загрузки данных в ABT . Разработка скоринговой модели на основе загруженных данных.
- Консультационные услуги по сопровождению системы и услуги по обучению пользователей системы
Как решать практические задачи?
Для решения задачи кредитного скоринга на практике необходимо считать истинными несколько предположений, выделенных далее курсивом.
1.Исход любой кредитной сделки есть случайное событие, наступление которого осуществляется с некоторой вероятностью.
Такими исходами, в зависимости от задачи анализа, могут быть:
- Возврат кредита в точном соответствии с условиями кредитного договора
- Возврат кредита с частичным нарушением условий кредитного договора (с опозданием, неполный возврат и т.п.)
- Не возврат (дефолт) по кредиту
2.Величина вероятности исхода кредитной сделки зависит от некоторых факторов, например:
- Дохода заемщика
- Его социального статуса
- Наличия иждивенцев
Перечисленные факторы влияют не на сам исход, а лишь на его вероятность. Это означает, что при любой комбинации значений факторов, характеризующих потенциальную или состоявшуюся кредитную сделку, возможен любой ее исход, но с определенной вероятностью.
3.Характер влияния каждого значимого фактора на вероятность исхода кредитных сделок постоянен на некотором временном интервале, охватывающем как прошлый период, так и частично будущий. Это важное условие, поскольку именно оно позволяет оценивать кредитоспособность новых апликантов на основе исходов кредитных сделок прошлого периода.
4.Исходы различных кредитных сделок независимы между собой.
Для этих предположений становится оправданным применение статистических методов для оценки по исторической выборке данных вероятности исхода кредитного договора для того или иного набора значений факторов, характеризующих апликанта и кредитную сделку. Знание этой вероятности позволяет сделать процент невозвратов кредитов контролируемым параметром, а, следовательно, и управлять кредитными рисками, неизбежно присутствующими в розничном кредитовании.
Именно это и делает кредитный скоринг полезным практическим инструментом поддержки принятия кредитных решений.
С течением времени любая статистическая модель становится неточной. Не составляет исключения и скоринговая модель, как статистическая модель оценки кредитоспособности апликанта (заемщика). Это происходит по многим причинам: вследствие изменения экономической ситуации, изменения клиентской базы банка, структурных сдвигов в экономике, инфляции и других причин. На языке вероятностной модели это означает, что влияние характеристик заемщика на вероятность возврата или невозврата им кредита не остается постоянным, а изменяется с течением времени. И для того, чтобы скоринговая модель могла продолжать выполнять свои функции, ее необходимо периодически корректировать, т.е. пересчитывать модель, анализируя ее качество.
Какие данные необходимы для построения скоринговой модели?
- Характеристики заемщиков (данные анкеты) - пол, дата рождения, регистрация, должность, место работы, семейное положение, дети и т.д. Чем подробнее, тем лучше. Рекомендуется - пункт оформления кредита, идентификатор кредитного представителя, оформлявшего заявку на кредит.
- Приводить данные к виду, используемому моделью, например, пересчитывать возраст в годах, можно средствами SAS/base на этапе загрузки данных. На этом же этапе может производиться очистка данных, например, отсеивание записей с некорректным значением в некотором поле. Как правило, данные по анкете хранятся в одной системе или на этапе загрузки они связываются по уникальному идентификатору заемщика. Если аналитики банка считают, что существуют дополнительные характеристики заемщика, например, субъективные наблюдения кредитного представителя, то они тоже должны быть доступны в электронном виде в какой - либо форме.
- Если есть результаты каких - либо проверок, например, служба безопасности звонит по указанному рабочему телефону и проверяет что указанный человек действительно работает на данном предприятии - эти данные надо сделать доступными для модели, например, положительный результат проверки - 0 , отрицательный - 1.
- Данные для разметки GOOD/BAD - могут содержать только уникальный идентификатор заемщика и саму разбивку. Вариантов разбивки может быть несколько, сам вариант разбивки зависит от поставленной задачи.
- Однако часто бывает сложно осуществить выгрузку данных в таком формате, в этом случае необходим доступ к данным оперативных систем, содержащим необходимую информацию и алгоритм разбивки.
- Например, для каждого уникального идентификатора заемщика график платежа и даты выплат кредита; в этом случае алгоритм разбивки может быть следующим - заемщик считается плохим, если он допустил просрочку очередного платежа более чем на N дней. По опыту работы можно сказать, что такой алгоритм разбивки является эффективным. Также при ограниченном периоде наблюдений эффективным может быть алгоритм, анализирующий один платеж - если первого платежа нет в течении N дней, то заемщик считается плохим, предположительно мошенник.
- Если есть данные о дополнительных проверках, например, представители банка звонят заемщику при просрочке очередного платежа, или сам заемщик сообщает банку о просрочке очередного платежа, то эти сведения надо сделать доступными для анализа и учесть при составлении алгоритма разбивки. Например, просрочка N дней и нет сведений о причине просрочки - заемщик плохой, просрочка N дней и есть сведения о причине просрочки - заемщик хороший.
Таким образом, получив эти данные, мы приходим к заполнению ABT - (analytical base table) базовая аналитическая таблица является основой для построения скоринговой модели. Данные в ней по мере изменения данных в оперативных системах могут меняться и/или добавляться. На рисунке 1 она изображена как ACCEPTS, т.е. она содержит данные по тем клиентам, которым был выдан кредит.
Программные продукты SAS минимально необходимые для обеспечения функциональности аналитического модуля скоринговой системы.
Программные продукты SAS минимально необходимые для обеспечения функциональности аналитического модуля скоринговой системы:
- Base SAS
- SAS/Access
- SAS/STAT
- SAS/Enterprise Miner
- SAS/Credit scoring
Base SAS
Профессиональный пакет статистического анализа. Включает в себя методы дискриминантного, дисперсионного, регрессионного, кластерного анализа, многомерного шкалирования и многие другие процедуры.
SAS/ACCESS
Семейство продуктов SAS/ACCESS предназначено для доступа к внешним источникам данных. Система SAS получает фактически прозрачный доступ к любым оперативным транзакционным системам и архивам данных. Продукты SAS/ACCESS обеспечивают доступ к более чем 50 различным форматам промышленных баз данных.
SAS/Enterprise Miner
Продукт для проведения углубленного анализа данных, Enterprise Miner - интегрированный компонент системы SAS, созданный для выявления в огромных массивах данных информации, необходимой для принятия решений, разработанный специально для поиска и анализа скрытых закономерностей в данных (data mining)
Enterprise Miner включает в себя эффективные методы статистического анализа, интерактивную технологию выполнения проектов data mining и удобный графический интерфейс пользователя.
Продукт использует такие методы, как регрессионный анализ, деревья решений, нейронные сети, генетические алгоритмы, правдоподобные рассуждения, кластерный анализ, метод главных компонент и другие современные методы анализа данных.
Функции узла Interactive Grouping Node
Узел Interactive Grouping Node позволяет в интерактивном режиме осуществлять группировку значений информационных признаков по общепринятой в кредитном скоринге методологии. Группировка осуществляется на основе статистических критериев, но допускается и ручное воздействие на результаты группировки, когда необходимо принимать в расчет естественные соображения, не учитываемые формально-статистическими критериями группировки.
Функции узла Scorecard
Узел Scoreсard формирует на основе оценок параметров логистической регрессии скоринговую карту в стандартной табличной форме, обеспечивает расчет функции распределения статистических характеристик, связанных со скорингом, таких как оценка вероятности дефолта, оценка отношения доли надежных к доле ненадежных апликантов, логарифм этой величины, масштабированный скоринговый балл.
Служит основой для определения оптимального балла отсечения (критическиого значения скоринг-балла, который разделяет апликантов на перспективных и неперспективных с точки зрения оценки возвратности кредита), формирует графики зависимости прибылей/убытков от балла отсечения.
Обеспечивает расчет скоринговых баллов по новым или тестовым апликантам.
Функции узла Reject inference
Скоринговые карты, рассчитанные по выборке исторических данных по выданным кредитам могут содержать систематическую ошибку из-за неучета в расчетах данных по апликантам, кредиты которым не выдавались (обучающая выборка является цензурированной по отношению к новым апликантам). Узел Reject Inference осуществляет скоринг на множестве таких апликантов. На основе балла отсечения определяется подвыборка перспективных и неперспективных апликантов, как если бы они были новыми апликантами. После соответствующей разметки эти данные присоединяются к исходной обучающей выборке, и расчет скоринговых моделей осуществляется повторно. (Если нет данных по заемщикам, которым было отказано в получении кредита, то не используется).
Функции узла Credit Excange
Узел предоставляет возможность экспорта полученной скоринговой модели во фронт-офисную систему.
Таким образом, пользователь получает:
- Автоматический отбор существенных информационных признаков для оценки возвратности кредита.
- Дискретизацию и параметризацию пространства значений информационных признаков, описывающих заемщиков.
- Формирование моделей на основе регрессионного анализа.
- Автоматизированный расчет параметров моделей по обучающей выборке.
- Возможность ручной настройки параметров моделей.
- Получение различных аналитических отчетов, включая скоринговую карту.
Вся аналитическая работа по созданию и настройке скоринговых алгоритмов осуществляется с помощью продукта Enterprise Miner 5.1 . SAS Enterprise Miner - признанный во всем мире профессиональный инструмент углубленного анализа данных, обладающий высокой мощностью и гибкостью, дружественным интерфейсом и широкими возможностями как для новичков, так и для искушенных специалистов.
Работа с Enterprise Miner осуществляется по принципу организации проекта. Каждый проект характеризуется специфической схемой проекта, отображаемой графически в виде направленного графа. Узлами графа схемы проекта являются данные и/или алгоритмы их обработки, ребрами графа - последовательности действий. Каждый узел схемы проекта, отвечающий алгоритму обработки данных, допускает настройку и предполагает исполнение.
Cледующая последовательность действий является типичной и минимально необходимой для скоринговых моделей:
- Ссылка на ABT, содержащую данные по выданным кредитам, с разбивкой на GOOD/BAD
- Выделение значимых признаков и их группировка для модели
- Модель на основе логистической регрессии.
- Скоринговая карта (включая аналитические отчеты)
- Ссылка на ABT, содержащую данные по невыданным кредитам
- Прогнозирование значения целевой функции (разбивки на GOOD/BAD) для невыданных кредитов на основе построенной скоринговой модели. Слияние набора данных по выданным и по невыданным кредитам вместе.
- Группировка значимых признаков для модели по объединенному набору данных
- Модель на основе логистической регрессии.
- Скоринговая карта (включая аналитические отчеты)
- Экспорт скоринговой модели во фронт-офисную систему
Типовые отчеты скорингового проекта
При реализации проекта будет сгенерирован целый ряд стандартных отчетов, характеризующих: качество модели, предсказательную силу модели, вероятную доходность (убытки) в зависимости от выбранного балла отсечения и т.д. Оценить оптимальный балл отсечения можно с помощью графика зависимости средней доходности по заемщикам совокупного кредитного портфеля от балла отсечения. Здесь можно увидеть текущий approval rate, cumulative approval rate в соответствии с баллом отсечения, точку на графике, соответствующую максимальной доходности.
Опыт работы над реальными проектами на базе решения SAS credit scoring позволил выявить одну закономерность: стандартные отчеты, формируемые автоматически узлом scorecard, вызывают массу вопросов у пользователей. Пользователи (аналитики банка) всеми силами стремятся эти отчеты каким-то образом превратить в подобие системы поддержки принятия решений, при этом, не всегда правильно интерпретируя их содержание. представляется целесообразным следующий вариант работы: для начала пользователи должны как следует разобраться в отчетах, формируемых автоматически, научиться самостоятельно оценивать качество полученной скоринговой карты, а уже потом заниматься их кастомизацией.
Полезные термины сведены в таблицу 1.
Таблица 1
| Название | Перевод | Комментарии |
| Score Range | Интервал набранного скорингового балла | Как правило, ограничивается с двух сторон предельными значениями, например: 255<= Score < 267 , но может быть и так: 279<= Score |
| Count | Количество наблюдений | Как правило, попавших в определенный скоринговый интервал или общее количество наблюдений по всей выборке |
| Cumulative Count | Количество наблюдений накопленным итогом | Для задачи кредитного скоринга считается по выборке упорядоченной по убыванию скорингового балла. К количеству наблюдений в первом интервале набранного скорингового балла прибавляют количество наблюдений во втором интервале набранного скорингового балла и т.д. Для последнего интервала набранного скорингового балла количество наблюдений накопленным итогом равно общему количеству наблюдений. |
| Event Count | Количество наблюдений (аппликантов) имеющих значение целевой функции = 1 (событие) | Для задачи кредитного скоринга - количество наблюдений со значением целевой функции = 1, т.е. соответствующему "плохому" заемщику |
| Cumulative Event Count | Количество событий накопленным итогом | Для задачи кредитного скоринга считается по выборке упорядоченной по убыванию скорингового балла. К количеству наблюдений со значением целевой функции = 1, т.е. соответствующему "плохому" заемщику в первом интервале набранного скорингового балла прибавляют количество наблюдений со значением целевой функции = 1 во втором интервале набранного скорингового балла и т.д. Для последнего интервала набранного скорингового балла количество событий накопленным итогом равно общему количеству событий. |
| Non-Event Count | Количество записей, соответствующих отсутствию события | Для задачи кредитного скоринга - количество наблюдений со значением целевой функции = 0, т.е. соответсвующему "хорошему" заемщику |
| Cumulative Non-Event Count | Количество записей, соответствующих отсутствию события, накопленным итогом | Для задачи кредитного скоринга считается по выборке упорядоченной по убыванию скорингового балла. К количеству наблюдений со значением целевой функции = 0, т.е. соответствующему " хорошему " заемщику в первом интервале набранного скорингового балла прибавляют количество наблюдений со значением целевой функции = 0 во втором интервале набранного скорингового балла и т.д. Для последнего интервала набранного скорингового балла количество событий накопленным итогом равно общему количеству несобытий. |
| Marginal Event Rate | % аппликантов, попавших в скоринговый интервал и имеющих значение целевой функции, соответствующее событию | |
| Marginal Non-Event Rate | % аппликантов, попавших в скоринговый интервал и имеющих значение целевой функции, соответствующее отсутствию события | |
| Cumulative Event Rate | % аппликантов, имеющих скоринговый балл больший нижней границы скорингового интервала и имеющих значение целевой функции, соответствующее событию | % вычисляется от общего количества наблюдений |
| Cumulative Non-Event Rate | % аппликантов, имеющих скоринговый балл больший нижней границы и имеющих значение целевой функции, соответствующее отсутствию события, накопленным итогом | % вычисляется от общего количества наблюдений |
| Average Predicted Probability of Event | Средняя предсказываемая вероятность события | |
| Approval Rate | % аппликантов, получающих положительное решение о выдаче кредита | Считается либо по всей выборке в целом, либо по интервалам набранных скоринговых баллов |
| Cumulative Approval Rate | % аппликантов, получающих положительное решение о выдаче кредита накопленным итогом | Для скорингового интервала вычисляется, исходя из того, что все аппликанты, имеющие скоринговый балл больший нижней границы скорингового интервала получают положительное решение о выдаче кредита |
| Average Marginal Profit | Средняя ожидаемая прибыль на одного аппликанта, получившего положительное решение, при условии, что все аппликанты имеющие скоринговый балл, больший чем нижняя граница скорингового интервала получают положительное решение о выдаче кредита. | Вычисляется исходя из значений прибыли при принятии правильного решения и потерь при принятии неправильного решения. Считается только по тем аппликантам, по которым было принято положительное решение |
| Average Total Profit | Средняя ожидаемая прибыль на одного аппликанта, при условии что все аппликанты имеющие скоринговый балл больший чем нижняя граница скорингового интервала получают положительное решение о выдаче кредита | Вычисляется умножением предыдущего показателя на Cumulative Approval Rate и делится на 100. Считается по всем аппликантам. |
| Cutoff Score | Балл отсечения | Предполагаем, что все аппликанты, имеющие скоринговый балл больший получают положительное решение, остальные - отрицательное. |
| Population Percentage | % выборки | Как правило, для упорядоченной по убыванию скорингового балла выборки |
| Odds | Отношения вероятностей | Отношения вероятности отсутствия события к вероятности наступления события. |
В рамках решения SAS credit scoring формируются 19 отчетов в графическом виде. Все они изображены на рисунках 1-19, в том же порядке. Для удобства читателей приведены и оригинальные названия отчетов.
Графики распределения скорингового балла
Эти графики показывают частотные гистограммы (зависимость количества наблюдений) от различных статистик:
- Апостериорной вероятности наступления события
- Отношения вероятности отсутствия события к вероятности наступления события
- Логарифма отношения вероятности отсутствия события к вероятности наступления события
- Набранного скорингового балла
Графики поддержки принятия решений (Trade-Off).
Trade-Off графики показывают следующие статистики в зависимости от набранного скорингово балла:
- % аппликантов, имеющих скоринговый балл больший нижней границы скорингового интервала и имеющих значение целевой функции, соответствующее событию и % аппликантов, получающих положительное решение о выдаче кредита накопленным итогом (cumulative event rate and cumulative approval rate)
- Средняя ожидаемая прибыль на одного аппликанта, при условии, что все аппликанты имеющие скоринговый балл, больший нижней границы скорингового интервала получают положительное решение о выдаче кредита и % аппликантов, получающих положительное решение о выдаче кредита накопленным итогом (average marginal profit and cumulative approval rate)
- Средняя ожидаемая прибыль, при условии что все аппликанты имеющие скоринговый балл больший чем нижняя граница скорингового интервала получают положительное решение о выдаче кредита и % аппликантов, получающих положительное решение о выдаче кредита накопленным итогом (average total profit and cumulative approval rate).
Кривая стратегии

Кривая стратегии показывает зависимость величины отношения вероятности отсутствия события к вероятности наступления события от набранного скорингового балла. Видно что, при увеличении скорингового балла величина этого отношения растет.
Графики, показывающие абсолютную и относительную частоту событий
Графики, показывающие абсолютную и относительную частоту событий, включают в себя:
- Количество событий и количество наблюдений с отсутствием событий в зависимости от набранного скорингового бала. ( Event Frequencies Against Score)
- Количество событий накопленным итогом и количество наблюдений с отсутствием событий накопленным итогом в зависимости от набранного скорингового бала. (Cumulative Event Frequencies Against Score)
- % аппликантов, попавших в скоринговый интервал и имеющих значение целевой функции, соответствующее отсутствию события и % аппликантов, попавших в скоринговый интервал и имеющих значение целевой функции, соответствующее событию в зависимости от набранного скорингового бала (Marginal Event Rates Against Score)
- % аппликантов, имеющих скоринговый балл больший нижней границы скорингового интервала и имеющих значение целевой функции, соответствующее отсутствию события, накопленным итогом и % аппликантов, имеющих скоринговый балл больший нижней границы скорингового интервала и имеющих значение целевой функции, соответствующее событию (Cumulative Event Rates Against Score)
- Количество событий и количество наблюдений с отсутствием событий в зависимости от процента выборки, упорядоченной по убыванию скорингового балла (Event Frequencies Against Population)
- Количество событий накопленным итогом и количество наблюдений с отсутствием событий накопленным итогом в зависимости от процента выборки, упорядоченной по убыванию скорингового балла. (Cumulative Event Frequencies Against Population)
- % аппликантов, попавших в скоринговый интервал и имеющих значение целевой функции, соответствующее отсутствию события и % аппликантов, попавших в скоринговый интервал и имеющих значение целевой функции, соответствующее событию от процента выборки, упорядоченной по убыванию скорингового балла. (Marginal Event Rates Against Population)
