Прогнозирование исходов спортивных игр методами нейросетевой кластеризации

Методы нейросетевой кластеризации для прогнозирования исходов матчей по игровым видам спорта

Современные математические методы и уровень развития информационных технологий позволяют с высокой точностью прогнозировать исходы матчей в игровых видах спорта (футболе, хоккее, баскетболе, теннисе и других). В свою очередь, максимальная точность прогнозов, при правильном их использовании, способна принести максимальную прибыль в игре на ставках на исходы спортивных событий.

Сразу оговоримся, что под точностью подразумевается не совпадение однозначных предсказаний исходов (победа одной из команд или ничья) с реальными спортивными результатами, а статистическое соответствие между предсказанными вероятностями всех возможных исходов и частотами этих же исходов среди массы обобщенных спортивных результатов.

Не так давно (летом 2014 года) на сайте neuronus.com была опубликована статья об одном из самых интересных и перспективных подходов к предсказанию исходов матчей, связанном с применением методов нейросетевой кластеризации данных о предыгровых раскладах команд с целью расчета вероятностей того или иного исхода игры.

Обратите внимание

В общем случае, кластеризация – это способ интеллектуальной обработки значительного объема статистических данных с целью их распределения по кластерам.

При этом каждый кластер должен содержать группы примеров с близкими по значению характеристиками объекта исследования, в нашем случае – статистическими показателями команд, участвующих в матче, прогноз на исход которого предстоит сделать.

Если таких примеров в кластере оказалось достаточно много, то их можно обработать методами математической статистики и получить со сравнительно небольшой погрешностью вероятности всех возможных исходов любого матча, предыгровой расклад которого соответствует (наиболее близок) данному кластеру.

В качестве методов, использующихся для нейросетевой кластеризации, называются искусственные нейронные сети Кохонена; искусственные нейронные сети на основе радиально-базисных функций и аналоговые искусственные нейронные сети адаптивного резонанса.

Из теории искусственного интеллекта известно, что любые нейронные сети настраиваются с помощью специальных обучающих выборок. Эти выборки составляются на основе данных, полученных в результате продолжительных наблюдений – результатов матчей по футболу, хоккею и другим спортивным играм с соответствовавшими им предыгровыми раскладами.

Решение задачи прогнозирования исхода матча предложено получать в виде такого алгоритма действий:

  • Во-первых, требуется собрать достаточно большой массив статистических данных об имевших место результатах матчей в том же игровом виде спорта, а по возможности, в аналогичных по значимости турнирах и среди того же круга команд;
  • Во-вторых, следует выбрать класс нейронной сети, которую планируется использовать для решения поставленной задачи;
  • Далее выбрать готовое или создать новое информационно-программное обеспечение, реализующее нужный класс нейронной сети и адаптировать его под решение задачи прогнозирования исходов спортивных матчей;
  • Создать обучающую выборку и представить ее в формате, понимаемом информационно-программным обеспечением;
  • Настроить ход и параметры обучения;
  • Провести само обучение и проанализировать данные в полученных кластерах;
  • Далее можно использовать обученную нейронную сеть для предсказания исходов конкретных матчей и при этом продолжать ее обучение, когда появляется статистическая информация о новых сыгранных матчах.

Обратимся к отдельным аспектам и стадиям работы алгоритма, наиболее интересным болельщикам и прогнозистам. Вопросы, касающиеся нейронных сетей, оставим специалистам в области методов искусственного интеллекта.

Происхождение, количество и качество статистических данных

Чем больше объем статистических данных для обучения, тем точнее будет решена задача. Но при этом важно исключить из рассмотрения зашумляющую информацию.

Например, нельзя использовать в одной выборке статистику матчей по футболу и хоккею команд Английской футбольной премьер-лиги и второго дивизиона чемпионата Молдавии.

Экспертная оценка специалиста, подбирающего матчи для выборки, крайне важна и существенно повлияет на точность прогнозирования результатов.

Важно

Какие же именно факторы следует учитывать при прогнозировании? Вот их неполный список: фактор поля (проходит ли игра на своем поле или на чужом, а может быть, на нейтральном или без зрителей, насколько высока разница в часовых поясах), оперативная информация о предыгровом раскладе (сила играющих команд с учетом данного фактора поля на текущий момент и динамика ее изменения в течение последнего ограниченного периода времени), статистика по нескольким последним личным встречам данной пары команд.

Дополнительно могут влиять на вероятности исходов матчей факторы, которые практически невозможно оценить численно: наличие травм или дисквалификаций ведущих спортсменов, увольнение или назначение тренеров, значимость игры с точки зрения турнирной ситуации.

Статистический анализ кластеров

Для всех примеров (матчей) каждого кластера должны быть известны результаты игр.

Таким образом, рассчитав средние значения исходов (количества выигрышей, поражений или ничьих к общему количеству матчей в кластере), можно получить вероятности исходов прогнозируемого матча.

Поскольку вероятности нормированы (их сумма равна единице), нет смысла делать кластеры очень большими. Оптимальный их размер – около 200 примеров. Лучше рассчитывать вероятности на этих, наиболее близких к исследуемому, примерах.

Ограничения практического использования кластеров

Ряд кластеров может оказаться небольшого размера. Вместо 200–300 примеров в нем могут быть 20–30. За основу предсказания исхода игры полученное статистическое обобщение, конечно, можно принять, однако слепо доверять ему, с точки зрения математической статистики, не следует.

На нашем сайте на страницах, посвященных прогнозированию результатов матчей, используется достаточно большое количество элементов интеллектуального анализа данных и нейросетевой кластеризации, в том числе упомянутые в данной статье. И следует заметить, что опыт их использования подтверждает перспективность данной группы методов.

Источник: http://sgranks.com/articles/12-11-2014/

Искусственный интеллект и букмекерство: нейронные сети для прогнозирования спортивных событий

Букмекерские компании и опытные игроки активно используют нейросети и Big Data в прогнозировании, и сами того не подозревая, делают огромную услугу теоретикам искусственного интеллекта (ИИ).

Ученые, исследующие искусственный интеллект, должны разгадать очень много загадок: теоретики и разработчики ИИ пытаются не только узнать сущность человеческого интеллекта, но и создать самостоятельные интеллектуальные единицы. Нам нужен не обычный разум, а безошибочное мышление, рациональный агент, который не подведет! 

В ИИ автоматизируются интеллектуальные задачи, поэтому эта область касается любой сферы интеллектуальной деятельности человека.

Как известно, большой спорт, ставки и риск — удел настоящих интеллектуалов, которые в обход тесту Алана Тьюринга и «Китайской комнаты» Джона Серля перешли с философии сознания к чистой прибыли.

Давайте разбираться, как же удалось букмекерам улучшить спортивное прогнозирование.

Коэффициенты и прогнозирование результатов

Что собой вообще представляет букмекерская компания и как она работает?

Букмекерская контора — это организация, которая принимает ставки на различные исходы событий и задает коэффициент вероятности выигрыша.

В отличие от тотализаторов в букмекерских компаниях каждый участник может просчитать собственный выигрыш заранее. Чтобы это сделать, нужно всего лишь умножить размер своей ставки на коэффициент букмекерской конторы.

Талантливые букмекеры обычно предлагают большое количество коэффициентов и вариантов, при этом они со всего будут иметь свой процент.

Совет

Ваш выигрыш принесет выгоду не только вам! Если букмекер неправильно сделает прогноз и рассчитает вероятности, он рискует остаться без маржи и активов. Поэтому при прогнозе учитывать надо большое количество факторов. Коэффициенты и спортивное прогнозирование – вот вам и предметное поле искусственного интеллекта!

Сложностью вычислений и многовариантностью уже не удивишь, это просто цифры. А точное прогнозирование требует анализа огромного объема информации. Это как интуиция, только в миллионы раз мощнее!

Нейронное прогнозирование в футболе

За успешными примерами применения ИИ в букмекерстве далеко ходить не надо. В лаборатории Университета Лозанны три аспиранта создали технологию на основе искусственного интеллекта, которая предсказывала результаты матчей Евро-2016. Трио футбольных оракулов разработало методы прогнозирования футбольных матчей, которые в разы точнее машинного прогнозирования!

Их система учитывает личную эффективность отдельных участников, поэтому в расчет берется большее количество переменных, в то время как обычные программы анализируют продуктивность всей команды.

Вероятности исхода событий анализируются с помощью байесовского вывода. Проще говоря, этот статистический метод позволяет понять, насколько прогнозу доверяют. Во внимание берутся неопределенные факторы, которые могут неожиданно влиять на исход соревнований. Например, наличие нового игрока в сборной или неизвестный противник команды. 

Недавний пример: футбольный матч Исландия — Португалия на чемпионате Евро-2016. Вероятность победы Португалии была очевидна. Но ведь команду Исландии впервые увидели на серьезном чемпионате мирового масштаба.

Поэтому результат матча, с точки зрения нейропрогнозирования, мог быть очень неожиданным. Это учитывается в коэффициентах новой системы. Ко всеобщему удивлению, матч закончился ничьей.

Искусственный интеллект против общественного мнения — 1:1! 

Пока букмекеры мира использовали накатанную схему и ориентировались на коллективный разум, технология швейцарских ученых работала как часы!

На сайте системы kickoff опубликованы результаты прогнозирования за период Евро-2016. Точность предсказаний — 80%. Эта программа перевернула сферу спортивного прогнозирования!

Прогнозирование результатов футбольных матчей от IT-корпораций 

Теперь давайте от стартапа перейдем к IT-гигантам. Они тоже не остались в стороне от футбола и показали мощь ИИ в альтернативной сфере.

Корпорация Microsoft запустила облачный сервис Cortana Intelligence Suite, который сразу же выдал успешное предсказание — Франция победила Румынию с результатом 2:1 на открытии футбольного чемпионата Евро-2016.  

Настолько точный прогноз Cortana Intelligence Suite — результат обработки гигабайтов информации об участниках чемпионата. Предыдущие игры, эффективность игроков, вместе и по отдельности, их травмы. Также анализирует новостной контент и публикации в социальных медиа.

Попадая в сервис, информация находится в процессе постоянного обновления. Таким образом, прогнозирование футбольного матча составляется на базе самых актуальных данных.  

Источник: https://bett-market.com/iskusstvenniy-intellekt-i-bukmekerstvo-neyronnie-seti-dlya-prognozirovaniya-sportivnih-sobitiy

OhMyBet! — самообучающийся сервис прогнозов на теннис от выходцев из «Яндекса» — Трибуна на vc.ru

Сегодня в рубрике «Стартапы» — сервис на основе машинного обучения OhMyBet!, который предоставляет прогнозы на исход теннисных матчей. Передаем микрофон.

Меня зовут Александр, мне 27 лет. Занимаюсь стартапами четыре года. OhMyBet! — это сервис прогнозов на теннис на основе алгоритмов машинного обучения для тех, кто делает ставки на спорт.

OhMyBet! задуман как сервис с математически обоснованными прогнозами на теннис, дает которые не человек, а машина — модель искусственного интеллекта.

Обратите внимание

С помощью алгоритмов машинного обучения мы проанализировали большую базу данных со статистикой прошедших матчей и построили прогностическую модель, которая способна предсказывать победителя предстоящего матча.

Алгоритм самообучающийся: чем больше исторических данных (сыгранных матчей) он анализирует, тем выше точность модели.

Мы проанализировали более 825 тысяч прошедших матчей турниров Международной федерации тенниса и Ассоциации теннисистов-профессионалов с 2000-го по 2014 год. Проверяли модель на матчах 2015 года. Результат — точность предсказания победителя 85%. Потенциальная прибыль, размещай мы ставки в 2015 году по прогнозам системы, составила бы 300%.

Фишка системы в том, что она дает очень ограниченное количество прогнозов: один-два в день, иногда ни одного.

Модель отбирает только матчи с максимальной вероятностью прогноза и высокими коэффициентами на предсказанного победителя — это снижает риск проигрыша и обеспечивает высокую доходность с каждой ставки.

На достаточно долгой временной дистанции это порядка 12% ROI (возврат инвестиций) — очень хороший показатель в беттинге.

Читайте также:  Несколько странных проектов от nasa

После регистрации пользователь получает семь дней пробного периода, в течение которых он получает доступ к новым прогнозам и истории прогнозов с 2015 года. Есть разные варианты подписки: на 1, 3, 6 месяцев. Параллельно мы ведем открытый мониторинг прогнозов на платформе Blogabet, чтобы каждый мог удостовериться в нашей честности.

Команда проекта — это специалисты по машинному обучению и анализу данных, выходцы из «Физтеха» и «Яндекса». С начала 2016 года мы начали делать сайт и дорабатывать модель, в июне запустились. В планах — более широкий охват англоязычной аудитории. Будем стараться изменить общественное мнение, что прогнозы на спорт — это только мошенничество и убытки.

#Стартапы #OhMyBet

Важно

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать

Источник: https://vc.ru/tribuna/16890-onhmybet

Метод взвешенной суммы показателей для прогнозирования футбольных матчей

В последнее время спорт привлекает все большее количество людей, аккумулирует значительные финансовые, материальные и интеллектуальные ресурсы, и постепенно превращается в важный элемент экономики.

Прогнозирование результатов спортивных соревнований само по себе является важной задачей, составляющей основу букмекерского бизнеса.

Кроме того, эта задача может служить хорошим полигоном для тестирования различных методов экстраполяции и прогнозирования результатов процессов в условиях ограниченного статистического материала при большом количестве влияющих факторов, некоторые из которых заранее неизвестны.

Модели и компьютерные программы предсказания результатов спортивных игр разрабатываются на протяжении многих лет.

Большинство из них используют стохастические методы описания неопределенности: регрессивный и авторегрессивный анализ, метод Байезиана в комбинации с цепями Маркова и методом Монте-Карло.

Особенностями таких моделей являются: достаточно высокая сложность, большое количество допущений, потребность в наличии большого массива статистических данных. Кроме того, эти модели не всегда легко интерпретировать.

Существуют также модели, использующие нейронные сети для предсказания результатов футбольного матча. Их можно рассматривать как универсальные аппроксиматоры нелинейных зависимостей, опробованные на экспериментальных данных. Для них также необходимо иметь массивы статистических данных, а физическое значение весов между нейронами после обучения определить нельзя.

Совет

Рассмотрим модель оценки рейтинга команд с использованием квалиметрического метода. Квалиметрия – научная дисциплина, в рамках которой изучаются методология и проблематика комплексной, количественной оценки качества объектов любой природы. В данном случае проводится рейтинговая оценка двух футбольных клубов, принимающих участие в матче.

Этапы выполнения работы:

1. Выбор показателей, формирующих рейтинг футбольной команды

2. Анализ показателей:

  • Выделение стимуляторов/дестимуляторов;
  • Формирование весовых коэффициентов;

3. Построение математической модели:

  • Приведение показателей к сопоставимому виду;
  • Расчет интегрального показателя рейтинга команд;

4. Формирование лингвистической интервальной шкалы.

5. Оценка точности модели (итеративный этап):

  • Подготовка статистических данных;
  • Расчет показателей точности модели;

6. Формирование выводов о целесообразности применения модели на практике.

Итак, в первую очередь перед нами становится задача выбора показателей, формирующих рейтинг футбольной команды.

Целесообразно выбрать для оценки такие параметры, сбор статистической информации о которых не был бы затруднителен.

В то же время данные показатели должны обладать высокой степенью важности для рейтинга команды. Учтя вышеприведенные факторы, мы остановили свой выбор на следующих параметрах:

  • Место в турнирной таблице;
  • Набрано очков *;
  • Количество забитых мячей *;
  • Количество пропущенных мячей *;
  • Количество ударов по воротам **;
  • Количество ударов в створ ворот **;
  • Количество передач **;
  • Количество точных передач **;
  • Выиграно угловых **;
  • Процент владения мячом **;
  • Количество пропускающих матч игроков;
  • Отдых (сколько дней команда не играла);
  • Не пропускали голов в матчах (подряд);
  • Забивали голы в матчах (подряд);
  • Домашний матч (1 – да, 0 – нет);

* – показатель рассчитывается как сумма значений за последние 5 матчей
** – показатель рассчитывается как среднее значение за последние 5 матчей

Отметим, что параметр отдых не учитывается, если команды не играли больше двух недель.

Среди вышеприведенных показателей есть как стимуляторы, так и дестимуляторы. Стимуляторами называются показатели, увеличение которых приводит к увеличению рейтинга команды, а дестимуляторы – это показатели, уменьшение которых приводит к росту рейтинга футбольного клуба. Отметим, что среди выделенных нами показателей дестимуляторами являются следующие:

  • Место в турнирной таблице;
  • Количество пропущенных мячей;
  • Количество пропускающих матч игроков;

Остальные показатели являются стимуляторами.

Каждый из вышеперечисленных показателей влияет на рейтинг команды в определенной степени, причем степень эта различна. Для того чтобы отразить это различие в модели, введем весовые коэффициенты (см. Таблицу 1).

ПоказательВесовой коэффициент
Место команды в турнирной таблице 6
Набрано очков 9
Количество забитых мячей 7
Количество пропущенных мячей 7
Количество ударов по воротам 4
Количество ударов в створ ворот 7
Количество передач 3
Количество точных передач 5
Выиграно угловых 7
Процент владения мячом 3
Выиграна борьба за позицию 4
Количество пропускающих матч игроков 5
Отдых (дней) 4
Не пропускали голов в матчах (подряд) 5
Забивали голы в матчах (подряд) 5
Домашний матч 7

Практические исследования показали, что данные коэффициенты целесообразно корректировать в зависимости от команд, принимающих участие в матче.

Например, если у команды в запасе имеются высококвалифицированные футболисты, то для неё снижается вес показателя “Количество пропускающих матч игроков”.

Кроме того, есть команды, которые играют домашние встречи значительно лучше, чем выездные. В таких случаях весовой коэффициент для параметра “Домашний матч” целесообразно увеличить.

Определившись с показателями и весовыми коэффициентами, можем приступать к расчету рейтинга команд. Для этого нам необходимо выполнять ряд действий:

1. Рассчитаем относительный вес показателя для каждой команды. Для этого воспользуемся формулой 1 для показателей-стимуляторов и формулой 2 для показателей-дестимуляторов:

(1)где B – исходное значение показателя,Brel – относительное значение показателя.(2)

2. Рассчитаем рейтинг команд по формуле 3.

(3)где W – матрица весовых коэффициентов,Mrel – матрица, содержащая относительные значение показателей Brel для каждой команды,

3. Для удобства сравнения сделаем нормировку рейтинга команд на единицу по формуле 4.

(4)где Ra – абсолютный рейтинг командыRrel – рейтинг команды, нормированный на единицу

Для интерпретации полученного рейтинга команд необходимо ввести так называемую лингвистическую интервальную шкалу. В квалиметрии шкала измерений является средством адекватного сопоставления и определения численных значений отдельных свойств и качеств различия объектов. В нашей модели будем использовать пятиуровневую лингвистическую шкалу, приведенную в таблице 2.

ИсходРейтинг команды
Победа X > 75%
Победа или ничья 55% < X

Источник: https://bets.today/ru/articles/weighted-sum-of-indexes

Нейросетевое прогнозирование. Методические указания

42217

Нейросетевое прогнозирование. Методические указания

Книга

Информатика, кибернетика и программирование

В наиболее распространенном случае ИНС обучается прогнозу на 1 отсчет времени вперед используя предыдущих значений. Другими словами на вход ИНС предъявляется вектор и требуется чтобы на выходе ИНС появилось значение: . Обучение ИНС производится по известному временному ряду .

Русский

2013-10-27

204 KB

33 чел.

Федеральное государственное бюджетное образовательное учреждение

Высшего профессионального образования

«Национальный исследовательских Томский политехнический университет»

Институт кибернетики

Кафедра вычислительной техники

Цой Ю.Р.

Методические указания

к выполнению лабораторной работы

«Нейросетевое прогнозирование»

по курсу «Нейронные сети»

Томск, 2012 г.

Цель работы: Ознакомиться с применением искусственных нейронных сетей для решения задач экстраполяции временных рядов. Исследовать качество экстраполяции от представления данных, глубины погружения временного ряда и структуры нейронной сети.

Прогноз временных рядов

Определение временного ряда

Пусть имеется наблюдаемый процесс P, нестационарный во времени. Результатом наблюдения являются измерения характеристики x процесса в моменты времени . Полагая, что для всех значений времени выполняется

, ,

множество измеренных значений  можно обозначить . Полученное множество величин будем называть временным рядом. В зависимости от того, является ли значение xi скаляром или вектором, говорят об одномерном или многомерном временном ряде. В рамках данной лабораторной работы будем рассматривать одномерные временные ряды.

Задача прогноза временного ряда

Задача прогноза временного ряда является одной из основных в анализе временных рядов. Ее суть можно изложить следующим образом:

Пусть известны значения временного ряда до некоторого момента времени T: . Необходимо, используя данные значения, получить оценки неизвестных значений ряда в будущем . Причем каждое последующее значение вычисляется с использованием имеющихся оценок. Ряд, полученный «конкатенацией»  и , называют реконструкцией временного ряда.

Для решения задачи прогнозирования разработано большое число методов. Ниже будет кратко изложена суть нейросетевого подхода.

Нейросетевой прогноз временных рядов

Обратите внимание

В рамках данного подхода для определения прогнозных значений ряда применяются нейронные сети.

В наиболее распространенном случае ИНС обучается прогнозу на 1 отсчет времени вперед, используя  предыдущих значений. Другими словами, на вход ИНС предъявляется вектор

,

и требуется, чтобы на выходе ИНС «появилось» значение:

.

Величину  называют шириной окна или глубиной погружения.

Обучение ИНС производится по известному временному ряду . Общая схема обучения представлена алг. 1.

Алгоритм 1. Общая схема применения ИНС для прогноза значений временного ряда.

  1.  Выбирается и фиксируется глубина погружения .
  2.  Исходный временной ряд «нарезается» на множество обучающих примеров (см. текст ниже) для формирования обучающей выборки D.
  3.  Выбирается структура ИНС (как минимум фиксируется количество входов, равное ).
  4.  Производится обучение ИНС на выборке D.

Формирование обучающей выборки D из исходного временного ряда X заключается в задании набора обучающих примеров, при этом i-й пример представляет пару:

где .

Обучение ИНС можно производить с помощью любого известного алгоритма. В качестве критерия часто используется суммарная квадратичная ошибка, вычисленная по всем обучающим примерам:

где  и  – соответственно требуемое и фактическое значение выходного сигнала ИНС для i-го обучающего примера. Заметим, что нередко применяются и другие критерии, например,

Подготовка обучающих данных

При использовании ИНС для решения задачи прогноза необходимо учитывать ряд особенностей.

Значения элементов временного ряда могут по модулю существенно превосходить 1, что, например, не позволяет использовать в выходном слое нейроны с лог-сигмоидной или тангенциальной функцией активации. В этом случае можно использовать один из следующих подходов:

  1.  Предварительная нормировка данных, чтобы все значения после нормировки оказались в интервале [-1; 1] или [0; 1]. Примеры нормировки:

где  и  обозначают соответственно минимальный и максимальный элементы из Х, а С – некоторая константа, .

Преимуществом является простота и скорость вычислений. Среди недостатков отметим, то, что часто нельзя гарантировать, в последующем среди прогнозных значений не окажутся величины меньше  либо больше .

  1.  Использование в выходном слое нейронов с линейной функцией активации. В этом случае ограничения на диапазон значений элементов ряда отсутствуют. Однако в случае, если среди элементов ряда большинство значений будет близко к некоторому , то сеть может обучиться по «ленивому» сценарию, когда на выходе будет постоянно одна и та же величина, также близкая к  (рис. 1). Понятно, что такая сеть не будет полезной при прогнозе.

Рис. 1. Пример неудачной нейросетевой реконструкции временного ряда

  1.  Замена исходных значений ряда Х на разности соседних элементов. В этом способе формируется временной ряд
Читайте также:  Антивирус с искусственным интеллектом - выходец из россии

где . Поскольку многие представляющие интерес временные ряды являются нестационарными, то большинство значений  будут отличны от нуля, что позволит избежать недостатков предыдущего подхода. Пример реконструкции ряда, показанного на рис. 1, при использовании разностей показан на рис. 2. При необходимости полученные значения ряда  необходимо дополнительно нормировать (см. п.1).

Рис. 2. Пример нейросетевой реконструкции временного ряда при обучении ИНС на разностях элементов ряда

Есть и другие подходы, однако их рассмотрение выходит за рамки лабораторной работы.

Важно

Необходимо заметить, что во многих случаях сказать заранее, какой из подходов подойдет лучше всего, нельзя.

Также важно, чтобы участок временного ряда, по которому формируется обучающая выборка, был достаточно представительным, т.е. если в данных есть какая-то периодичность или наличие выбросов, то их должно быть «видно».

Ход работы

  1.  Определите свой вариант в соответствии с номером в журнале, ознакомьтесь с задачей и подготовьте массив данных для работы. Нормировка на данном этапе не нужна, подготовьте «сырые» данные в том виде, в каком они есть. Например, если речь идет о курсе валют, то это будут просто значения курса выбранной валюты.

Пусть получился массив из N элементов, выберите первые T значений для формирования будущей обучающей выборки, а на оставшихся (N – T) элементах нужно будет проводить тестирование.

T нужно выбирать так, чтобы оно было больше половины размера массива исходных данных, например, T может составлять 80% от исходного массива.

  1.  Выберите несколько значений глубины прогноза, , для экспериментов. Например, , , , . Постарайтесь, чтобы были как большие, так и малые значения .
  2.  Выберите несколько структур ИНС (не меньше 3 вариантов). Например: ИНС без скрытых слоев и нейронов (ИНС-1); ИНС с одним скрытым слоем с 10 нейронами (ИНС-2); ИНС с одним скрытым слоем с 30 нейронами (ИНС-3). Сети должны существенно отличаться по структуре.
  3.  Выберите алгоритм обучения и его параметры.
  4.  Для исходных данных (нормированных или нет, как больше нравится) и каждой комбинации значения глубины прогноза и структуры ИНС необходимо вычислить ошибку прогноза как среднеквадратичную ошибку отклонения НС прогноза от реальных значений. Еще раз, обучение производится на T элементах, а ошибка прогноза считается на оставшихся (N – T) элементах ряда.

Заполните таблицу:

Глубина погружения
ИНС-1
ИНС-2
ИНС-3

значениями вида , где  – средняя точность,  – среднеквадратичное отклонение, полученные по результатам не менее 10 запусков.

  1.  Сформируйте промежуточные выводы о влиянии структуры ИНС и глубины погружения на ошибку прогноза.
  2.  Сформируйте новый ряд из разностей значений исходного ряда и проведите эксперименты, аналогичные п.5. Заполните таблицу
Глубина погружения
ИНС-1
ИНС-2
ИНС-3
  1.  Сформируйте промежуточные выводы о влиянии структуры ИНС и глубины погружения на ошибку прогноза.
  2.  Сравните качество прогноза при использовании исходного временного ряда и ряда, составленного из разностей, с учетом глубины прогноза и различий структур ИНС.
  3.  Сделайте общие выводы по результатам работы.

Варианты

  1.  Курс рубля.
  2.  Курс доллара.
  3.  Курс евро.
  4.  Курс йены.
  5.  Курс фунта стерлингов.
  6.  Отношение доллара к евро.
  7.  Погода в Томске.
  8.  Погода в Лондоне.
  9.  Погода в Нью-Йорке.
  10.  Погода в Рио-де-Жанейро.
  11.  Погода в Пекине.
  12.  Последовательность Маккея-Гласа (Mackey-Glass).

Дополнительные баллы

  1.  (+3 балла) Проведение дополнительных тестов на статистическую значимость ошибок прогноза для таблиц из п. 5 и 6 хода работы с выделением статистически наилучших и наихудших результатов.
  2.  (+2 балла) Обоснование корректности использованных в п.1 статистических тестов.
  3.  (+2 балла) Отчет в формате LaTeX.

Литература

  1.  Лоскутов А.Ю. Анализ временных рядов. Курс лекций. – МГУ, 2011.
  2.  Хайкин С. Нейронные сети: полный курс, 2-е изд., испр. : Пер. с англ. – М. : 000 “И.Д. Вильяме”, 2006. – 1104 с. : ил. – Парал. тит. англ.

Источник: http://5fan.ru/wievjob.php?id=42217

Кластеризатор на основе нейронной сети Кохонена

Евгений Борисов

пятница, 7 февраля 2014 г.

Кластеризация или естественная классификация это процесс объединение в группы объектов, обладающих схожими признаками. В отличие от обычной классификации, где количество групп объектов фиксировано и заранее определено набором идеалов, здесь ни группы и ни их количество заранее не определены и формируются в процессе работы системы исходя из определённой меры близости объектов.

Кластеризация применяется для решения многих прикладных задач: от сегментации изображений до экономического прогнозирования и борьбы с электронным мошенничеством.

Существует несколько основных методов разбиения групп объектов на кластеры. В данной статье описан кластеризатор на основе нейронной сети Кохонена.

Искусственная нейронная сеть Кохонена [1] или самоорганизующаяся карта признаков (SOM) была предложена финским исследователем Тойво Кохоненом в начале 1980-х годов.

Рис. 1: топология нейронной сети Кохонена

Она представляет собой двухслойную сеть (рис.1). Каждый нейрон первого (распределительного) слоя соединен со всеми нейронами второго (выходного) слоя, которые расположены в виде двумерной решетки.

Нейроны выходного слоя называются кластерными элементами, их количество определят максимальное количество групп, на которые система может разделить входные данные. Увеличивая количество нейронов второго слоя можно увеличивать детализацию результатов процесса кластеризации.

Система работает по принципу соревнования [2] – нейроны второго слоя соревнуются друг с другом за право наилучшим образом сочетаться с входным вектором сигналов, побеждает тот элемент-нейрон, чей вектор весов ближе всего к входному вектору сигналов. За меру близости двух векторов можно взять квадрат евклидова расстояния(1). Таким образом, каждый входной вектор относится к некоторому кластерному элементу.

(1)

Для обучения сети Кохонена используется соревновательный метод[1, 2]. На каждом шаге обучения из исходного набора данных случайно выбирается один вектор. Затем производится поиск нейрона выходного слоя, для которого расстояние между его вектором весов и входным вектором – минимально.

По определённому правилу производится корректировка весов для нейрона-победителя и нейронов из его окрестности, которая задаётся соответствующей функцией окрестности. В данном случае в качестве функцией окрестности была использована функция Гаусса (2).

Рис. 2: функция Гаусса (2)

где u – номер нейрона в двумерной решетке второго слоя сети, для которого вычисляем значение h;
c – номер нейрона-победителя в двумерной решетке второго слоя сети;
t – параметр времени;

Радиус окрестности h должен уменьшаться с увеличением параметра времени .

Алгоритм обучения сети Кохонена выглядит следующим образом:

  1. Инициировать матрицу весов малыми случайными значениями (на отрезке [-1,1]).
  2. Построить очередь из элементов входного множества, расположив их в случайном порядке,

    пометить их все как необработанные.

  3. Выбрать первый необработанный элемент x из очереди.
  4. Для каждого выхода j вычислить расстояние dj (1) между его вектором весов wj и входным вектором x.
  5. Найти номер выходного нейрона jm с минимальным расстоянием dj
  6. Вычислить изменение весов ΔW = {Δwu} для всех нейронов u выходного слоя
    (3)

    где
    c – номер (пара индексов) нейрона победителя jm в двумерной решетке второго слоя;
    u – номер (пара индексов) нейрона с вектором весов wu в двумерной решетке второго слоя;
    wu – вектор весовых коэффициентов связи входного слоя и выходного нейрона номер u;
    x – текущий вектор входов сети;
    h(u,c,t) – значение функции окрестности для нейрона номер u в момент времени t;
    η – коэффициент скорости обучения;

  7. скорректировать матрицу весов
  8. пометить элемент входной очереди x как обработанный
  9. если в очереди остаются не обработанные точки
    то переход на п.3
  10. если критерий остановки обучения не достигнут
    то переход на п.2
  11. конец

В качестве критериев останова процесса обучения можно использовать следующие:

  • Количество полных циклов обучения ограничено константой, например количество циклов равно количеству элементов во входном множестве.
  • Выход сети стабилизируется, т.е. входные вектора не переходят между кластерными элементами.
  • Изменения весов становятся незначительными.

Результат работы алгоритма зависит от начальных значений его параметров.

Определим функцию оценки Q качества работы кластеризатора.

Q= c . di / do

где

Для получения наилучшего результата можно несколько раз выполнить алгоритм кластеризации, после чего выбрать результат с наименьшим значением.

Рис. 1: начальное состояние
Рис. 2: результат кластеризации: нейронов – 4, кластеров – 4, Q=0.35
Рис. 3: результат кластеризации: нейронов – 4, кластеров – 4, Q=0.06
Рис. 4: результат кластеризации: нейронов – 9, кластеров – 7, Q=0.04

Реализация в системе Octave [  здесь  ].
 

Реализация на языке C [  здесь  ].

[1]   T.Kohonen, “Self-Organizing Maps Springer, 1995.

[2]   В.А.Головко, под ред. проф. А.И.Галушкина   Нейронные сети: обучение, организация и применение. – Москва:ИПРЖР, 2001

[3]    Воронцов К.В. Методы кластеризации – http://shad.yandex.ru/lectures/machine_learning.xml

[4]    GNU Octave – http://www.gnu.org/software/octave/

Источник: http://mechanoid.kiev.ua/neural-net-kohonen-clusterization.html

Электронный научный журнал Современные проблемы науки и образования ISSN 2070-7428 “Перечень” ВАК ИФ РИНЦ = 0,737

1Прохоренко И.О.

11 НОУ ВПО “Медицинский институт “РЕАВИЗ”С целью прогнозирования развития и тяжести течения распространенной соматической патологии у пациентов старших возрастных групп создана нейросетевая модель, позволяющая на основании исходных данных пациента, его психологического профиля, выявленного на основании опросника Кеттелла, с точностью 66-89% определять вероятность возникновения депрессии, метаболического синдрома, инфаркта миокарда, в том числе с зубцом Q, остеопороза. Полученные данные позволяют сделать вывод о том, что применение нейросетевых алгоритмов для прогнозирования на ближайшую перспективу оправдано и может обеспечить приемлемую ошибку прогноза. Кроме конкретного прогноза, компьютерной программой определяется уровень уверенности для каждого диагноза в отдельности, что позволяет врачу оптимизировать план лечения пациента и заранее принять необходимые профилактические меры.нейросетевое моделирование1. Головинова В.Ю. Анализ состояния здоровья и нейросетевое прогнозирование заболеваемости сотрудников федеральной противопожарной службы МЧС России : автореф. … к.м.н.. – Самара, 2010 – 22 с.2. Диагностика и коррекция нарушений липидного обмена с целью профилактики и лечения атеросклероза. Российские рекомендации (IV пересмотр) // Кардиоваскулярная терапия и профилактика. – 2009. – Т. 8. – № 6 : Приложение 3.3. Прохоренко И.О., Зарубина Е.Г. Влияние особенностей личности на спектр катехоламинов и характер течения ишемической болезни сердца у лиц старших возрастных групп // Саратовский научно-медицинский журнал. – 2012. – Т. 8. – № 4. – С. 942-946.4. Семенков В.Ф., Карандашов В.И., Михайлова Т.А. Стресс и старение человека // Вестник российской академии естественных наук. – 2011. – № 4. – С. 72-78.5. Шилов А.М., Авшалумов А.Ш., Марковский В.Б. и др. Диагностическая значимость двойного динамического теста на катехоламины у больных с психосоматической патологией // Медицина и качество жизни. – 2009. – № 1. – С. 5-9.6. Verbeke P. et al. Antiaging effects of mild hormesis and prolonging life // Cell. Biol. Internat. – 2001. – V. 25. – P. 845.

Введение. Общеизвестно, что в возникновении полиморбидной соматической патологии в пожилом возрасте играют роль многочисленные факторы внешней и внутренней среды. Последствия для здоровья человека перенесенных стрессов одинаковой силы и продолжительности могут быть различными у каждого из нас по причине неодинаковой или индивидуальной резистентности к ним. По данным ряда исследователей, продолжительность жизни прямо коррелирует с устойчивостью конкретного человека к стрессам [3; 4; 6].

На важность психосоциального стресса в развитии сердечно-сосудистой патологии, особенно осложненного течения, указывается и в последних российских рекомендациях экспертов ВНОК, которые базируются на результатах клинико-эпидемиологических исследований, убедительно свидетельствующих о высоком риске фатальных и не фатальных кардиоваскулярных осложнений в условиях острого или хронического психоэмоционального стресса [2]. Это особенно актуально в свете последних данных о том, что в настоящее время 70% населения РФ живет в состоянии хронического стресса [5].

Читайте также:  Искусственный интеллект понимает ваши эмоции

Возможность прогнозировать развитие соматической патологии еще до развития заболеваний позволит проводить раннюю профилактику данной патологии, а также прогнозировать течение уже имеющейся патологии и корректировать медикаментозные схемы лечения.

Целью проведенной нами экспериментальной работы было создание компьютерной нейросетевой модели прогнозирования развития соматической патологии на основе психологических девиаций в личности пациента.

Материалы и методы. Вся работа по отбору, обучению и тестированию нейронных сетей была выполнена на базе специализированного модуля статистического пакета STATISTICA Neural Networks версии 7.0.

На первом этапе происходило формирование обучающей выборки. Из неё сеть автоматически исключала некоторое количество значений для создания контрольной и тестовой выборок, необходимых для контроля над процессом обучения. Часть данных была зарезервирована для проверки эффективности созданной нейросетевой модели и качества ее прогноза.

Совет

На втором этапе происходило «обучение» нейронной сети по подаваемому на сеть набору обучающих данных. Для выбора оптимального типа сети обучение велось на нескольких его моделях: линейной сети, многослойном персептроне и сети с радиальной базисной функцией.

Программа автоматически выбирала из заданного количества созданных моделей наилучшие. В ходе эксперимента выяснилось, что наиболее достоверный результат прогноза в нашем случае показывает многослойный персептрон.

Оптимальная архитектура сети определялась опытным путём в ходе эксперимента.

Наилучшая модель выбиралась по показателю отношения стандартных отклонений, который представляет собой отношение стандартного отклонения ошибки прогноза к стандартному отклонению исходных данных. Модель считалась удачной, если отношение стандартного отклонения приближалось к нулю. Величина, равная единице минус отношение стандартных отклонений, равна доле объяснённой дисперсии модели.

Критерием успешного обучения являлось последовательное уменьшение ошибки на обучающем множестве, которая вычисляется как суммарное квадратичное отклонение значений на выходах НС в обучающей выборке от реальных значений, полученных на выходах НС [1].

Критерием остановки процесса обучения служил рост ошибки на контрольном множестве при продолжающемся уменьшении её или остановке на обучающем множестве. Это говорило о «переобучении» сети, т.е. сеть слишком близко аппроксимировала выборку, в результате чего снижалось качество прогноза при подаче на сеть новых данных [1].

На третьем этапе мы провели контрольное испытание созданной модели путем сравнения прогнозируемых значений с набором известных данных, которые вообще не подавались на сеть для обучения и тестирования. Оценили качество прогноза и эффективность модели.

После отбора лучших сетей они были включены в разработанную нами компьютерную программу, написанную на языке C++ Borland Builder 6.0, предназначенную для практического использования в здравоохранении.

Нами были разработаны, обучены и протестированы нейронные сети для прогнозирования развития следующих патологических состояний: острого сердечно-сосудистого осложнения; Q-позитивного инфаркта миокарда; метаболического синдрома; остеопороза; депрессии.

Обратите внимание

Из всех обследованных пациентов сформировали три группы: обучающую – для обучения искусственной нейронной сети, тестирующую – для проверки качества обучения и контрольную – для нейросетевого прогнозирования развития и течения соматической патологии пациентов старших возрастных групп.

На первом этапе были выделены психологические и клинические признаки обследованных пациентов, послужившие входными параметрами Баз данных нейронной сети. Качественные признаки (например, наличие депрессии, злоупотребление алкоголем и т.д.), принимали всего два значения – 0 (нет признака) и 1 (есть признак).

Если значение параметра представляло собой выбор из нескольких вариантов, каждому из них присваивалось числовое значение с соответствующей расшифровкой (например, психологический профиль личности – 1, 2, 3 соответственно у представителей I, II, III групп наблюдения). Большинство клинических и лабораторных параметров имели числовое выражение.

Обучающие параметры для создания искусственной нейронной сети представлены в табл. 1.

Таблица 1 – Обучающие параметры искусственной нейронной сети

№ п/п

Параметр

Шифр

1.            

Пол

1-2

2.            

Возраст, лет

абс.

3.            

Депрессия

0-1

4.            

Злоупотребление алкоголем

0-1

5.            

Психологический профиль

1-3

6.            

Работающий

0-1

7.            

Одинокий

0-1

8.            

Общий холестерин, ммоль/л

абс.

9.            

Индекс атерогенности

абс.

10.        

Систолическое АД, мм.рт.ст.

абс.

11.        

Кортизол вне обострения, нмоль/л

абс.

12.        

Адреналин вне обострения, пг/мл

абс.

13.        

Норадреналин вне обострения, пг/мл

абс.

14.        

Кальций в бляшках, мг

абс.

15.        

Магний в эритроцитах, ммоль/л

абс.

16.        

Индекс Агатстона, баллы

абс.

Для обучения искусственных нейронных сетей создали обучающую выборку, которую составили 247 пациентов, 140 женщин (56,7%), 107 мужчин (43,3%), средний возраст 66,2±7,4 лет.

У всех больных были заданы выходные параметры: наличие или отсутствие острого сердечно-сосудистого осложнения (инфаркт, острое нарушение мозгового кровообращения, Q-позитивного инфаркта миокарда, метаболического синдрома, остеопороза, депрессии).

Всего создано 5 баз данных (для каждого прогнозируемого состояния).

Для проверки качества обучения созданной нейросети провели тестирование. В группу тестирования вошли 372 пациента, 216 женщин (58,1%) и 156 мужчин (41,9%), средний возраст 68,8±4,9 лет.

Процесс тестирования отличался тем, что выходные параметры в программу не заносились, они были известны только пользователю.

Так происходил выбор нейросети, которая более правильно распознавала предлагаемые ей примеры.

Сравнение результатов прогнозирования лучших нейронных сетей и наличие реальных заболеваний показало достаточно высокое качество разработанных сетей. Отсюда был сделан вывод о том, что подготовленный прогноз можно считать состоятельным, а применение нейронных сетей высокоэффективно и надежно.

Результаты и их обсуждение

Прогнозирование развития острого сердечно-сосудистого осложнения.

В качестве алгоритма обучения использовался квазиньютоновский метод (BFGS – алгоритм назван по именам авторов: Broyden-Fletcher-Goldfarb-Shanno) – стандартный метод обучения для многослойного персептрона.

Входными данными нейросети были все 16 параметров (табл. 1), имеющие наиболее высокие корреляции с прогнозируемым результатом в группах обучения и тестирования (r≥0,6).

Важно

Выходной параметр определял прогнозирование острого сердечно-сосудистого осложнения в процентах.

В нашем исследовании получено правильное прогнозирование развития острого сердечно-сосудистого осложнения в 66,67% случаев.

Для прогнозирования развития Q-позитивного инфаркта миокарда входными данными нейросети являлись те же 16 параметров, что и в случае прогнозирования острого сердечно-сосудистого осложнения (табл. 1). Кроме того, дополнительным входом являлся результат прогнозирования острого сердечно-сосудистого осложнения.

Выходной параметр определял прогнозирование в процентах инфаркта с зубцом Q при условии возникновения острого сердечно-сосудистого осложнения в процентах.

В нашем исследовании получено правильное прогнозирование развития острого сердечно-сосудистого осложнения в 88,89% случаев.

Прогнозирование развития метаболического синдрома. Проверка разработанных нейронных сетей показала правильный прогноз в 77,78% случаев.

Входными данными нейросети были 11 параметров: депрессия, злоупотребление алкоголем, психологический профиль личности, наличие работы у пациента, проживание в семье, индекс атерогенности, величина систолического артериального давления, уровень кортизола, адреналина, норадреналина вне обострения, имеющие коэффициент корреляции с метаболическим синдромом в обучающей группе и группе тестирования r≥0,6.

Выходной параметр определял прогнозирование развития метаболического синдрома в процентах.

Совет

Прогнозирование развития остеопороза. Проверка разработанных нейронных сетей показала лучший правильный прогноз в 88,89% случаев.

Входными данными нейросети были 9 параметров: пол, наличие депрессии, злоупотребление алкоголем, психологический профиль личности, наличие у пациента работы, проживание в семье, показатели кортизола, адреналина, норадреналина вне обострения, имеющие коэффициент корреляции с Т-критерием в группах обследованных r≥0,6.

Прогнозирование развития депрессии предлагается проводить в случае отсутствия результатов обследования на наличие данного состояния у пациента. В подобной ситуации выходные сигналы данной нейронной сети могут быть входными для нейросетей, определяющих прогноз развития острого сердечно-сосудистого осложнения, Q-позитивного инфаркта миокарда, метаболического синдрома, остеопороза.

Входными параметрами нейросети были 5 качественных и 1 количественный критерии, влияющие на развитие депрессии: пол, наличие депрессии, злоупотребление алкоголем, психологический профиль личности, наличие у пациента работы, проживание в семье, уровень кортизола вне обострения,.

Таким образом, в ходе проведенного исследования нами были отобраны 5 нейронных сетей с наилучшими возможностями по прогнозированию соматической патологии на основе психологических девиаций в личности пациента. Отобранные нейросети показали точность прогноза от 66,67 (острое сердечно-сосудистое осложнение) до 88,89% (Q-позитивный инфаркт миокарда, остеопороз, депрессия).

Подготовленные лучшие нейронные сети в дальнейшем были дополнены сгенерированными модулями на языке программирования С++ (такую возможность предоставляет использованный пакет программ STATISTICA версии 7.

0 или выше), которые были включены в готовую компьютерную программу для применения в медицинской практике.

Таким образом, мы смогли внедрить полностью обученные нейронные сети в практическое программное приложение (рис. 1).

Обратите внимание

Рис. 1. Внешний вид основного окна разработанной компьютерной программы для прогнозирования развития соматической патологии.

Разработанная компьютерная программа позволяет использовать прогнозирование развития соматической патологии в практическом здравоохранении.

Кроме конкретного прогноза, определяется уровень уверенности для каждого диагноза в отдельности, что дает врачу возможность оптимизировать план лечения пациента и заранее принять необходимые профилактические меры.

При прогнозировании различных вариантов соматической патологии компьютерная экспертная система определяет вероятность прогноза (рис. 2).

«Обучение» нейронной сети проводилось по подаваемому на сеть минимальному и максимальному набору обучающих данных, что позволяет использовать программу и при неполном комплекте параметров, запрашиваемых в диалоговом окне. Однако точность прогноза повышается при наличии максимального числа из выбранных для создания нейросети параметров.

Рис. 2. Работа экспертной системы по прогнозированию острого сердечно-сосудистого осложнения.

Выводы

1. Нейросетевое прогнозирование развития соматической патологии позволяет с достаточной точностью получить прогноз возможного развития в будущем с вероятностью 66,67–88,89%. Полученные данные позволяют сделать вывод о том, что применение нейросетевых алгоритмов для прогнозирования на ближайшую перспективу оправданно и может обеспечить приемлемую ошибку прогноза.

2. В ходе исследований нами была подготовлена компьютерная программа, предназначенная для использования в практическом здравоохранении для прогнозирования развития соматической патологии на основе психологических девиаций в личности пациента. Таким образом, мы смогли внедрить полностью обученные нейронные сети в практическое программное приложение.

3. Кроме конкретного прогноза, компьютерной программой определяется уровень уверенности для каждого диагноза в отдельности, что позволяет врачу оптимизировать план лечения пациента и заранее принять необходимые профилактические меры.

Важно

4. Разработанные методики прогнозирования заболеваемости могут быть использованы в других областях медицины, гражданском и военном здравоохранении и процессе обучения медицинского персонала.

Рецензенты:

Сергеев Олег Степанович, доктор биологических наук, профессор, кафедра общей и клинической патологии: патологическая анатомия и патологическая физиология, Самарский государственный медицинский университет, г. Самара.

Лебедева Елена Алексеевна, доктор медицинских наук, профессор, кафедра госпитальной терапии с курсом трансфузиологии, Самарский государственный медицинский университет, г. Самара.

Библиографическая ссылка

Прохоренко И.О. МЕТОД НЕЙРОСЕТЕВОГО МОДЕЛИРОВАНИЯ И ЕГО ИСПОЛЬЗОВАНИЕ ДЛЯ ПРОГНОЗИРОВАНИЯ РАЗВИТИЯ СОМАТИЧЕСКОЙ ПАТОЛОГИИ У ЛИЦ СТАРШИХ ВОЗРАСТНЫХ ГРУПП // Современные проблемы науки и образования. – 2013. – № 1.;
URL: http://science-education.ru/ru/article/view?id=8411 (дата обращения: 26.02.2019).

Источник: https://science-education.ru/ru/article/view?id=8411

Ссылка на основную публикацию
Adblock
detector