Анализ данных фильмов про Джеймса Бонда. Кто из актеров лучший Бонд?

В апреле 2020 года выходит новый фильм про Джеймса Бонда. Эта 25-ый фильм в официальной серии фильмов про агента 007.

Существует еще, как минимум, два фильма про Джеймса Бонда, которые не входят в официальную серию:

25 фильмов — это уже очень много. Я решил взять данные про эти фильмы и попробовать на них как-нибудь посмотреть. Изначально я решил посмотреть на эти данные чтобы все-таки наконец-то выяснить, кто из актеров — лучший Джеймс Бонд.

Данные

Чтобы как-то обрабатывать данные нужно их сначала получить. Какие данные можно взять про фильмы?

Я активно использую сайт про фильмы IMDb. Так что я решил взять рейтинг и количество голосов с этого сайта.

В первую очередь я создал список всех официальных фильмов про Бонда.

IMDb позволяет выгрузить этот список в виде csv файла. В этом csv файле есть много информации которая мне нужна (название, год, рейтинг, количество голосов), но нет информации об актере, который играл главную роль. Вообще, для 25 строк вполне можно и руками записать имя актера, но я решил все-таки получить эти данные автоматически, так что из этого csv файла я достал только айдишники:

$ cat imdb_list.csv | perl -F, -nalE '$F[6] =~ /tt(\d+)\//; say $1'

0055928
0057076
0058150
0059800
0062512
0064757
0066995
0070328
0071807
0076752
0079574
0082398
0086034
0090264
0093428
0097742
0113189
0120347
0143145
0246460
0381061
0830515
1074638
2379713
2382320

А дальше взял python библиотеку IMDbPY и соорудил Jupyter notebook, который сделал csv файл с данными, которые мне нужны. Библиотека IMDbPY для каждого фильма возвращает список актеров, которые играли в этом фильма. Я решил что актер играющий Бонда всегда будет первым в этом списке. Это оказалось правильно для всех фильмов, кроме еще не вышедшего 25-ого фильма. У этого фильма сейчас актер на первом месте это Ana de Armas:

Так что пришлось руками поправить одну строчку в данных.

Статистика по годам

Итак, сырые данные про фильмы есть, загружаю их в Pandas Dataframe:

Первое что сразу хочется сделать — это посмотреть когда выходили фильмы. Первый фильм вышел в 1962 году. Прошло уже более 50 лет. Как часто выходили фильмы за это время?

Вот график:

По оси X — год когда вышел фильм, по оси Y — просто какое-то число, одинаковое для всех.

Если присмотреться к этим данными, но можно сгруппировать фильмы вот так:

Бонда играло много актеров, может быть эти группы — это как раз все фильмы с одним актером? Проверяю это гипотезу — вывожу на это же график название фильма и имя актера:

Оказывается, что я был и прав и неправ. Дэниел Крейг и Пирс Броснан действительно попали в эти группы, а вот с остальными актерами все сложнее.

Шон Коннери — сначала 4 фильма ежегодно, потом пауза, еще один фильм с Шоном Коннери, еще пауза, потом фильм с Джорджем Лэзенби (единственный актер, который один раз играл Бонда), потом опять пауза, а потом снова Шон Коннери.

Еще пара фильмов и наладился режим — каждые два года фильм. Этому распорядку даже не помешала смена актера (Тимоти Далтон вместо Роджера Мура).

Потом опять пауза (самая длинная пауза) и Пирс Броснан. Первые три фильма с регулярностью каждые два года, четвертый фильм через 3 года.

И снова пауза и Дэниел Крейг. Совершенно нерегулярный выпуск фильмов.

IMDb рейтинг и количество голосов

Пользователи IMDB могут голосовать за фильмы. Ставят фильму от одной звездочки (ужасно) до 10 (лучшее что только может быть).

IMBD по сложному алгоритму считает на основании этих данных рейтинг фильма. Алгоритм сложный из-за того что IMDB приходится бороться с накрутками и IMDB не рассказывает в точности какой алгоритм расчета они используют.

Вот как выглядит IMDB рейтинг всех 24 официальных фильмов фильмов про Бонда (25-ый фильм еще не вышел и поэтому у него нет рейтинга):

А вот график сколько людей голосовало за каждый фильм:

Интересно смотреть как колбасит фильмы с Дэниелом Крейгом:

Если такая тенденция продолжится, то следующий фильм должен быть очень успешным.

Интересно что на графике количества голосов хорошо выделяются фильмы с Пирсом Броснаном и Дэниелом Крейгом. И видно что фильм "Лунный Гонщик", прямо выбивается из рейтинга.

Кто же лучший Бонд?

Изначально я затеял смотреть на эти данные так как придумал способ выяснить кто же из актеров лучший Бонд. У каждого фильма есть рейтинг. Беру все фильмы с одним актером, считаю средний рейтинг фильма — это и есть числовой показатель актера.

Вот что получилось:

Согласно этому методу расчета — Дэниел Крейг — это лучший Бонд. Средний рейтинг всех фильмов где он играл Бонда выше всех остальных.

На втором месте Шон Коннери. На третьем — удивительно, но это Джорджем Лэзенби, актер, который играл Бонда только в одном фильма.

Но что совсем для меня удивительно — это то что Пирс Броснан — это худший Бонд. Совершенно не согласен.

Очень интересно, на сейчас будет идти борьба за первое место в такой статистике. Все будет зависеть от того насколько хорош будет рейтинг у последнего фильма с Дэниелом Крейгом. Если рейтинг фильма будет 6.6 или ниже, то на первом месте окажется Шон Коннери, если рейтинг будет 6.7 или выше, то Крейг останется на первом месте.

Итого

Много раз говорили что 25-ый фильм про Бонда это последний фильм в котором играет Дэниел Крейг. Будут ли еще фильмы? Что будет дальше? Совершенно не известно.

Может произойти все что угодно. Это может быть не только последний фильма про Бонда с Дэниелом Крейгом, а вообще последний фильм про Бонда. С агентом 007 происходило много всего, но его ни разу не убивали. Может быть в этом фильме это случится. Но даже если Бонда и убьют в этом фильме это не означает что больше не будет фильмов. Индустрия умеет оживлять героев. А может быть другие фильмы будет рассказывать про события до его смерти.

А еще может быть что следующий Бонд будет женщина. Джейн Бонд.

Может и быть ситуация что 26-ый фильм будет с другим актером, а в 27-ом опять будет Крейг играть главную роль.

Ну и нельзя исключать ситуации что кто-нибудь выкупит права на бонда и сделает свой фильм вне официальной серии (Элон Маск?)

PS Jupyter notebooks и csv файла, которые были использованы для написания этого текста лежать на github.

Иван Бессарабов
ivan@bessarabov.ru

11 февраля 2020

Этот текст есть и на английском языке