Filmzuschauer verwenden manchmal Ranglisten, um auszuwählen, was sie sehen möchten. Als ich das selbst machte, bemerkte ich, dass viele der Filme mit dem besten Rang zum selben Genre gehörten: Drama. Dies ließ mich denken, dass das Ranking eine Art Genre-Voreingenommenheit haben könnte.
Ich war auf einer der beliebtesten Websites für Filmliebhaber, IMDb, die Filme aus der ganzen Welt und aus jedem Jahr abdeckt. Das berühmte Ranking basiert auf einer riesigen Sammlung von Bewertungen. Für diese IMDb-Datenanalyse habe ich beschlossen, alle dort verfügbaren Informationen herunterzuladen, um sie zu analysieren, und zu versuchen, ein neues, verfeinertes Ranking zu erstellen, das ein breiteres Spektrum von Kriterien berücksichtigt.
Ich konnte Informationen zu 242.528 Filmen herunterladen, die zwischen 1970 und 2019 veröffentlicht wurden. Die Informationen, die IMDb mir für jeden einzelnen gab, waren: Rank
, Title
, ID
, Year
, Certificate
, Rating
, Votes
, Metascore
, Synopsis
, Runtime
, Genre
, Gross
und SearchYear
.
Um genügend Informationen zum Analysieren zu haben, benötigte ich eine Mindestanzahl von Rezensionen pro Film. Als erstes habe ich Filme mit weniger als 500 Rezensionen gefiltert. Dies führte zu einer Reihe von 33.296 Filmen, und in der nächsten Tabelle konnten wir eine zusammenfassende Analyse der Felder sehen:
Feld | Art | Null Count | Bedeuten | Median |
---|---|---|---|---|
Rang | Faktor | 0 | ||
Titel | Faktor | 0 | ||
ICH WÜRDE | Faktor | 0 | ||
Jahr | Int | 0 | 2003 | 2006 |
Zertifikat | Faktor | 17587 | ||
Bewertung | Int | 0 | 6.1 | 6.3 |
Stimmen | Int | 0 | 21040 | 2017 |
Metascore | Int | 22350 | 55.3 | 56 |
Zusammenfassung | Faktor | 0 | ||
Laufzeit | Int | 132 | 104.9 | 100 |
Genre | Faktor | 0 | ||
Brutto | Faktor | 21415 | ||
Suchjahr | Int | 0 | 2003 | 2006 |
Hinweis: In R. , Factor
bezieht sich auf Zeichenfolgen. Rank
und Gross
Dies ist im ursprünglichen IMDb-Dataset der Fall, da beispielsweise Tausende von Trennzeichen vorhanden sind.
Bevor ich anfing, die Punktzahl zu verfeinern, musste ich diesen Datensatz weiter analysieren. Für den Anfang die Felder Certificate
, Metascore
und Gross
hatten mehr als 50% der Nullwerte, daher sind sie nicht nützlich. Der Rang hängt wesentlich von der Bewertung ab (der zu verfeinernden Variablen), daher enthält er keine nützlichen Informationen. Gleiches gilt für ID
, dass es eine eindeutige Kennung für jeden Film ist.
Schließlich Title
und Synopsis
sind kurze Textfelder. Es könnte möglich sein, sie mit einer NLP-Technik zu verwenden, aber da es sich um eine begrenzte Textmenge handelt, habe ich beschlossen, sie für diese Aufgabe nicht zu berücksichtigen.
Nach diesem ersten Filter blieb mir Genre
, Rating
, Year
, Votes
, SearchYear
und Runtime
. In der Genre
Feld gab es mehr als ein Genre pro Film, durch Kommas getrennt. Um den additiven Effekt vieler Genres einzufangen, habe ich ihn mit transformiert One-Hot-Codierung . Dies führte zu 22 neuen booleschen Feldern - eines für jedes Genre - mit dem Wert 1, wenn der Film dieses Genre hatte, oder 0 auf andere Weise.
Um die Korrelationen zwischen Variablen zu sehen, habe ich die berechnet Korrelationsmatrix .
Hier repräsentiert ein Wert nahe 1 eine starke positive Korrelation und Werte nahe -1 eine starke negative Korrelation. Durch diese Grafik habe ich viele Beobachtungen gemacht:
Year
und SearchYear
sind absolut korreliert. Dies bedeutet, dass sie wahrscheinlich die gleichen Werte haben und dass beide gleich sind wie nur einer, also habe ich nur Year
behalten.Music
mit Musical
Action
mit Adventure
Animation
mit Adventure
Drama
vs. Horror
Comedy
vs. Horror
Horror
vs. Romance
Rating
) habe ich Folgendes bemerkt:Runtime
und Drama
.Votes
, Biography
und History
.Horror
und ein niedrigeres negatives mit Thriller
, Action
, Sci-Fi
und Year
.Es schien, dass lange Dramen gut bewertet waren, kurze Horrorfilme jedoch nicht. Meiner Meinung nach - ich hatte nicht die Daten, um sie zu überprüfen - korrelierte sie nicht mit der Art von Filmen, die mehr Gewinn generieren, wie Marvel- oder Pixar-Filme.
Es kann sein, dass die Personen, die auf dieser Website abstimmen, nicht die besten Vertreter des allgemeinen Personenkriteriums sind. Dies ist sinnvoll, da diejenigen, die sich die Zeit nehmen, um Bewertungen auf der Website einzureichen, wahrscheinlich eine Art Filmkritiker mit einem spezifischeren Kriterium sind. Mein Ziel war es jedenfalls, den Effekt gängiger Filmfunktionen zu beseitigen, also habe ich versucht, diese Verzerrung zu beseitigen.
Der nächste Schritt bestand darin, die Verteilung jedes Genres über die Bewertung zu analysieren. Dazu habe ich ein neues Feld mit dem Namen Principal_Genre
erstellt basierend auf dem ersten Genre, das im Original Genre
erschien Feld. Um dies zu visualisieren, habe ich eine Geigengraph .
Noch einmal konnte ich das Drama
sehen korreliert mit hohen Bewertungen und Horror
mit niedriger. Diese Grafik ergab jedoch auch, dass andere Genres gute Ergebnisse erzielen: Biography
und Animation
. Dass ihre Korrelationen in der vorherigen Matrix nicht auftauchten, lag wahrscheinlich daran, dass es zu wenige Filme mit diesen Genres gab. Als nächstes habe ich ein Frequenzbalken-Plot nach Genre erstellt.
Effektiv Biography
und Animation
hatte sehr wenige Filme, wie Sport
und Adult
. Aus diesem Grund korrelieren sie nicht sehr gut mit Rating
.
Danach begann ich mit der Analyse der kontinuierlichen Kovariablen: Year
, Votes
und Runtime
. Im Streudiagramm sehen Sie die Beziehung zwischen Rating
und Year
.
Wie wir zuvor gesehen haben, Year
schien eine negative Korrelation mit Rating
zu haben: Mit zunehmendem Jahr nimmt auch die Bewertungsvarianz zu und erreicht bei neueren Filmen negativere Werte.
Als nächstes habe ich den gleichen Plot für Votes
gemacht.
Hier war die Korrelation klarer: Je höher die Anzahl der Stimmen, desto höher das Ranking. Die meisten Filme hatten jedoch nicht so viele Stimmen, und in diesem Fall Rating
hatte eine größere Varianz.
Zuletzt habe ich mir die Beziehung zu Runtime
angesehen.
Wieder haben wir ein ähnliches Muster, aber noch stärker: Höhere Laufzeiten bedeuten höhere Bewertungen, aber es gab nur sehr wenige Fälle für hohe Laufzeiten.
Nach all dieser Analyse hatte ich eine bessere Vorstellung von den Daten, mit denen ich zu tun hatte, und beschloss, einige Modelle zu testen, um die Bewertungen basierend auf diesen Feldern vorherzusagen. Meine Idee war, dass der Unterschied zwischen meinen besten Modellvorhersagen und den realen Rating
würde den Einfluss der gemeinsamen Funktionen beseitigen und die besonderen Merkmale widerspiegeln, die einen Film besser machen als andere.
Ich habe mit dem einfachsten Modell begonnen, dem linearen. Um zu bewerten, welches Modell besser abschneidet, habe ich den quadratischen Mittelwert ( RMSE ) und Mittelwert absolut ( VIEL ) Fehler. Sie sind Standardmaßnahmen für diese Art von Aufgabe. Außerdem haben sie den gleichen Maßstab wie die vorhergesagte Variable, sodass sie leicht zu interpretieren sind.
In diesem ersten Modell betrug RMSE 1,03 und MAE 0,78. Lineare Modelle setzen jedoch Unabhängigkeit über die Fehler, einen Median von Null und eine konstante Varianz voraus. Wenn dies korrekt ist, sollte das Diagramm „Restwerte vs. vorhergesagte Werte“ wie eine Wolke ohne Struktur aussehen. Also habe ich beschlossen, es grafisch darzustellen, um dies zu bestätigen.
Ich konnte sehen, dass bis zu 7 in den vorhergesagten Werten eine nicht strukturierte Form hatten, aber nach diesem Wert eine klare lineare Abstiegsform. Folglich waren die Modellannahmen schlecht, und außerdem hatte ich einen „Überlauf“ der vorhergesagten Werte, weil in Wirklichkeit Rating
kann nicht mehr als 10 sein.
In der vorherigen IMDb-Datenanalyse wurde mit einer höheren Menge von Votes
Rating
verbessert; Dies geschah jedoch in einigen Fällen und bei einer großen Anzahl von Stimmen. Dies kann zu Verzerrungen im Modell führen und dieses Rating
erzeugen Überlauf. Um dies zu überprüfen, habe ich ausgewertet, was mit demselben Modell passieren würde, indem ich Votes
entfernt habe Feld.
Das war viel besser! Es hatte eine klarere, nicht strukturierte Form ohne vorhergesagte Überlaufwerte. Die Votes
Das Feld hängt auch von der Aktivität der Rezensenten ab und ist kein Merkmal von Filmen. Daher habe ich beschlossen, dieses Feld ebenfalls zu löschen. Die Fehler nach dem Entfernen waren 1,06 bei RMSE und 0,81 bei MAE - etwas schlimmer, aber nicht so sehr, und ich zog es vor, bessere Annahmen und Funktionsauswahl zu haben als etwas bessere Leistung bei meinem Trainingsset.
Als nächstes habe ich verschiedene Modelle ausprobiert, um zu analysieren, welche besser abschneiden. Für jedes Modell habe ich die verwendet zufällige Suche Technik zur Optimierung von Hyperparameterwerten und 5-fach Kreuzvalidierung Modellvorspannung zu verhindern. In der folgenden Tabelle sind die geschätzten erhaltenen Fehler aufgeführt:
Modell | RMSE | VIEL |
---|---|---|
Neurales Netzwerk | 1,044596 | 0,795699 |
Erhöhen | 1,046639 | 0,7971921 |
Inferenzbaum | 1,05704 | 0,8054783 |
GAM | 1,0615108 | 0,8119555 |
Lineares Modell | 1,066539 | 0,8152524 |
Bestrafte lineare Reg | 1,066607 | 0,8153331 |
KNN | 1,066714 | 0,8123369 |
Bayesian Ridge | 1,068995 | 0,8148692 |
SVM | 1,073491 | 0,8092725 |
Wie Sie sehen können, verhalten sich alle Modelle ähnlich, daher habe ich einige davon verwendet, um etwas mehr Daten zu analysieren. Ich wollte den Einfluss jedes Feldes auf die Bewertung wissen. Der einfachste Weg, dies zu tun, besteht darin, die Parameter des linearen Modells zu beobachten. Um Verzerrungen zu vermeiden, hatte ich die Daten skaliert und dann das lineare Modell neu trainiert. Die Gewichte waren wie hier abgebildet.
In diesem Diagramm wird deutlich, dass zwei der wichtigsten Variablen Horror
sind und Drama
, wobei sich das erste negativ auf das Rating und das zweite positiv auswirkt. Es gibt auch andere Felder, die sich positiv auswirken - wie Animation
und Biography
- während Action
, Sci-Fi
und Year
negativ beeinflussen. Außerdem Principal_Genre
hat keine nennenswerten Auswirkungen, daher ist es wichtiger, welche Genres ein Film hat, als welches das Hauptgenre ist.
Mit dem generalisierten additiven Modell (GAM) konnte ich auch eine detailliertere Auswirkung auf die kontinuierlichen Variablen sehen, die in diesem Fall Year
waren.
Hier haben wir etwas interessanteres. Zwar war die Bewertung für neuere Filme tendenziell niedriger, der Effekt war jedoch nicht konstant. Es hat den niedrigsten Wert im Jahr 2010 und scheint sich dann zu erholen. Es wäre faszinierend herauszufinden, was nach diesem Jahr in der Filmproduktion passiert ist, das diese Veränderung hätte bewirken können.
Das beste Modell war Neuronale Netze , die den niedrigsten RMSE und MAE hatten, aber wie Sie sehen können, erreichte kein Modell die perfekte Leistung. Aber das waren keine schlechten Nachrichten in Bezug auf mein Ziel. Die verfügbaren Informationen lassen mich die Leistung etwas gut einschätzen, aber es reicht nicht aus. Es gibt einige andere Informationen, die ich von der IMDb, die Rating
erstellt, nicht erhalten konnte unterscheiden sich von der erwarteten Punktzahl basierend auf Genre
, Runtime
und Year
. Es kann Schauspielerleistung, Drehbücher, Fotografie oder viele andere Dinge sein.
Aus meiner Sicht sind diese anderen Eigenschaften entscheidend für die Auswahl der zu beobachtenden Objekte. Es ist mir egal, ob ein bestimmter Film ein Drama, eine Action oder eine Science-Fiction ist. Ich möchte, dass es etwas Besonderes gibt, etwas, das mir Spaß macht, mich etwas lernen lässt, mich über die Realität nachdenken lässt oder mich einfach nur unterhält.
Also habe ich eine neue, verfeinerte Bewertung erstellt, indem ich die IMDb-Bewertung genommen und die vorhergesagte Bewertung des besten Modells abgezogen habe. Auf diese Weise entfernte ich den Effekt von Genre
, Runtime
und Year
und diese anderen unbekannten Informationen zu behalten, die mir viel wichtiger sind.
Mal sehen, welche der 10 besten Filme nach meiner neuen Bewertung im Vergleich zur tatsächlichen IMDb-Bewertung sind:
IMDb
Titel | Genre | IMDb-Bewertung | Verfeinerte Bewertung |
---|---|---|---|
Wer singt da? | Abenteuer, Komödie, Drama | 8.9 | 1,90 |
Dipu Nummer 2 | Abenteuer, Familie | 8.9 | 3.14 |
Der Herr der Ringe: Die Rückkehr des Königs | Abenteuer, Drama, Fantasie | 8.9 | 2.67 |
Der Herr der Ringe: Die Gemeinschaft des Rings | Abenteuer, Drama, Fantasie | 8.8 | 2,55 |
Anbe Sivam | Abenteuer, Komödie, Drama | 8.8 | 2.38 |
Hababam-Klasse im Urlaub | Abenteuer, Komödie, Drama | 8.7 | 1,66 |
Der Herr der Ringe: Die zwei Türme | Abenteuer, Drama, Fantasie | 8.7 | 2.46 |
Mudras rufen | Abenteuer, Drama, Romantik | 8.7 | 2.34 |
Interstellar | Abenteuer, Drama, Sci-Fi | 8.6 | 2.83 |
Kehre in die Zukunft zurück | Abenteuer, Komödie, Sci-Fi | 8.5 | 2.32 |
Bergwerk
Titel | Genre | IMDb-Bewertung | Verfeinerte Bewertung |
---|---|---|---|
Dipu Nummer 2 | Abenteuer, Familie | 8.9 | 3.14 |
Interstellar | Abenteuer, Drama, Sci-Fi | 8.6 | 2.83 |
Der Herr der Ringe: Die Rückkehr des Königs | Abenteuer, Drama, Fantasie | 8.9 | 2.67 |
Der Herr der Ringe: Die Gemeinschaft des Rings | Abenteuer, Drama, Fantasie | 8.8 | 2,55 |
Kolah Ghermezi wiegt Khale | Abenteuer, Komödie, Familie | 8.1 | 2.49 |
Der Herr der Ringe: Die zwei Türme | Abenteuer, Drama, Fantasie | 8.7 | 2.46 |
Anbe Sivam | Abenteuer, Komödie, Drama | 8.8 | 2.38 |
Ritter des quadratischen Tisches | Abenteuer, Komödie, Fantasie | 8.2 | 2.35 |
Mudras rufen | Abenteuer, Drama, Romantik | 8.7 | 2.34 |
Kehre in die Zukunft zurück | Abenteuer, Komödie, Sci-Fi | 8.5 | 2.32 |
Wie Sie sehen, hat sich das Podium nicht radikal verändert. Dies wurde erwartet, weil der RMSE nicht so hoch war und wir hier die Spitze beobachten. Mal sehen, was mit den unteren 10 passiert ist:
IMDb
Titel | Genre | IMDb-Bewertung | Verfeinerte Bewertung |
---|---|---|---|
Es ist morgen passiert - Die große Boulevardzeitung | Komödie, Geheimnis | ein | -4,86 |
Cumali Ceber: Möge Allah dich nehmen | Komödie | ein | -4,57 |
Badang | Komödie, Fantasie | ein | -4,74 |
Yyyreek !!! Kosmische Nominierung | Komödie | 1.1 | -4,52 |
Stolzer Amerikaner | Theater | 1.1 | -5,49 |
Browncoats: Unabhängigkeitskrieg | Action, Sci-Fi, Krieg | 1.1 | -3,71 |
Das Wochenende, an dem es lebt | Komödie, Horror, Geheimnis | 1.2 | -4,53 |
Bolívar: der Held | Animation, Biografie | 1.2 | -5,34 |
Aufstieg der schwarzen Fledermaus | Action, Sci-Fi | 1.2 | -3,65 |
Hatsukoi | Theater | 1.2 | -5,38 |
Bergwerk
Titel | Genre | IMDb-Bewertung | Verfeinerte Bewertung |
---|---|---|---|
Stolzer Amerikaner | Theater | 1.1 | -5,49 |
Der Weihnachtsmann und der Eishase | Familie, Fantasie | 1.3 | -5,42 |
Hatsukoi | Theater | 1.2 | -5,38 |
Ausflug | Biographie, Drama | 1.5 | -5,35 |
Bolívar: der Held | Animation, Biografie | 1.2 | -5,34 |
Hanum & Rangga: Glaube & die Stadt | Drama, Romanze | 1.2 | -5,28 |
Nach der letzten Saison | Animation, Drama, Science-Fiction | 1.7 | -5,27 |
Barschel - Mord in Genf | Theater | 1.6 | -5,23 |
Rasshu Raifu | Theater | 1.5 | -5.08 |
Kamifusen | Theater | 1.5 | -5.08 |
Das gleiche passierte hier, aber jetzt können wir sehen, dass im verfeinerten Fall mehr Dramen auftreten als in IMDbs, was zeigt, dass einige Dramen nur als Dramen überbewertet werden könnten.
Das vielleicht interessanteste Podium sind die 10 Filme mit dem größten Unterschied zwischen der Punktzahl des IMDb-Bewertungssystems und meiner verfeinerten. Diese Filme haben mehr Gewicht auf ihre unbekannten Eigenschaften und machen den Film aufgrund seiner bekannten Funktionen viel besser (oder schlechter) als erwartet.
Titel | IMDb-Bewertung | Verfeinerte Bewertung | Unterschied |
---|---|---|---|
Kanashimi keine Beradonna | 7.4 | -0,71 | 8.11 |
Jesus Christus Superstar | 7.4 | -0,69 | 8.09 |
Pink Floyd Die Mauer | 8.1 | 0,03 | 8.06 |
Tenshi kein Tamago | 7.6 | -0,42 | 8.02 |
Jibon Theke Neya | 9.4 | 1.52 | 7.87 |
Der Tanz | 7.8 | 0,00 | 7,80 |
Der Weihnachtsmann und die drei Bären | 7.1 | -0,70 | 7,80 |
Scrooges lustige Geschichte | 7.5 | -0,24 | 7.74 |
Arschhaut | 7 | -0,74 | 7.74 |
1776 | 7.6 | -0,11 | 7.71 |
Wenn ich ein Filmregisseur wäre und einen neuen Film produzieren müsste, könnte ich nach all dieser IMDb-Datenanalyse eine bessere Vorstellung davon haben, welche Art von Film ich machen muss, um ein besseres IMDb-Ranking zu erzielen. Es wäre ein langes animiertes Biografiedrama, das ein Remake eines alten Films wäre - zum Beispiel Amadeus. Wahrscheinlich würde dies ein gutes IMDb-Ranking gewährleisten, aber ich bin mir nicht sicher, was die Gewinne angeht ...
Was denkst du über die Filme, die in dieser neuen Maßnahme rangieren? Magst du sie? Oder bevorzugen Sie die Originalen? Lass es mich in den Kommentaren unten wissen!
IMDb (die Internet Movie Database) ist eine Online-Datenbank mit Informationen zu audiovisuellen Inhalten.
Das IMDb-Bewertungssystem ist eine Möglichkeit, audiovisuelle Inhalte anhand einer Punktzahl zu ordnen, die durch die Stimmen der Webnutzer generiert wird.
Die Hauptdaten von IMDb beziehen sich auf Filme: Sie speichern Titel, Jahr, Brutto, Dauer, Genre und andere gemeinsame Merkmale.
IMDb hat sich zum Ziel gesetzt, die größte Hauptenzyklopädie audiovisueller Inhalte zu sein.