Die Mathe-Redaktion - 19.11.2018 13:24 - Registrieren/Login
Auswahl
ListenpunktHome
ListenpunktAktuell und Interessant ai
ListenpunktArtikelübersicht/-suche
ListenpunktAlle Links / Mathe-Links
ListenpunktFach- & Sachbücher
ListenpunktMitglieder / Karte
ListenpunktRegistrieren/Login
ListenpunktArbeitsgruppen
ListenpunktSchwätz / Top 15
ListenpunktWerde Mathe-Millionär!
ListenpunktFormeleditor fedgeo
Aktion im Forum
Suche
Stichwortsuche in Artikeln und Links von Matheplanet
Suchen im Forum
Suchtipps

Bücher
Englische Bücher
Software
Suchbegriffe:
Mathematik bei amazon
Naturwissenschaft & Technik
In Partnerschaft mit Amazon.de
Kontakt
Mail an Matroid
[Keine Übungsaufgaben!]
Impressum

Bitte beachten Sie unsere Nutzungsbedingungen, die Distanzierung, unsere Datenschutzerklärung und
die Forumregeln.

Sie können Mitglied werden. Mitglieder können den Matheplanet-Newsletter bestellen, der etwa alle 2 Monate erscheint.

Der Newsletter Okt. 2017

Für Mitglieder
Mathematisch für Anfänger
Wer ist Online
Aktuell sind 754 Gäste und 19 Mitglieder online.

Sie können Mitglied werden:
Klick hier.

Über Matheplanet
 
Zum letzten Themenfilter: Themenfilter:
Matroids Matheplanet Forum Index
Moderiert von Kleine_Meerjungfrau Monkfish epsilonkugel
Mathematik » Stochastik und Statistik » Funktioniert die Benfordverteilung auch für Ziffern jenseits der ersten?
Druckversion
Druckversion
Antworten
Antworten
Autor
Kein bestimmter Bereich Funktioniert die Benfordverteilung auch für Ziffern jenseits der ersten?
Zobelhobel
Junior Letzter Besuch: im letzten Monat
Dabei seit: 22.10.2018
Mitteilungen: 6
Aus:
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Themenstart: 2018-10-22 21:01


Hallo,

mich würde interessieren, ob die Benfordverteilung auch dann etwas über die Zufälligkeit der Verteilung einer Zahlenreihe aussagt, wenn die Abweichung der ersten Ziffer vom Erwartungswert innerhalb des Erwartbaren liegt, die Ziffern danach aber nicht.


Im Voraus vielen Dank,

Grüße!



  Profil  Quote  Link auf diesen Beitrag Link
Kitaktus
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.09.2008
Mitteilungen: 5522
Aus: Niedersachsen
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.1, eingetragen 2018-10-23 13:44


Ja, es gibt auch eine Benfordverteilung für die zweite Ziffer.

Die Häufigkeiten sind
Tabelle
Ziffer Häufigkeit
   0   11.9679
   1   11.3890
   2   10.8821
   3   10.4330
   4   10.0308
   5    9.6677
   6    9.3375
   7    9.0352
   8    8.7570
   9    8.4997

Wie man sieht sind die Häufigkeitsunterschiede viel geringer als bei der ersten Ziffer. Die "9" ist nur 29% seltener als die "0".



  Profil  Quote  Link auf diesen Beitrag Link
Zobelhobel
Junior Letzter Besuch: im letzten Monat
Dabei seit: 22.10.2018
Mitteilungen: 6
Aus:
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.2, vom Themenstarter, eingetragen 2018-10-24 20:58


Danke für die Antwort. Ich hab sogar die Verteilung bis zur vierten Stelle.


Die Sache ist, hier gibt es eine Bendfordanalyse der Ausgaben des Bundes in den letzten Jahren.

Während die erste Ziffer keinerlei Auffälligkeiten zeigt sind die 2.-4. Stellen ziemlich wild und weichen teilweise dramatisch von den Erwartungswerten ab. Das Chi-Quadrat liegt bei einigen Ziffern über dem Mehrfachen dessen, was noch als "natürlich" durchginge.

Heißt das nun konkret, dass die Bundesregierung bei ihren Zahlen trickst und effektiv Bilanzbetrug begeht, oder ist das kein Zeichen dafür, weil ja die erste Ziffer bei allen Datensätzen im Normalbereich liegt?



  Profil  Quote  Link auf diesen Beitrag Link
Kitaktus
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.09.2008
Mitteilungen: 5522
Aus: Niedersachsen
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.3, eingetragen 2018-10-25 11:56


Meine Statistikkenntnisse sind zu gering, um das Vorgehen auf die Schnelle bewerten zu können und für den langsamen Weg fehlt mir die Zeit.
So richtig überzeugend kompetent wirkt der Autor des Blogs auf mich aber auch nicht.

Ich fände es wichtig, sich die tatsächlichen Verteilungen anzuschauen, das erscheint mir erhellender, als allein anhand der Chi-Quadrat-Werte herum zu raten.

In Frage zu stellen wäre auch die These, dass die Ziffern überhaupt einer Benfordverteilung (was dann ab der dritten, vierten Ziffer nicht mehr weit von der Gleichverteilung entfernt ist) unterliegen.
Vorstellbar ist z.B., dass Paketbeauftragungen eher 'gerade' Zahlen sind (z.B. 500.000€) und Nullen (und Fünfen) überdurchschnittlich oft auftreten, oder das Budgets eher "gerade" Zahlen sind und man bei der Ausschöpfung des Budgets häufiger knapp darunter bleibt, was dann große Zahlen (und ggf. Vieren) etwas bevorzugt.

Also ehe man irgendwelche Verschwörungstheorien in die Welt setzt, wäre da schon wesentlich mehr Analysearbeit notwendig.



  Profil  Quote  Link auf diesen Beitrag Link
Zobelhobel
Junior Letzter Besuch: im letzten Monat
Dabei seit: 22.10.2018
Mitteilungen: 6
Aus:
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.4, vom Themenstarter, eingetragen 2018-10-25 12:54


> So richtig überzeugend kompetent wirkt der Autor des Blogs auf mich aber auch nicht.

Das steht glaube ich auch so im Blog - und daher auch die Nachfrage bei Mathecracks:-)


> Ich fände es wichtig, sich die tatsächlichen Verteilungen anzuschauen, das erscheint mir erhellender, als allein anhand der Chi-Quadrat-Werte herum zu raten.

Was müsste man da dann anderes erkennen, was nicht auch der Chi-Quadrat Wert leistet?


> In Frage zu stellen wäre auch die These, dass die Ziffern überhaupt einer Benfordverteilung unterliegen.

Na, das müssen sie ja. Der Benfordtest wird durch das Finanzamt bei Bilanzzahlen angewandt. Die Ausgabenliste des Bundes ist eine Bilanz, nur eben keine nach der doppelten Buchführung, sondern eine kameralistische.

> Vorstellbar ist z.B., dass Paketbeauftragungen eher 'gerade' Zahlen sind (z.B. 500.000€) und Nullen (und Fünfen) überdurchschnittlich oft auftreten, oder das Budgets eher "gerade" Zahlen sind und man bei der Ausschöpfung des Budgets häufiger knapp darunter bleibt, was dann große Zahlen (und ggf. Vieren) etwas bevorzugt.

Das gilt nur für Planzahlen. Die Ausgaben des Bundes sind aber Effektivzahlen, sprich, sie bestehen aus Geldbeträgen, hinter denen Rechnungen für Produkte und Dienstleistungen stehen.

Da der Autor die glatten Zahlen sogar rausgenommen hat und dadurch noch stärker abweichende Zahlen rausbekommen hat ist eigentlich nur ein Zeichen dafür, dass die realen Geldbeträge manipuliert waren und nachträglich irgendwelche extrenen Planbudgets in die Rechnung aufgenommen wurden.

Das wäre zumindest ein Verdacht, der die Ergebnisse erklären würde.


>  Also ehe man irgendwelche Verschwörungstheorien in die Welt setzt, wäre da schon wesentlich mehr Analysearbeit notwendig.

Na, was machen wir hier denn gerade? Ist es nicht gerade die Stärke von Mathematik und Statistik, dass man "Verschwörungstheorien" damit auf ihre Plausibilität abtesten kann?

Ich finde den Ansatz über die Benfordverteilung daher ziemlich gut. Die Frage ist nur eben: Zählen die Ziffern 2-4 oder zählen sie nicht.

Egal wie die Antwort auf die Frage lautet, sie würde der Verschwörungstheorie ein Ende setzen:

- Bei NEIN würde es die Bundesregierung entlasten, da keine Manipulation vorliegt.
- Bei JA würde es bedeuten, dass die tatsächlichen Budgetzahlen verschleiert werden und uns Blödsinn aufgetischt wird.

So aber ohne diese Information müssen wir weiter und weiter im verschwörungstheoretischen Bereich bewegen...



  Profil  Quote  Link auf diesen Beitrag Link
Kitaktus
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.09.2008
Mitteilungen: 5522
Aus: Niedersachsen
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.5, eingetragen 2018-10-25 18:42


Ich habe das ganze mal durchexerziert für die dritte Stelle im Haushaltsplan für 2017
Tabelle
        0         1         2         3         4         5         6         7         8         9
IST   582.0000  507.0000  508.0000  460.0000  488.0000  551.0000  492.0000  487.0000  461.0000  464.0000
SOLL  500.6407  498.6320  496.6460  494.6821  492.7400  490.8192  488.9193  487.0399  485.1805  483.3409
CHI2   13.2217    0.1404    0.2596    2.4316    0.0456    7.3789    0.0194    0.0000    1.2051    0.7739

Angegeben ist die Ziffer, die Häufigkeit, die Soll-Häufigkeit nach Benford und der Beitrag zu Chi2-Summe. Die Summe ist mit 23.7 auffällig hoch, aber der Hauptbeitrag stammt von Nullen und Fünfen, die zu häufig auftreten.


Jetzt schränke ich das ganze mal ein auf Zahlen, die außer Nullen am Ende mindestens fünf Ziffern haben
nameDerSprache Tabelle
        0         1         2         3         4         5         6         7         8         9
IST   473.0000  495.0000  495.0000  440.0000  469.0000  511.0000  480.0000  469.0000  447.0000  449.0000
SOLL  481.2365  479.3056  477.3966  475.5088  473.6420  471.7957  469.9694  468.1628  466.3755  464.6071
CHI2    0.1410    0.5139    0.6491    2.6516    0.0455    3.2577    0.2141    0.0015    0.8050    0.5243

und schon ist das Ergebnis unauffällig.
Ursache für die gehäufte Anzahl an Nullen und Fünfen sind genau die Fälle, die dem Autor aufgefallen sind -- glatte Zahlen wie die 12.5 Millionen für den Deutsch-Tschechischen Zukunftsfond.
Der Autor hat versucht, solche glatten Zahlen herauszufiltern. Ich bekomme es allerdings nicht hin, seine Zahlen zu reproduzieren, von daher kann ich nicht sagen, warum genau er das nicht gut hinbekommen hat.
Es könnte z.B. sein, dass er _zu viele_ Nullen eliminiert.



  Profil  Quote  Link auf diesen Beitrag Link
Zobelhobel
Junior Letzter Besuch: im letzten Monat
Dabei seit: 22.10.2018
Mitteilungen: 6
Aus:
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.6, vom Themenstarter, eingetragen 2018-10-25 20:21


> Angegeben ist die Ziffer, die Häufigkeit, die Soll-Häufigkeit nach Benford und der Beitrag zu Chi2-Summe. Die Summe ist mit 23.7 auffällig hoch, aber der Hauptbeitrag stammt von Nullen und Fünfen, die zu häufig auftreten.

Wenn ich die Relevanz des Benfordtests für Bilanzen richtig verstehe, dann ist es genau das - also die Auffälligkeit zu vieler Nullen bei den hinteren Ziffern - mit das entscheidende Kriterium für Bilanzbetrug.


>  Jetzt schränke ich das ganze mal ein auf Zahlen, die außer Nullen am Ende mindestens fünf Ziffern haben

Das heißt, du hast alle glatten Zahlen mit mehreren Nullen rausgenommen, den Chi-Quadrat Test durchgeführt und der hat dann an der dritten Ziffer unauffällige Werte ausgespuckt?

Kannst bei diesem gefilterten Datensatz vielleicht auch die anderen Ziffern nochmal auf Auffälligkeiten prüfen?

Ohne Manipulation müsste C-Q-Wert mit dem Herausnehmen der glatten Zahlen dann nämlich überall im Rahmen liegen. Laut dem Blogartikel - und das war der zentrale Kritikpunkt darin - war es in mehreren Fällen aber so, dass die Werte für die erste Ziffer erst nach der Bereinigung des Datensatzes hochging.

Denn...

A) Würde sich diese Veränderung ins Abnormale in deiner Rechnung bestätigen, dann wäre das in der Tat ein Hinweis, dass man die glatten Zahlen für externe Budgets dazu verwendet, um die Ausgaben insgesamt so hinzubiegen, dass sie den Benfordtest an der ersten Ziffer bestehen.

Alternativ..

B) Kommen bei dir dagegen für Zufall erwartbare C-Q-Werte raus, dann hat der Autor irgendwo Mist gebaut und es ist tatsächlich so, dass die Benfordverteilung der Bundesausgaben erst deswegen Schlagseite bekommt, weil irgendwelche Pauschalen mit reingerechnet werden, die im engeren Sinn nicht dazu gehören.



  Profil  Quote  Link auf diesen Beitrag Link
Kitaktus
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.09.2008
Mitteilungen: 5522
Aus: Niedersachsen
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.7, eingetragen 2018-10-26 08:40


2018-10-25 20:21 - Zobelhobel in Beitrag No. 6 schreibt:
A) Würde sich diese Veränderung ins Abnormale in deiner Rechnung bestätigen, dann wäre das in der Tat ein Hinweis, dass man die glatten Zahlen für externe Budgets dazu verwendet, um die Ausgaben insgesamt so hinzubiegen, dass sie den Benfordtest an der ersten Ziffer bestehen.
Das ist abstrus. Dazu müsste man hellsehen können.
Wenn im Haushalts_plan_ 12.5 Millionen für den Deutsch-Tschechischen Zukunftsfond vorgesehen sind, dann werden die im Normalfall auch so überwiesen. Wie soll man mit dieser _Plan_zahl ausgleichen, dass bei den _Ist_zahlen am Jahresende irgendeine Ungereimtheit auftritt.



  Profil  Quote  Link auf diesen Beitrag Link
DerEinfaeltige
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.02.2015
Mitteilungen: 1868
Aus:
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.8, eingetragen 2018-10-26 10:01


Hier noch einmal die Daten für 2017 analysiert in verschiedenen Basen:

Die Tupel liest man wie folgt:
(Stelle,Chi^2,Datenmenge)

Base2:
[(1, 0.0, 5000), (2, 0.963, 5000), (3, 0.145, 5000), (4, 7.266, 5000), (5, 0.075, 5000), (6, 0.548, 5000), (7, 0.93, 5000), (8, 0.04, 5000), (9, 1.126, 5000), (10, 0.638, 5000), (11, 0.292, 5000), (12, 1.252, 4998), (13, 0.054, 4992), (14, 1.31, 4983), (15, 2.097, 4972), (16, 0.193, 4961), (17, 0.116, 4946), (18, 0.013, 4916), (19, 0.128, 4869)]

Base3:
[(1, 0.075, 5000), (2, 1.736, 5000), (3, 0.827, 5000), (4, 1.74, 5000), (5, 0.985, 5000), (6, 6.343, 5000), (7, 0.125, 5000), (8, 0.228, 4998), (9, 1.127, 4985)]

Base5:
[(1, 0.0, 5000), (2, 0.963, 5000), (3, 0.145, 5000), (4, 7.266, 5000), (5, 0.075, 5000), (6, 0.548, 5000), (7, 0.93, 5000)]

Base7:
[(1, 1.87, 5000), (2, 4.893, 5000), (3, 5.553, 5000), (4, 14.981, 5000), (5, 1.504, 4997), (6, 1.675, 4972)]

Base10:
[(1, 8.042, 5000), (2, 7.836, 5000), (3, 23.971, 5000), (4, 60.61, 5000), (5, 120.568, 4980), (6, 165.093, 4926)]

Base11:
[(1, 3.077, 5000), (2, 8.026, 5000), (3, 9.679, 5000), (4, 5.323, 4999), (5, 13.03, 4974), (6, 11.41, 4899)]

Base13:
[(1, 9.608, 5000), (2, 12.623, 5000), (3, 9.767, 5000), (4, 9.122, 4998), (5, 10.176, 4966), (6, 8.52, 4835)]


Man erkennt deutlich, dass die Ausreißer durch Rundungen auf die dritte Stelle im Dezimalsystem erzeugt werden. Dadurch werden die 4. Stellen im Binär- und Pentalsystem extrem verzerrt, während alle anderen Stellen unauffällig, bzw. weit von kritischen Größen entfernt sind!

Auf jegliche Auswahl/Bereinigung der Daten wurde hier verzichtet!


-----------------
Why waste time learning when ignorance is instantaneous?
- Bill Watterson -



  Profil  Quote  Link auf diesen Beitrag Link
Kitaktus
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.09.2008
Mitteilungen: 5522
Aus: Niedersachsen
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.9, eingetragen 2018-10-26 10:16


Und jetzt noch ein paar Zahlen.

Vorgehensweise:
Sei N die Nummer der Ziffer, die untersucht werden soll. Zugelassen sind nur Zahlen, die außer Nullen am Ende mindestens N+2 Ziffern haben. Das führt zu folgenden Ergebnissen.
Außer einer leichten Häufung von Ziffern 7 und 9 in der vierten Stelle, sehe ich da keine Auffälligkeiten.

An der Stelle stellt sich mir die Frage, warum der Autor als Testgröße die Werte der Chi2-Verteilung mit 4 bzw. 5 Freiheitsgraden wählt. Wieso 4 (bei der ersten Ziffer) und 5 (bei den anderen Ziffern) und nicht 8 und 9 (lt. Wikipedia: Anzahl der Kategorien minus 1).
Bei 9 Freiheitsgraden ist eine Summe von 14.8 auch nicht mehr auffällig (Signifikanzniveau von 91%).

Fazit:
Die Darstellung im verlinkten Artikel weisen erhebliche systematische Schwächen auf.
Das fängt damit an, dass ich nicht auf die gleichen Werte komme, wenn ich die vermeintlich gleichen Rechnungen durchführe (z.B. Chi2-Summe von 8.0424 für die erste Ziffer unter Berücksichtigung aller 5000 Datensätze mit Eintragungen ungleich 0).
Das kann natürlich auch mein Fehler sein.
Hauptproblem ist die reine Angabe der Chi2-Summe, aus der man nicht sehen kann, welche Zahlen zu häufig / zu selten sind. Man kann auch nicht sehen, woher die Abweichungen in den Ergebnissen kommen könnten. Unterscheiden sich schon die Ziffernzählungen oder entsteht der Unterschied erst in der weiteren Rechnung?

Ich habe leider das Gefühl, dass es dem Autor gar nicht so sehr darum geht, sauber zu arbeiten, sondern darum vermeintlich spektakuläre Ergebnisse zu produzieren.

Ein Beispiel sind seine Ausführungen zur Bayrischen Landtagswahl.
Die Annahme die erste Ziffer der Parteienergebnisse würde der Benfordverteilung unterliegen ist einfach Unsinn.
Das liegt daran, dass Wahlbezirke und -kreise keine zufällige Größe haben, sondern auf eine möglichst einheitliche Größe zugeschnitten werden.
Im Prinzip ist ihm das auch klar, aber statt zu schreiben -- der Benford-Ansatz ist hier einfach nicht zielführend -- schreibt er nur, dass man "Vorsicht walten lassen" solle.
Mit https://de.wikipedia.org/wiki/Gerrymandering
-- wie er behauptet hat das allerdings überhaupt nichts zu tun.
Die Größe(!) von Wahlkreisen ist gesetzlich geregelt (keine Abweichung von mehr als x% vom Mittelwert ...).
Die Größe von Wahlbezirken hat überhaupt keinen Einfluss auf die Zusammensetzung des Parlaments und unterliegt nur pragmatischen Erwägungen (kurze Wege zum Wahlbüro + nicht zu klein (weil man sonst zu viele Wahlhelfer braucht) + nicht zu groß (weil die Wahlhelfer sonst nicht fertig werden)).
Hier Geheimabsprachen "in den Hinterzimmern der Politik" zu postulieren zeugt schon von Paranoia.
Tabelle
N=1 , Anzahl der Datensätze = 4904
 
    0.0000 1446.0000  904.0000  641.0000  450.0000  400.0000  329.0000  261.0000  259.0000  214.0000
    0.0000 1476.2511  863.5515  612.6996  475.2467  388.3048  328.3071  284.3925  250.8520  224.3947
    0.0000    0.6199    1.8946    1.3072    1.3412    0.3522    0.0015    1.9241    0.2647    0.4815
 
Chi2-Summe =    8.1869
 
N=2 , Anzahl der Datensätze = 4827
 
    0         1         2         3         4         5         6         7         8         9
  595.0000  545.0000  528.0000  507.0000  493.0000  458.0000  439.0000  427.0000  402.0000  433.0000
  577.6918  549.7475  525.2814  503.5988  484.1877  466.6610  450.7198  436.1291  422.7006  410.2822
    0.5186    0.0410    0.0141    0.0230    0.1604    0.1607    0.3047    0.1911    1.0138    1.2579
 
Chi2-Summe =    3.6852
 
 
N=3 , Anzahl der Datensätze = 4728
 
    0         1         2         3         4         5         6         7         8         9
  473.0000  495.0000  495.0000  440.0000  469.0000  511.0000  480.0000  469.0000  447.0000  449.0000
  481.2365  479.3056  477.3966  475.5088  473.6420  471.7957  469.9694  468.1628  466.3755  464.6071
    0.1410    0.5139    0.6491    2.6516    0.0455    3.2577    0.2141    0.0015    0.8050    0.5243
 
Chi2-Summe =    8.8036
 
 
N=4 , Anzahl der Datensätze = 4576
 
    0         1         2         3         4         5         6         7         8         9
  454.0000  470.0000  470.0000  422.0000  443.0000  431.0000  443.0000  505.0000  442.0000  496.0000
  458.4060  458.2264  458.0469  457.8677  457.6886  457.5098  457.3311  457.1527  456.9744  456.7963
    0.0423    0.3025    0.3119    2.8097    0.4714    1.5361    0.4491    5.0079    0.4907    3.3646
 
Chi2-Summe =   14.7862
 
 
N=5 , Anzahl der Datensätze = 4292
 
    0         1         2         3         4         5         6         7         8         9
  441.0000  452.0000  403.0000  456.0000  415.0000  445.0000  412.0000  414.0000  422.0000  432.0000
  429.2755  429.2587  429.2419  429.2252  429.2084  429.1916  429.1748  429.1581  429.1413  429.1245
    0.3202    1.2048    1.6043    1.6702    0.4703    0.5823    0.6873    0.5354    0.1188    0.0193
 
Chi2-Summe =    7.2129


[Die Antwort wurde nach Beitrag No.7 begonnen.]



  Profil  Quote  Link auf diesen Beitrag Link
Kitaktus
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.09.2008
Mitteilungen: 5522
Aus: Niedersachsen
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.10, eingetragen 2018-10-26 11:28


Jetzt habe ich mir noch den zweiten Artikel zur Bayern-Wahl angeschaut und kann sagen, das ist einfach nur Zeitverschwendung.

Wenn man 91 Wahlkreise (Regionaleinheiten) untersucht, die alle zwischen 81 und 131 Tausend Wahlberechtigte haben, was zu 54 bis 97 Tausend gültigen Erststimmen führt und der Erststimmenanteil der CSU bis auf wenige Ausnahmen zwischen 26 und 50% liegt, dann ist es absolut nicht überraschend, dass als erste Ziffer in den Wahlkreisergebnissen nur die Werte 1 bis 3 auftauchen (10774 bis 39420 Stimmen).
Das diese Werte nicht der Benford-Verteilung unterliegen, ist eigentlich für jeden offensichtlich.
Der Autor hingegen liest hieraus Hinweise auf Manipulationen heraus.

Ich habe den Verdacht, dass ihm eigentlich klar ist, dass er Unsinn schreibt. Der Satz: "Falls die Ergebnisse stimmen, robust genug sind und der Benfordtest das geeignete Mittel für diese Art der Analyse ist, dann kann man schlussfolgern, dass es hoch hergegangen sein muss beim Auszählen." klingt für mich sehr nach Hintertür.



  Profil  Quote  Link auf diesen Beitrag Link
Zobelhobel
Junior Letzter Besuch: im letzten Monat
Dabei seit: 22.10.2018
Mitteilungen: 6
Aus:
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.11, vom Themenstarter, eingetragen 2018-10-26 16:03


Danke @alle für die gemacht Mühe..

> Wenn im Haushalts_plan_ 12.5 Millionen für den Deutsch-Tschechischen Zukunftsfond vorgesehen sind, dann werden die im Normalfall auch so überwiesen. Wie soll man mit dieser _Plan_zahl ausgleichen, dass bei den _Ist_zahlen am Jahresende irgendeine Ungereimtheit auftritt.

Die Frage ist eben, wann die 12,5 Mio feststehen. Vor den anderen Zahlen oder danach? Ich kenne mich in den Tiefen der Regierungsfinanzen nicht aus, aber es ist eigentlich normal, dass selbst Planbudgets sich noch kurz vor Ladenschluss ändern können und eine andere bilanzielle Zurechnung bekommen.


@DerEinfaeltige: Wie kommst du auf die Stellen jenseits der vierten? Und ist es nicht normal, dass in den Zahlensystemen unter der zehn die Chi^2 Werte zwangsläufig kleiner ausfallen, weil ganz einfach weniger Zahlen für die Ziffern bereitstehen, es also schon sehr extrem zugehen muss, dass sehr viele Nullen mehr vorhanden sind als Einsen.


> An der Stelle stellt sich mir die Frage, warum der Autor als Testgröße die Werte der Chi2-Verteilung mit 4 bzw. 5 Freiheitsgraden wählt. Wieso 4 (bei der ersten Ziffer) und 5 (bei den anderen Ziffern) und nicht 8 und 9 (lt. Wikipedia: Anzahl der Kategorien minus 1).
Bei 9 Freiheitsgraden ist eine Summe von 14.8 auch nicht mehr auffällig (Signifikanzniveau von 91%).

Naja, selbst wenn man hohe Freiheitsgrade wählt und ein anderes Signifikanzniveau, der von dir weiter oben ermittelte Chi^2 Wert von >23 ist noch immer viel zu hoch.


@Kitaktus: Nochmal die Frage (falls ich das nicht übersehen habe): Was bekommst du denn raus für die erste Ziffer beim 2017er Datensatz, wenn du die glatten Zahlen rausstreichst? Bitte nicht ablenken lassen von der Landtagswahlding, ich halte das auch für zweifelhaft. Mir geht es nur um die Ausgaben des Bundes und eben die Frage, was an den hinteren Ziffern los ist.



  Profil  Quote  Link auf diesen Beitrag Link
DerEinfaeltige
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.02.2015
Mitteilungen: 1868
Aus:
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.12, eingetragen 2018-10-26 16:28

\(\begingroup\)
2018-10-26 16:03 - Zobelhobel in Beitrag No. 11 schreibt:

@DerEinfaeltige: Wie kommst du auf die Stellen jenseits der vierten? Und ist es nicht normal, dass in den Zahlensystemen unter der zehn die Chi^2 Werte zwangsläufig kleiner ausfallen, weil ganz einfach weniger Zahlen für die Ziffern bereitstehen, es also schon sehr extrem zugehen muss, dass sehr viele Nullen mehr vorhanden sind als Einsen.



Die Frage nach "den Stellen jenseits der Vierten" verstehe ich nicht.

Die kritischen Werte für Chi^2 sind natürlich von der Anzahl der Freiheitsgrade abhängig und die Anzahl der Freiheitsgrade zur Basis $B$ ist $B-2$ für die führende und $B-1$ für alle folgenden Ziffern.
In der Beziehung macht der Autor auch systematische Fehler, da er zu wenige Freiheitsgrade zu verwenden scheint.


-----------------
Why waste time learning when ignorance is instantaneous?
- Bill Watterson -
\(\endgroup\)


  Profil  Quote  Link auf diesen Beitrag Link
Kitaktus
Senior Letzter Besuch: in der letzten Woche
Dabei seit: 11.09.2008
Mitteilungen: 5522
Aus: Niedersachsen
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.13, eingetragen 2018-10-26 18:57


2018-10-26 16:03 - Zobelhobel in Beitrag No. 11 schreibt:
@Kitaktus: Nochmal die Frage (falls ich das nicht übersehen habe): Was bekommst du denn raus für die erste Ziffer beim 2017er Datensatz, wenn du die glatten Zahlen rausstreichst?
Das hast Du übersehen. 8.0424 wenn man alle Zahlen nimmt, so wie DerEinfältige auch und 8.1869 wenn ich nur die Zahlen mit mindestens drei Ziffern (außer Nullen am Ende) nehme.
Warum rechnest Du es nicht selbst nach?



  Profil  Quote  Link auf diesen Beitrag Link
Zobelhobel
Junior Letzter Besuch: im letzten Monat
Dabei seit: 22.10.2018
Mitteilungen: 6
Aus:
Zum letzten BeitragZum nächsten BeitragZum vorigen BeitragZum erstem Beitrag  Beitrag No.14, vom Themenstarter, eingetragen 2018-10-26 21:44


@DerEinfältige: Ok, ich hab bei deiner Tabelle erst etwas falsch verstanden.


>  Warum rechnest Du es nicht selbst nach?

Weil ich eine Mathe/Statistik Null bin vielleicht? Sonst wäre ich erst gar nicht hierher gekommen.


Danke trotzdem für die Mühe.



  Profil  Quote  Link auf diesen Beitrag Link
Zobelhobel hat die Antworten auf ihre/seine Frage gesehen.
Neues Thema [Neues Thema] Antworten [Antworten]    Druckversion [Druckversion]

 


Wechsel in ein anderes Forum:
 Suchen    
 
All logos and trademarks in this site are property of their respective owner. The comments are property of their posters, all the rest © 2001-2018 by Matroids Matheplanet
This web site was made with PHP-Nuke, a web portal system written in PHP. PHP-Nuke is Free Software released under the GNU/GPL license.
Ich distanziere mich von rechtswidrigen oder anstößigen Inhalten, die sich trotz aufmerksamer Prüfung hinter hier verwendeten Links verbergen mögen.
Lesen Sie die Nutzungsbedingungen, die Distanzierung, die Datenschutzerklärung und das Impressum.
[Seitenanfang]