1961 · Cited by 1 — Nu’ is entropie en aannemelijkheid van een waarschijnlijkheidsverdeling iets anders clan entropie en waarschijnlijkheid van een physische toestand.
175 KB – 6 Pages
PAGE – 1 ============
ALGEMEEN GED EEL 1 i:. Selectuur Mees,t aannemelijke verdelingen I. lnleiding In het kader van zijn studies over informatietheorie op het gebied der telecommupicatie heeft Sh an non [1] enige jaren geleden de exponentiele en de normale verdeling als de meest aannemelijke gevonden: door de entropie te maximaliseren onder verschillende bijvoorwaarden. Van deze methode volgt hieronder een overzicht. Er zij op gewezen
PAGE – 2 ============
Dater niettemin analogie kan zijn tot in de formules, leert een voorbeeld uit de kinetische gastheorie ((4], (5] of (6]), hier vereenvoudigd weergegeven. Men heeft een verzameling van N objecten (moleculen b.v.), verdeeld over r hokjes. Aangenomen wordt dat de kans voor een object om in hokje i te zitten, 1/r is voor alle i = I, , r. De waarschijnlijkheid van een toestand, bepaald door ni objecten in hokje i (i = I, , r; Eni = N), is Voor de waarschijnlijkste toestand is dus W, of log W, maximaal. Noemen : we Ji= ni/N de fractie der objecten in hokje i en vervangen we voor grote waarden van n volgens Stirling log n! door -n + (n + ½) log n + ½ log 2n, en dit door -n + n log n, clan krijgen we log W -N EJi logJi. Het gaat er dus om -EJi log Ji maximaal te maken. Men vergelijke hiermee de uitdrukking -Epi log Pi voor de entropie bij Sh an non. Eigenschappen van Sh an non s entropiebegrip vindt men b.v. handeld in een betrekkelijk eenvoudig boekje van Y a g 1 o m en Y a g l o m (7] en in [2]. De zin der entropie kan als volgt plausibel worden gemaakt. Willen we de onbepaaldheid van het resultaat van een experiment met n even waarschijnlijke uitkomsten door een functie J (n) uitdrukken, dan moet J (1) = o zijn (dit betekent dat een zekere uitkomst onbepaaldheid o heeft). Als verder A en B twee onafhankelijke experimenten zijn met m resp. n even waarschijnlijke uitkomsten, dan heeft het experiment AB (combinatie van A met B) mn even waarschijnlijke uitkomsten; we willen nu dat de paaldheid van AB gelijk is aan de som van de onbepaaldheden van A en B: J (mn) = J (m) + J (n). Hieraan en aanJ (1) = o voldoetJ (n) = log n. Kiezen we dus als onbepaald-n heid log n, dan is log n = n (-1/n log 1/n) = -E 1/n log 1/n; hierin is 1/n i=l de kans van elk der uitkomsten van het experiment. Algemener: hebben den uitkomsten ongelijke kansen p11 ŁŁŁ , Pn, dan nemen we als onbepaaldheid n -E Pi log PiŁ Dit is de entropie volgens S h a n n o n. Men kan aantonen, i=l dat de grootste onbepaaldheid verkregen wordt als alle Pi= 1/n zijn, hetgeen ook intuitief te verwachten was. Voor twee onafhankelijke experimenten A en B geldt weer: onbepaaldheid van AB= onbepaaldheid van A+ onbepaaldheid van B, want Statistica Neerlandica 15 (1961) nr 2. 148
PAGE – 3 ============
-EEp;q1 log (p;q1) = -Ep; log P; -Eq1 log q;, Van een experiment met een (zekere) uitkomst is de onbepaaldheid -r. log r = o. Men kan vragen, of ook een andere definitie der entropie iets bruikbaars zou opleveren. In [2] wordt echter bewezen, dat als men uitgaat van bepaalde aan de entropie te stellen eisen, alleen de functie -c Ep; log P; (c een constante) hieraan voldoet. f III. Enige eenvoudige verdelingen In deze paragraaf worden enige eenvoudige verdelingen, bekend uit de statistiek, teruggevonden door (zoals reeds door Sh an non gedaan is) de entropie maximaal te maken bij gegeven nevenvoorwaarden. Hierbij wordt een methode uit de variatierekening toegepast; men vindt deze b.v. in [8]. Het probleem is om in J f (x, y) dx, waarinf een bekende functie van x en y, maar y een nog onbepaalde functie van x is, y = y (x) z6 te kiezen dat de integraal maximaal wordt; eventueel onder de nevenvoorwaarden Jg; (x, y) dx = a; (i = r, , m), waarbij steeds dezelfde y = y (x) en hetzelfde integratie-interval gebruikt worden. In ons geval is f (x, y) = -y logy; er is minstens een bijvoorwaarde, nl. J ydx = r, want y = p (x) is een kansdichtheid. A. Een bijvoorwaarde: kanssom = r Derhalve is het probleem: bepaal het maximum van -J p (x) log p (x) dx, onder de bijvoorwaarde Sp (x) dx = r De multiplicatormethode van Lagrange geeft als noodzakelijke waarde voor de oplossing van dit probleem, dat de partiele afgeleide naar p (x) van de integrand van J {-p (x) log p (x) + J.p (x)} dx gelijk o is. Dus: -logp (x)-r +A= o of p (x) = e.\-1. De Lagrange-multiplicator ,1, wordt vervolgens bepaald uit de waarde J p (x) dx = r. Dit kan hier slechts, als tussen eindige grenzen wordt gei:ntegreerd, zodat begrensdheid van het interval een noodzakelijke voorwaarde lS. Het resultaat is de homogene (of rechthoekige) verdeling. Deze treedt dus Statistica Neerlandica 15 ( 1961) nr 2. 149
PAGE – 4 ============
op als van een kansverdeling ( uiteraard met kanssom = 1) niets anders is gegeven clan de grenzen van het interval; zulks ligt ook geheel in de lijn der verwachtingen. B. Twee bijvoorwaarden: kanssom = 1 en gemiddelde = m Nu moet het maximum bepaald worden van -J p (x) log p (x) dx, onder de bijvoorwaarden J p (x) dx = 1 en J xp (x) dx = m De multiplicatormethode leidt nu tot de vergelijking: -log p (x)-1 +A+ µx = o of p (x) = e:\-i. eµ,x. De beide L a g r a n g e -multiplicatoren volgen weer uit de den. De berekening gaat het gemakkelijkst als een der grenzen van het interval oo of -oo is en de andere eindig. Het resultaat is de exponentiele verdeling. Op het interval (-oo, oo) bestaat geen oplossing. Bij een begrensd interval kan zonder wezenlijke beperking o < x < 1 genomen worden. Men vindt clan dat µ o.a. aan een transcendente vergelijking: µ = (1 + mµ) (1 -e-/1-) moet voldoen. Een nadere beschouwing leert: µ = o clan en slechts clan als m = ½; dit geeft weer de homogene verdeling uit A. Voor m -:/c ½ is er ook precies een oplossing µ-:/co, die voldoet; also< m < ½, clan µ < o; als ½ < m < 1, clan µ > o. C. Twee bijvoorwaarden: kanssom =, 1 en 2e moment t.o.v. c = a2 Nu luidt het probleem: maximaliseer -J p (x) log p (x) dx, onder de bijvoorwaarden J p (x) dx = 1 en J (x -c)2p (x) dx = a2Ł Ł Er moet nu voldaan zijn aan: -log p (x) -l + A+µ (x –c)2 = o of p (x) = e:\-i+µ,(x-c)’. De Lag rang e-multiplicatoren volgen uit de bijvoorwaarden. Voor een aan beide zijden onbegrensd interval vindt men de normale verdeling. Het gemiddelde blijkt gelijk aan c te zijn, m.a.w. de meest aannemelijke deling groepeert de waarnemingen om c als gemiddelde. Dit gemiddelde m = c is echter niet a priori gegeven. Men kan aantonen, dat bij toevoeging ; van een derde bijvoorwaarde: gemiddelde m = c, de Lag rang e-multipli-cator die hierop betrekking heeft, nul moet zijn, m.a.w. de bijvoorwaarde is al vervuld. De normale verdeling treedt dus op bij een aan beide zijden onbegrensd interval onder a priori gegeven variantie. Heeft het interval een of twee eindige Statistica Neerlandica 15 (r96r) nr 2.
PAGE – 5 ============
grenzen, clan treedt een verdeling met bovengenoemde p (x) op, waarbij de parameterµ echter moet voldoen aan een transcendente vergelijking waarop we niet ingaan. Tenzij de ene grens ± oo en de andere juist c is; dit geeft, afgezien van een factor 2, een helft van de normale verdeling. Een bijzonder geval van C is C’. Twee bijvoorwaarden: kanssom = I en ze moment t.o.v. o = a2. Hier is nl. c = o. Bij een aan weerszijden onbegrensd interval is de normale verdeling met gemiddelde o het meest aannemelijk. Beschouwt men alleen positieve of alleen negatieve waarden van x, clan resulteert (afgezien van een factor 2).de rechter-of de linkerhelft van de normale verdeling. IV. Andere verdelingen en andere methoden Met andere bijvo~rwaarden clan in A, B, C van de vorige paragraaf kan men met dezelfde methode andere verdelingen trachten te vinden. In tal van gevallen stuit men clan op vergelijkingen voor parameters der verdeling, die niet of moeilijk expliciet oplosbaar zijn. Hiervan werden bij B en C al beelden genoemd. Een ander voorbeeld is het stel bijvoorwaarden: interval van o tot oo; Jp (x) dx = 1; Jp (x) log x dx = M; Jp (x) x dx = m. Dit leidt tot p (x) = e>Ł-1x/Levx, een gamma-verdeling. Bovendien behoeven de bijvoorwaarden niet altijd in integraalvorm gegeven te zijn. B.v.: Jp (x) dx = I en p (x) > o voor alle reele x (zie ook IIIA). Nu is er zelfs geen p (x) die de entropie maximaal maakt. Het hangt dus van de vorm der bijvoorwaarden af, of men in de practijk iets aan de methode van S h a n n o n heeft. Is alleen het gemiddelde of de variantie gegeven, clan krijgen we verdelingen als in III. Bij een groter aantal of minder eenvoudige voorwaarden zal de methode van S h a n n o n wellicht dikwijls falen. Kan dit al bij theoretisch gefundeerde voorwaarden het geval zijn, bij een aan waamemingsuitkomsten aan te passen verdeling zal men misschien niet eens een stel bijvoorwaarden voor het maximumprobleem kunnen formuleren. In al deze gevallen zijn andere methoden nodig om een geschikte verdeling te zoeken. Litteratuur [1] C. E. Sh an non, Bell. Syst. Techn. Journ. 27, 369 en 623, 1948. [2] A. I. K hi n chin, Mathematical foundations of information theory, 1957. [3] J. L. van So est, Statistica Neerlandica 14, 249, 1960. Zie ook A. J. St am, Statistica Neerlandica 14, 259, 1960. [4] L. Bo It z man n, Vorlesungen uber Gastheorie, 3e druk, 1923. Statistica Neerlandica 15 (1961) nr 2. ISI
PAGE – 6 ============
[s] E. B 1 o ch, Theorie cinetique des gaz, 1921. [ 6] J. Z e r n i k e, . Thermodynamica en Statistiek in de chemie, 1942. [7] A. M. Ya g 1 om et I. M. Ya g 1 om, Probabilite et information, 1959. [8] R. Co u rant, Diff. and integral calculus II, Chapter VII, 1948. J. van Me u rs Mathematisch Centrum, Amsterdam J. H. C. Li s man Centraal Planbureau. ‘s-Gravenhage Statistica Neerlandica 15 ( 1961) nr 2. 152 t )
175 KB – 6 Pages