Przejdź do głównej treści

Informacja klasyczna

Aby opisać informację kwantową i jej działanie, zaczniemy od przeglądu informacji klasycznej. Naturalne jest zastanawianie się, dlaczego tak wiele uwagi poświęca się informacji klasycznej w kursie o informacji kwantowej, ale istnieją ku temu dobre powody.

Po pierwsze, choć informacja kwantowa i klasyczna różnią się w pewnych spektakularnych aspektach, ich opisy matematyczne są w rzeczywistości dość podobne. Informacja klasyczna służy również jako znajomy punkt odniesienia przy studiowaniu informacji kwantowej, a także jako źródło analogii, które zaskakująco dobrze się sprawdza. Często zdarza się, że ludzie zadają pytania dotyczące informacji kwantowej, które mają naturalne klasyczne odpowiedniki, i często te pytania mają proste odpowiedzi, które mogą zapewnić zarówno jasność, jak i wgląd w pierwotne pytania dotyczące informacji kwantowej. W istocie, nie jest wcale nierozsądne twierdzenie, że nie można naprawdę zrozumieć informacji kwantowej bez zrozumienia informacji klasycznej.

Niektórzy czytelnicy mogą być już zaznajomieni z materiałem omawianym w tym rozdziale, a inni mogą nie — ale dyskusja jest przeznaczona dla obu odbiorców. Oprócz uwypuklenia aspektów informacji klasycznej, które są najbardziej istotne dla wprowadzenia do informacji kwantowej, rozdział ten wprowadza notację Diraca, która jest często używana do opisywania wektorów i macierzy w informacji i obliczeniach kwantowych. Jak się okazuje, notacja Diraca nie jest specyficzna dla informacji kwantowej; można ją równie dobrze stosować w kontekście informacji klasycznej, a także w wielu innych sytuacjach, w których pojawiają się wektory i macierze.

Stany klasyczne i wektory prawdopodobieństw

Załóżmy, że mamy system, który przechowuje informację. Dokładniej, zakładamy, że w każdej chwili ten system może znajdować się w jednym ze skończonej liczby stanów klasycznych. Tutaj termin stan klasyczny należy rozumieć intuicyjnie, jako konfigurację, którą można jednoznacznie rozpoznać i opisać.

Archetypicznym przykładem, do którego będziemy wielokrotnie wracać, jest bit, czyli system, którego stanami klasycznymi są 00 i 1.1. Inne przykłady obejmują standardową sześciościenną kostkę, której stanami klasycznymi są 1,1, 2,2, 3,3, 4,4, 55 i 66 (reprezentowane przez odpowiednią liczbę kropek na ściance znajdującej się na górze); zasadę azotową w nici DNA, której stanami klasycznymi są A, C, G oraz T; oraz przełącznik wentylatora elektrycznego, którego stanami klasycznymi są (zazwyczaj) wysoki, średni, niski i wyłączony. W kategoriach matematycznych specyfikacja stanów klasycznych systemu stanowi w istocie punkt wyjścia: definiujemy bit jako system, który ma stany klasyczne 00 i 1,1, i podobnie dla systemów mających różne zbiory stanów klasycznych.

Na potrzeby tej dyskusji nadajmy rozważanemu systemowi nazwę X\mathsf{X} i użyjmy symbolu Σ\Sigma do oznaczenia zbioru stanów klasycznych systemu X.\mathsf{X}. Oprócz założenia, że Σ\Sigma jest skończony, które już zostało wspomniane, naturalnie zakładamy, że Σ\Sigma jest niepusty — gdyż to nonsens, by system fizyczny nie miał w ogóle żadnych stanów. I choć ma sens rozważanie systemów fizycznych mających nieskończenie wiele stanów klasycznych, pominiemy tę możliwość, która z pewnością jest interesująca, ale nie jest istotna dla tego kursu. Z tych powodów, a także dla wygody i zwięzłości, będziemy odtąd używać terminu zbiór stanów klasycznych na oznaczenie dowolnego skończonego i niepustego zbioru.

Oto kilka przykładów:

  1. Jeśli X\mathsf{X} jest bitem, to Σ={0,1}.\Sigma = \{0,1\}. Słownie, nazywamy ten zbiór binary alphabet (alfabetem binarnym).
  2. Jeśli X\mathsf{X} jest sześciościenną kostką, to Σ={1,2,3,4,5,6}.\Sigma = \{1,2,3,4,5,6\}.
  3. Jeśli X\mathsf{X} jest przełącznikiem wentylatora elektrycznego, to Σ={high,medium,low,off}.\Sigma = \{\mathrm{high}, \mathrm{medium}, \mathrm{low}, \mathrm{off}\}.

Gdy myślimy o X\mathsf{X} jako o nośniku informacji, różnym stanom klasycznym X\mathsf{X} można przypisać określone znaczenia, prowadzące do różnych wyników lub konsekwencji. W takich przypadkach może wystarczyć opisanie X\mathsf{X} po prostu jako będącego w jednym ze swoich możliwych stanów klasycznych. Na przykład, jeśli X\mathsf{X} jest przełącznikiem wentylatora, możemy akurat wiedzieć z pewnością, że jest on ustawiony na high, co z kolei może skłonić nas do przełączenia go na medium.

Jednak często w przetwarzaniu informacji nasza wiedza jest niepewna. Jednym ze sposobów reprezentowania naszej wiedzy o stanie klasycznym systemu X\mathsf{X} jest powiązanie prawdopodobieństw z jego różnymi możliwymi stanami klasycznymi, co prowadzi do czegoś, co nazwiemy stanem probabilistycznym.

Na przykład, załóżmy, że X\mathsf{X} jest bitem. Na podstawie tego, co wiemy lub czego oczekujemy co do tego, co stało się z X\mathsf{X} w przeszłości, możemy sądzić, że X\mathsf{X} jest w stanie klasycznym 00 z prawdopodobieństwem 3/43/4 oraz w stanie 11 z prawdopodobieństwem 1/4.1/4. Możemy przedstawić te przekonania, zapisując to w następujący sposób:

Pr(X=0)=34andPr(X=1)=14.\operatorname{Pr}(\mathsf{X}=0) = \frac{3}{4} \quad\text{and}\quad \operatorname{Pr}(\mathsf{X}=1) = \frac{1}{4}.

Bardziej zwięzłym sposobem przedstawienia tego stanu probabilistycznego jest wektor kolumnowy.

(3414)\begin{pmatrix} \frac{3}{4}\\[2mm] \frac{1}{4} \end{pmatrix}

Prawdopodobieństwo, że bit jest równy 00, jest umieszczone na górze wektora, a prawdopodobieństwo, że bit jest równy 11, na dole, ponieważ tak jest konwencjonalnie uporządkowany zbiór {0,1}.\{0,1\}.

Ogólnie, w ten sam sposób możemy przedstawić stan probabilistyczny systemu mającego dowolny zbiór stanów klasycznych — jako wektor prawdopodobieństw. Prawdopodobieństwa można uporządkować w dowolny sposób, jaki wybierzemy, ale zwykle istnieje naturalny lub domyślny sposób, aby to zrobić. Dokładniej, możemy przedstawić dowolny stan probabilistyczny za pomocą wektora kolumnowego spełniającego dwie właściwości:

  1. Wszystkie wpisy wektora są nieujemnymi liczbami rzeczywistymi.
  2. Suma wpisów jest równa 1.1.

I odwrotnie, dowolny wektor kolumnowy spełniający te dwie właściwości może być potraktowany jako reprezentacja stanu probabilistycznego. Od tego momentu wektory tej postaci będziemy nazywać wektorami prawdopodobieństw.

Obok zwięzłości tej notacji, identyfikowanie stanów probabilistycznych z wektorami kolumnowymi ma tę zaletę, że operacje na stanach probabilistycznych są reprezentowane za pomocą mnożenia macierzowo-wektorowego, co zostanie omówione wkrótce.

Pomiar stanów probabilistycznych

Rozważmy teraz, co się dzieje, gdy mierzymy system znajdujący się w stanie probabilistycznym. W tym kontekście pomiar systemu oznacza po prostu, że patrzymy na system i jednoznacznie rozpoznajemy, w jakim stanie klasycznym się on znajduje. Intuicyjnie mówiąc, nie możemy "zobaczyć" stanu probabilistycznego systemu; gdy na niego patrzymy, widzimy jedynie jeden z możliwych stanów klasycznych.

Mierząc system, możemy również zmienić naszą wiedzę o nim, a zatem stan probabilistyczny, jaki z nim wiążemy, może ulec zmianie. Oznacza to, że jeśli rozpoznamy, iż X\mathsf{X} znajduje się w stanie klasycznym aΣ,a\in\Sigma, to nowy wektor prawdopodobieństw reprezentujący naszą wiedzę o stanie X\mathsf{X} staje się wektorem, który ma 11 w pozycji odpowiadającej aa oraz 00 we wszystkich pozostałych pozycjach. Wektor ten wskazuje, że X\mathsf{X} znajduje się w stanie klasycznym aa z pewnością — co wiemy, ponieważ właśnie to rozpoznaliśmy — i oznaczamy go przez a,\vert a\rangle, co czyta się jako "ket aa" z powodu, który zostanie wkrótce wyjaśniony. Wektory tego rodzaju nazywane są również wektorami bazy standardowej.

Na przykład, zakładając, że system, który mamy na myśli, jest bitem, wektory bazy standardowej dane są przez

0=(10)and1=(01). \vert 0\rangle = \begin{pmatrix}1\\[1mm] 0\end{pmatrix} \quad\text{and}\quad \vert 1\rangle = \begin{pmatrix}0\\[1mm] 1\end{pmatrix}.

Zauważmy, że dowolny dwuwymiarowy wektor kolumnowy może być wyrażony jako kombinacja liniowa tych dwóch wektorów. Na przykład,

(3414)=340+141.\begin{pmatrix} \frac{3}{4}\\[2mm] \frac{1}{4} \end{pmatrix} = \frac{3}{4}\,\vert 0\rangle + \frac{1}{4}\,\vert 1\rangle.

Fakt ten w naturalny sposób uogólnia się na dowolny zbiór stanów klasycznych: każdy wektor kolumnowy może być zapisany jako kombinacja liniowa stanów bazy standardowej. Dość często wyrażamy wektory właśnie w ten sposób.

Wracając do zmiany stanu probabilistycznego przy pomiarze, możemy zauważyć następujący związek z naszymi codziennymi doświadczeniami. Załóżmy, że rzucamy uczciwą monetą, ale zasłaniamy ją przed spojrzeniem. Powiedzielibyśmy wówczas, że jej stan probabilistyczny to

(1212)=12heads+12tails.\begin{pmatrix} \frac{1}{2}\\[2mm] \frac{1}{2} \end{pmatrix} = \frac{1}{2}\,\vert\text{heads}\rangle + \frac{1}{2}\,\vert\text{tails}\rangle.

Tutaj zbiór stanów klasycznych naszej monety to {heads,tails}.\{\text{heads},\text{tails}\}. Ustalmy kolejność tych stanów tak, że orzeł (heads) jest pierwszy, a reszka (tails) druga.

heads=(10)andtails=(01)\vert\text{heads}\rangle = \begin{pmatrix}1\\[1mm] 0\end{pmatrix} \quad\text{and}\quad \vert\text{tails}\rangle = \begin{pmatrix}0\\[1mm] 1\end{pmatrix}

Gdybyśmy odsłonili monetę i na nią spojrzeli, zobaczylibyśmy jeden z dwóch stanów klasycznych: orzeł lub reszka. Zakładając, że wynikiem byłaby reszka, naturalnie zaktualizowalibyśmy nasz opis stanu probabilistycznego monety tak, aby stał się on tails.|\text{tails}\rangle. Oczywiście, gdybyśmy następnie ponownie zasłonili monetę, a potem odsłonili ją i znów na nią spojrzeli, stan klasyczny nadal byłby reszką, co jest zgodne ze stanem probabilistycznym opisanym wektorem tails.|\text{tails}\rangle.

Może się to wydawać trywialne i w pewnym sensie takie jest. Jednakże, chociaż systemy kwantowe zachowują się w całkowicie analogiczny sposób, ich właściwości pomiarowe są często uważane za dziwne lub nietypowe. Ustalając analogiczne właściwości systemów klasycznych, sposób działania informacji kwantowej może wydawać się mniej niezwykły.

Jedna końcowa uwaga dotycząca pomiarów stanów probabilistycznych jest następująca: stany probabilistyczne opisują wiedzę lub przekonanie, niekoniecznie coś faktycznego, a pomiar zmienia jedynie naszą wiedzę, a nie sam system. Na przykład stan monety po jej rzucie, ale przed spojrzeniem, jest albo orłem, albo reszką — po prostu nie wiemy, którym z nich, dopóki nie spojrzymy. Widząc, że stanem klasycznym jest, powiedzmy, reszka, naturalnie zaktualizowalibyśmy wektor opisujący naszą wiedzę do tails,|\text{tails}\rangle, ale dla kogoś innego, kto nie widział monety po jej odsłonięciu, stan probabilistyczny pozostałby niezmieniony. Nie jest to powód do obaw; różne osoby mogą mieć różną wiedzę lub przekonania na temat danego systemu, a zatem opisywać ten system różnymi wektorami prawdopodobieństw.

Operacje klasyczne

W ostatniej części tego krótkiego przeglądu informacji klasycznej rozważymy rodzaje operacji, które można wykonywać na systemie klasycznym.

Operacje deterministyczne

Po pierwsze, mamy deterministic operacje, w których każdy stan klasyczny aΣa\in\Sigma jest przekształcany w f(a)f(a) dla pewnej funkcji ff postaci f:ΣΣ.f:\Sigma\rightarrow\Sigma.

Na przykład, jeśli Σ={0,1},\Sigma = \{0,1\}, istnieją cztery funkcje tej postaci, f1,f_1, f2,f_2, f3,f_3, oraz f4,f_4, które można przedstawić za pomocą tabel wartości w następujący sposób:

af1(a)0010af2(a)0011af3(a)0110af4(a)0111\begin{array}{c|c} a & f_1(a)\\ \hline 0 & 0\\ 1 & 0 \end{array} \qquad \begin{array}{c|c} a & f_2(a)\\ \hline 0 & 0\\ 1 & 1 \end{array} \qquad \begin{array}{c|c} a & f_3(a)\\ \hline 0 & 1\\ 1 & 0 \end{array} \qquad \begin{array}{c|c} a & f_4(a)\\ \hline 0 & 1\\ 1 & 1 \end{array}

Pierwsza i ostatnia z tych funkcji są stałe: f1(a)=0f_1(a) = 0 oraz f4(a)=1f_4(a) = 1 dla każdego aΣ.a\in\Sigma. Dwie środkowe nie są stałe, są zrównoważone: każda z dwóch wartości wyjściowych pojawia się tyle samo razy (w tym przypadku raz), gdy przebiegamy po wszystkich możliwych wejściach. Funkcja f2f_2 jest funkcją identycznościową: f2(a)=af_2(a) = a dla każdego aΣ.a\in\Sigma. Natomiast f3f_3 to funkcja f3(0)=1f_3(0) = 1 oraz f3(1)=0,f_3(1) = 0, która jest lepiej znana jako funkcja NOT.

Działania operacji deterministycznych na stanach probabilistycznych można przedstawić za pomocą mnożenia macierzy przez wektor. Konkretnie, macierz MM reprezentująca daną funkcję f:ΣΣf:\Sigma\rightarrow\Sigma to taka, która spełnia

Ma=f(a)M \vert a \rangle = \vert f(a)\rangle

dla każdego aΣ.a\in\Sigma. Taka macierz zawsze istnieje i jest jednoznacznie wyznaczona przez ten warunek. Macierze reprezentujące operacje deterministyczne mają zawsze dokładnie jedną 11 w każdej kolumnie oraz 00 we wszystkich pozostałych miejscach.

Na przykład macierze M1,,M4M_1,\ldots,M_4 odpowiadające funkcjom f1,,f4f_1,\ldots,f_4 powyżej są następujące:

M1=(1100),M2=(1001),M3=(0110),M4=(0011). M_1 = \begin{pmatrix} 1 & 1\\ 0 & 0 \end{pmatrix}, \hspace{4mm} M_2 = \begin{pmatrix} 1 & 0\\ 0 & 1 \end{pmatrix}, \hspace{4mm} M_3 = \begin{pmatrix} 0 & 1\\ 1 & 0 \end{pmatrix}, \hspace{4mm} M_4 = \begin{pmatrix} 0 & 0\\ 1 & 1 \end{pmatrix}.

Oto krótka weryfikacja pokazująca, że pierwsza macierz jest poprawna. Pozostałe trzy można sprawdzić w analogiczny sposób.

M10=(1100)(10)=(10)=0=f1(0)M11=(1100)(01)=(10)=0=f1(1)\begin{aligned} M_1 \vert 0\rangle & = \begin{pmatrix} 1 & 1\\ 0 & 0 \end{pmatrix} \begin{pmatrix} 1\\ 0 \end{pmatrix} = \begin{pmatrix} 1\\ 0 \end{pmatrix} = \vert 0\rangle = \vert f_1(0)\rangle \\[4mm] M_1 \vert 1\rangle & = \begin{pmatrix} 1 & 1\\ 0 & 0 \end{pmatrix} \begin{pmatrix} 0\\ 1 \end{pmatrix} = \begin{pmatrix} 1\\ 0 \end{pmatrix} = \vert 0\rangle = \vert f_1(1)\rangle \end{aligned}

Wygodny sposób reprezentowania macierzy tych i innych postaci wykorzystuje analogiczną notację dla wektorów wierszowych do tej dla wektorów kolumnowych omówionej wcześniej: przez a\langle a \vert oznaczamy wektor wierszowy mający 11 w pozycji odpowiadającej aa oraz zera we wszystkich pozostałych pozycjach, dla każdego aΣ.a\in\Sigma. Wektor ten czytamy jako „bra a.a."

Na przykład, jeśli Σ={0,1},\Sigma = \{0,1\}, to

0=(10)oraz1=(01). \langle 0 \vert = \begin{pmatrix} 1 & 0 \end{pmatrix} \quad\text{oraz}\quad \langle 1 \vert = \begin{pmatrix} 0 & 1 \end{pmatrix}.

Dla dowolnego klasycznego zbioru stanów Σ,\Sigma, możemy traktować wektory wierszowe i kolumnowe jako macierze i wykonywać mnożenie macierzowe ba.\vert b\rangle \langle a\vert. Otrzymujemy macierz kwadratową mającą 11 w pozycji odpowiadającej parze (b,a),(b,a), co oznacza, że wiersz tej pozycji odpowiada stanowi klasycznemu b,b, a kolumna odpowiada stanowi klasycznemu a,a, oraz 00 we wszystkich pozostałych pozycjach. Na przykład,

01=(10)(01)=(0100). \vert 0 \rangle \langle 1 \vert = \begin{pmatrix} 1\\ 0 \end{pmatrix} \begin{pmatrix} 0 & 1 \end{pmatrix} = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}.

Korzystając z tej notacji, możemy wyrazić macierz MM odpowiadającą dowolnej funkcji f:ΣΣf:\Sigma\rightarrow\Sigma jako

M=aΣf(a)a. M = \sum_{a\in\Sigma} \vert f(a) \rangle \langle a \vert.

Rozważmy na przykład funkcję f4f_4 powyżej, dla której Σ={0,1}.\Sigma = \{0,1\}. Otrzymujemy macierz

M4=f4(0)0+f4(1)1=10+11=(0010)+(0001)=(0011).M_4 = \vert f_4(0) \rangle \langle 0 \vert + \vert f_4(1) \rangle \langle 1 \vert = \vert 1\rangle \langle 0\vert + \vert 1\rangle \langle 1\vert = \begin{pmatrix} 0 & 0\\ 1 & 0 \end{pmatrix} + \begin{pmatrix} 0 & 0\\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 0 & 0\\ 1 & 1 \end{pmatrix}.

Powód, dla którego to działa, jest następujący. Jeśli ponownie potraktujemy wektory jako macierze i tym razem rozważymy mnożenie ab,\langle a \vert \vert b \rangle, otrzymamy macierz 1×1,1\times 1, którą możemy traktować jako skalar (czyli liczbę). Dla przejrzystości zapisujemy ten iloczyn jako ab\langle a \vert b\rangle zamiast ab.\langle a \vert \vert b \rangle. Iloczyn ten spełnia następujący prosty wzór:

ab={1a=b0ab. \langle a \vert b \rangle = \begin{cases} 1 & a = b\\[1mm] 0 & a \neq b. \end{cases}

Korzystając z tej obserwacji, wraz z faktem, że mnożenie macierzy jest łączne i liniowe, otrzymujemy

Mb=(aΣf(a)a)b=aΣf(a)ab=f(b), M \vert b \rangle = \Biggl( \sum_{a\in\Sigma} \vert f(a) \rangle \langle a \vert \Biggr) \vert b\rangle = \sum_{a\in\Sigma} \vert f(a) \rangle \langle a \vert b \rangle = \vert f(b)\rangle,

dla każdego bΣ,b\in\Sigma, co jest dokładnie tym, czego wymagamy od macierzy M.M.

Jak omówimy bardziej szczegółowo w późniejszej lekcji, ab\langle a \vert b \rangle może być również postrzegane jako iloczyn skalarny pomiędzy wektorami a\vert a\rangle i b.\vert b\rangle. Iloczyny skalarne są niezwykle ważne w informacji kwantowej, ale odłożymy ich omówienie do momentu, kiedy będą potrzebne.

W tym momencie nazwy „bra" i „ket" mogą być oczywiste: złożenie „bra" a\langle a\vert razem z „ket" b\vert b\rangle daje „bracket" ab.\langle a \vert b\rangle. Notacja ta oraz terminologia pochodzą od Paula Diraca i z tego powodu znane są jako notacja Diraca.

Operacje probabilistyczne i macierze stochastyczne

Oprócz operacji deterministycznych mamy operacje probabilistyczne.

Rozważmy na przykład następującą operację na bicie. Jeżeli stanem klasycznym bitu jest 0,0, pozostawiamy go bez zmian; a jeśli stanem klasycznym bitu jest 1,1, zostaje on odwrócony, tak że staje się 00 z prawdopodobieństwem 1/21/2 oraz 11 z prawdopodobieństwem 1/2.1/2. Operacja ta jest reprezentowana przez macierz

(112012). \begin{pmatrix} 1 & \frac{1}{2}\\[1mm] 0 & \frac{1}{2} \end{pmatrix}.

Można sprawdzić, że ta macierz robi to, co trzeba, mnożąc przez nią dwa standardowe wektory bazowe.

Dla dowolnego wyboru zbioru stanów klasycznych możemy opisać zbiór wszystkich operacji probabilistycznych w kategoriach matematycznych jako te, które są reprezentowane przez macierze stochastyczne, czyli macierze spełniające następujące dwie własności:

  1. Wszystkie elementy są nieujemnymi liczbami rzeczywistymi.
  2. Elementy w każdej kolumnie sumują się do 1.1.

Równoważnie, macierze stochastyczne to macierze, których wszystkie kolumny tworzą wektory prawdopodobieństwa.

Możemy myśleć o operacjach probabilistycznych na poziomie intuicyjnym jako o takich, w których losowość może być w jakiś sposób wykorzystana lub wprowadzona podczas operacji, tak jak w powyższym przykładzie. W opisie operacji probabilistycznej za pomocą macierzy stochastycznej każda kolumna może być postrzegana jako wektorowa reprezentacja stanu probabilistycznego, który jest generowany dla klasycznego stanu wejściowego odpowiadającego tej kolumnie.

Możemy także myśleć o macierzach stochastycznych jako dokładnie tych macierzach, które zawsze odwzorowują wektory prawdopodobieństwa na wektory prawdopodobieństwa. To znaczy macierze stochastyczne zawsze odwzorowują wektory prawdopodobieństwa na wektory prawdopodobieństwa, a każda macierz, która zawsze odwzorowuje wektory prawdopodobieństwa na wektory prawdopodobieństwa, musi być macierzą stochastyczną.

Wreszcie, inny sposób myślenia o operacjach probabilistycznych polega na tym, że są one losowymi wyborami spośród operacji deterministycznych. Na przykład o operacji z powyższego przykładu możemy myśleć jako o zastosowaniu albo funkcji tożsamościowej, albo funkcji stale równej 0, każdej z prawdopodobieństwem 1/2.1/2. Jest to zgodne z równaniem

(112012)=12(1001)+12(1100). \begin{pmatrix} 1 & \frac{1}{2}\\[1mm] 0 & \frac{1}{2} \end{pmatrix} = \frac{1}{2} \begin{pmatrix} 1 & 0\\[1mm] 0 & 1 \end{pmatrix} + \frac{1}{2} \begin{pmatrix} 1 & 1\\[1mm] 0 & 0 \end{pmatrix}.

Takie wyrażenie jest zawsze możliwe, dla dowolnego wyboru zbioru stanów klasycznych i dowolnej macierzy stochastycznej, której wiersze i kolumny są utożsamione z tym zbiorem stanów klasycznych.

Złożenia operacji probabilistycznych

Załóżmy, że X\mathsf{X} jest systemem mającym zbiór stanów klasycznych Σ,\Sigma, a M1,,MnM_1,\ldots,M_n są macierzami stochastycznymi reprezentującymi operacje probabilistyczne na systemie X.\mathsf{X}.

Jeżeli pierwsza operacja M1M_1 jest zastosowana do stanu probabilistycznego reprezentowanego przez wektor prawdopodobieństwa u,u, to otrzymany stan probabilistyczny jest reprezentowany przez wektor M1u.M_1 u. Jeżeli następnie zastosujemy drugą operację probabilistyczną M2M_2 do tego nowego wektora prawdopodobieństwa, otrzymamy wektor prawdopodobieństwa

M2(M1u)=(M2M1)u. M_2 (M_1 u) = (M_2 M_1) u.

Równość wynika z faktu, że mnożenie macierzy (które obejmuje mnożenie macierzy przez wektor jako przypadek szczególny) jest operacją łączną. Zatem operacja probabilistyczna otrzymana przez złożenie pierwszej i drugiej operacji probabilistycznej, gdzie najpierw stosujemy M1,M_1, a następnie M2,M_2, jest reprezentowana przez macierz M2M1,M_2 M_1, która z konieczności jest stochastyczna.

Ogólniej, złożenie operacji probabilistycznych reprezentowanych przez macierze M1,,MnM_1,\ldots,M_n w tej kolejności, co oznacza, że M1M_1 jest stosowana jako pierwsza, M2M_2 jako druga i tak dalej, a MnM_n stosowana jako ostatnia, jest reprezentowane przez iloczyn macierzy

MnM1. M_n \,\cdots\, M_1.

Zauważmy, że kolejność jest tu istotna: chociaż mnożenie macierzy jest łączne, nie jest operacją przemienną. Na przykład, jeżeli

M1=(1100)orazM2=(0110), M_1 = \begin{pmatrix} 1 & 1\\[1mm] 0 & 0 \end{pmatrix} \quad\text{oraz}\quad M_2 = \begin{pmatrix} 0 & 1\\[1mm] 1 & 0 \end{pmatrix},

to

M2M1=(0011)orazM1M2=(1100). M_2 M_1 = \begin{pmatrix} 0 & 0 \\[1mm] 1 & 1 \end{pmatrix} \quad\text{oraz}\quad M_1 M_2 = \begin{pmatrix} 1 & 1\\[1mm] 0 & 0 \end{pmatrix}.