Reguläre Ausdrücke in Google Analytics und Urchin – Teil 1

Eventuell sind Ihnen die wenigen unter Microsoft Windows oder DOS verfügbaren Wildcards (* ? %) bekannt, mit deren Hilfe eingeschränkte Datei- bzw. SQL-Operationen durchgeführt werden können. Die sich hieraus ergebenden Möglichkeiten sind jedoch recht gering und erfordern weit mehr Flexibilität, wenn es darum geht, komplexe Datenbestände zu durchsuchen.

Aus diesem Grund nutzen Google Analytics und Urchin reguläre Ausdrücke. Damit werden auch umfangreiche Datenentsprechungen gefunden und ermöglichend zudem, gewünschte Aktionen auszuführen. Reguläre Ausdrücke können in Google Analytics bzw. Urchin wie folgt verwendet werden:

  • Anzeigefilter (z.B. um die Daten in Berichten anzugleichen)
  • Filter (z.B. Ausschließen von IP-Adressbereichen)
  • Zieldefinitionen (z.B. um variable Zielseiten zu deklarieren)

Doch dazu später mehr. Denn in diesem ersten Teil will ich Ihnen zunächst einen Überblick über die Notwendigkeit von regulären Ausdrücken vermitteln, sowie Sie mit den ersten beiden oft verwendeten Metazeichen bekannt machen.

Überblick über reguläre Ausdrücke

Schauen Sie sich die folgende Tabelle einmal näher an. Sie werden bestimmt feststellen, dass es sich dabei um eine einfache Datenstruktur handelt.

Nr. Artikel Warengruppe Farbe Größe
1 T-Shirt T-Shirt, Männer grün XL
2 T-Shirt T-Shirt, Männer gelb L
3 T-Shirt T-Shirt, Frauen gelb-blau XL
4 T-Shirt T-Shirt, Frauen blau S
5 Sweatshirt Sweatshirt, Männer blau-rot M
6 Sweatshirt Sweatshirt, Frauen rot L

Wenn Sie also aus dieser Tabelle die Datensätze selektieren sollen, deren Farbangabe den Kriterien „gelb“ und „gelb-blau“ entspricht, reichen die o.g. Kenntnisse völlig aus; Sie würden vermutlich nach „gelb*“ suchen und die Datensätze 2 und 3 als Ergebnis präsentiert bekommen.

Was nun aber, wenn die Aufgabestellung modifiziert wird und Sie alle Datensätze selektieren müssen, deren Farbangabe „gelb„, „rot“ und „blau-rot“ entspricht? Oder wenn zur Farbangabe noch die Größenangabe hinzukäme? Sie sehen, dieser Anforderung kann mit den vorgenannten Möglichkeiten nicht entsprochen werden.

Die Verwendung von regulären Ausdrücken (auch Regular Expressions oder RegEx genannt) ist nahezu unverzichtbar, wenn es darum geht aus großen Datenmengen bestimmte Entsprechungen herauszufinden.

Reguläre Ausdrücke dienen dazu, spezielle Zeichenketten in einer Menge von Zeichen bzw. Zeichenketten zu finden. Ein regulärer Ausdruck wird aus beliebigen Ziffern und Zeichen unter Berücksichtigung von Groß- und Kleinschreibung in Kombination mit folgenden Metazeichen gebildet:

Metazeichen Kurzbeschreibung
. Beliebiges, einzelnes Zeichen
\ Wird benötigt, um ein Metazeichen buchstäblich zu nutzen
[ ] Gruppe von Zeichen
Bereich (von-bis)
? + * Quantifizierung eines beliebigen Zeichens
{ } Wiederholung eines beliebigen Zeichens
( ) Gruppierung von Zeichen und Speicherung zur späteren Verwendung
| Deklaration alternativer Zeichenketten
^ Zeichen muss am Anfang stehen
$ Zeichen muss am Ende stehen
\d Abkürzung für Ziffern
\w Abkürzung für alphanumerische Zeichen bzw. Unterstrich
\s Abkürzung für Whitespaces

Alle anderen Zeichen weisen keine Meta-Eigenschaft auf. Die Eigenschaften und Auswirkungen der Verwendung von Metazeichen – auch in Google Analytics und Urchin – zeige ich Ihnen in den nächsten Abschnitten und Teilen dieser Serie.

Punkt

Metazeichen bei regulären Ausdrücken: Der PunktDer Punkt (.) ist eines der meistgenutzten Metazeichen und entspricht einem beliebigen, einzelnen Zeichen. Die Betonung liegt hier tatsächlich auf beliebig und einzeln, denn ganz gleich, welches Zeichen der Zeichenkette gefunden werden soll, durch den Punkt sind alle denkbaren Zeichen abgedeckt.

Beispiel:

Der folgende reguläre Ausdruck

Akt ., Szene 3

entspricht somit den Zeichenketten

Akt 1, Szene 3

Akt 2, Szene 3

Akt 3, Szene 3

Akt 4, Szene 3

Akt 5, Szene 3

Akt 6, Szene 3

Akt 7, Szene 3

Akt 8, Szene 3

Akt 9, Szene 3

nicht aber der Zeichenkette

Akt 10, Szene 3

Warum? Die Zeichen „10“ stellen mehr als ein Zeichen dar. Sie erinnern sich? Die Betonung liegt bei der Verwendung des Metazeichens Punkt auf „einzelnes Zeichen„.

Um dieser Zeichenkette zu entsprechen, müsste der reguläre Ausdruck wie folgt modifiziert werden:

Akt .., Szene 3

Backslash

Metazeichen bei regulären Ausdrücken: Der BackslashDer Backslash (\) wird dazu verwendet, einem Metazeichen buchstäblich zu entsprechen.

Beispiel:

Der folgende reguläre Ausdruck

z.B. Blumen

entspricht somit der Zeichenkette

z.B. Blumen

aber auch den Zeichenketten

zUB. Blumen

z.B3 Blumen

z1Bg Blumen

Warum? Zur Erinnerung: Ein Punkt (.) entspricht einem beliebigen, einzelnen Zeichen. Um einem Punkt buchstäblich zu entsprechen, muss diesem somit ein Backslash (\)  vorangestellt werden.

Der folgende reguläre Ausdruck

z\.B\. Blumen

entspricht nun ausschließlich der Zeichenkette „z.B. Blumen“, da nach dem Punkt durch den vorangestellten Backslash buchstäblich gesucht wird.

Gruppen und Bereiche

Oftmals besteht die Notwendigkeit, nach verschiedenen Zeichen in einer Zeichenkette parallel zu suchen. So wäre in Bezug auf das Beispiel aus der Einführung denkbar, dass Sie die Datensätze der Größen S und M gleichzeitig suchen.

Um das zu realisieren, werden bei den regulären Ausdrücken die eckigen Klammern ([ ]) genutzt.

Gruppen

Metazeichen bei regulären Ausdrücken: Die eckigen KlammernAlle Zeichen, die innerhalb der eckigen Klammern stehen, werden an der jeweiligen Stelle gesucht und gefunden.

Beispiel:

Der folgende reguläre Ausdruck

[zZ]\.[bB]\. Blumen

entspricht somit den Zeichenketten

z.B. Blumen

Z.B. Blumen

z.b. Blumen

Z.b. Blumen

nicht aber den Zeichenketten

z.B. blumen

ZB Blumen

Warum? Der reguläre Ausdruck setzt zum einen voraus, dass in der Zeichenkette das Wort „Blumen“ mit einem „B“ als Großbuchstabe enthält und zum anderen nach „z“ und „b“ jeweils ein Punkt  steht.

Bereiche

Metazeichen bei regulären Ausdrücken: Der BindestrichDurch den Einsatz eines Bindestrichs () innerhalb der eckigen Klammern, können Sie Bereiche definieren, nach denen gesucht werden soll.

Beispiel:

Der folgende reguläre Ausdruck

Marktplatz [09]

entspricht somit unter anderem den Zeichenketten

Marktplatz 1

Marktplatz 5

Marktplatz 9

aber nicht den Zeichenketten

Marktplatz 37

Marktplatz A

Warum? Der reguläre Ausdruck setzt zum einen voraus, dass die Zeichenkette nur ein Zeichen der Ziffern zwischen 1 und 9 enthält und zum zweiten keine Buchstaben enthalten darf.

Gruppen und Bereiche invertieren

Durch den Einsatz des Caret (^) direkt nach der öffnenden eckigen Klammer werden die gesuchten Entsprechungen invertiert.

Der reguläre Ausdruck für eine Gruppe [^zZbB] entspricht allen Zeichen, die nicht ein z, Z, b oder B darstellen.

Ebenso verhält es sich mit Bereichen. Der reguläre Ausdruck [^09] entspricht allen Zeichen, die nicht 0, 1, 2, 3, 4, 5, 6, 7, 8 oder 9 darstellen.

Fortsetzung folgt…

In diesem ersten Teil haben Sie einen Überbick die in Google Analytics und Urchin verwendbaren regulären Ausdrücke erhalten. Ebenso haben Sie mehr über die Verwendung der Metazeichen Punkt, Backslash, Bindestrich und eckige Klammern erfahren. Im zweiten Teil dieser Reihe gehe ich auf die Möglichkeiten ein, die sich durch den Einsatz von Quantifizierung, Gruppierung und Alternative bieten.

Kommentieren

Follow us:
Abonnieren Sie unseren Blog!
Folgen Sie uns auf Twitter!
Folgen Sie uns auf Facebook!
Folgen Sie uns auf LinkedIn!
Feedburner-Abo
RSS Feed für Reader abonnieren

oder geben Sie Ihre E-Mail-Adresse an:

Kategorien
Archive