Im zweiten Teil der Reihe, “Reguläre Ausdrücke in Google Analytics und Urchin“, haben Sie erfahren, wie Sie Quantifizierung, Gruppierung und Alternative einsetzen. Dabei wurde auch die Verwendung der Metazeichen Fragezeichen, Pluszeichen, Asterisk sowie runde und geschweifte Klammern erläutert.
In diesem letzten Teil zeige ich Ihnen, wie Sie gezielt nach Zeichenketten am Anfang oder am Ende einer Zeile bzw. eines Feldes suchen können und wie Sie Abkürzungen richtig einsetzen. Außerdem gehe ich noch auf das Metazeichen für Whitespaces ein.
Soll sich die gesuchte Zeichenkette am Anfang einer Zeile oder eines Feldes befinden, wird dies durch das Voranstellen eines Carets (^) definiert.
Beispiel:
Der folgende reguläre Ausdruck
^4 Jahreszeiten – .*
entspricht somit den Zeichenketten
4 Jahreszeiten – Pizza für 4,99
4 Jahreszeiten – bestes Hotel
aber nicht den Zeichenketten
Pizza für 4,99 – 4 Jahreszeiten
Bestes Hotel – 4 Jahreszeiten
Warum? Der reguläre Ausdruck setzt voraus, dass die gesuchte Zeichenkette am Anfang der Zeile stehen muss.
Soll sich die gesuchte Zeichenkette am Ende einer Zeile oder eines Feldes befinden, wird dies durch das Anhängen eines Dollarzeichens ($) definiert
Beispiel:
Der folgende reguläre Ausdruck
.* – 4 Jahreszeiten$
entspricht somit den Zeichenketten
Pizza für 4,99 – 4 Jahreszeiten
Bestes Hotel – 4 Jahreszeiten
aber nicht den Zeichenketten
4 Jahreszeiten – Pizza für 4,99
4 Jahreszeiten – bestes Hotel
Warum? Der reguläre Ausdruck setzt voraus, dass die gesuchte Zeichenkette am Ende der Zeile stehen muss.
Abkürzungen haben den Sinn und Zweck, Ihnen die Arbeit mit regulären Ausdrücken möglichst einfach zu machen.
Die Ziffern 0 bis 9 können mittels des Metazeichens \d gesucht und gefunden werden. Dabei wird beim Einsatz von \d immer nur einer einzelnen, beliebigen Ziffer entsprochen. \d entspricht der Verwendung des regulären Ausdrucks [0-9].
Durch die Verwendung von \D werden hingegen alle Zeichen gesucht und gefunden, die keine Ziffern sind. \D entspricht der Verwendung des regulären Ausdrucks [^0-9].
Beispiel 1:
Der folgende reguläre Ausdruck
\d% Zinsen
entspricht somit unter anderem den Zeichenketten
3% Zinsen
7% Zinsen
8% Zinsen
aber nicht den Zeichenketten
% Zinsen
12% Zinsen
v% Zinsen
Warum? Der reguläre Ausdruck setzt voraus, dass in der Zeichenkette eine einzelne Ziffer unmittelbar vor dem Prozentzeichen vorkommen muss.
Beispiel 2:
Der folgende reguläre Ausdruck
\D% Zinsen
entspricht somit unter anderem den Zeichenketten
v% Zinsen
,% Zinsen
_% Zinsen
aber nicht den Zeichenketten
% Zinsen
1% Zinsen
3% Zinsen
Warum? Der reguläre Ausdruck setzt voraus, dass in der Zeichenkette ein beliebiges, nicht numerisches Zeichen unmittelbar vor dem Prozentzeichen stehen muss.
Sämtliche Buchstaben und Ziffern sowie der Unterstrich können mittels des Metazeichens \w gesucht und gefunden werden. Dabei wird beim Einsatz von \w immer nur einem einzelnen, beliebigen Zeichen entsprochen. \w entspricht somit der Verwendung des regulären Ausdrucks [A-Za-z0-9_].
Durch die Verwendung von \W werden hingegen alle Zeichen gesucht und gefunden, die nicht den alphanumerischen Zeichen oder dem Unterstrich entsprechen. \W entspricht somit der Verwendung des regulären Ausdrucks [^A-Za-z0-9_].
Beispiel 1:
Der folgende reguläre Ausdruck
\w% Zinsen
entspricht somit unter anderem den Zeichenketten
3% Zinsen
x% Zinsen
_% Zinsen
aber nicht den Zeichenketten
% Zinsen
!% Zinsen
-% Zinsen
Warum? Der reguläre Ausdruck setzt voraus, dass in der Zeichenkette ein einzelnes alphanumerisches Zeichen oder ein Unterstrich unmittelbar vor dem Prozentzeichen stehen muss.
Beispiel 2:
Der folgende reguläre Ausdruck
\W% Zinsen
entspricht somit unter anderem den Zeichenketten
!% Zinsen
,% Zinsen
–% Zinsen
aber nicht den Zeichenketten
% Zinsen
x% Zinsen
3% Zinsen
Warum? Der reguläre Ausdruck setzt voraus, dass in der Zeichenkette ein beliebiges, nicht einem alphanumerischen Zeichen oder Unterstrich entsprechendes Zeichen unmittelbar vor dem Prozentzeichen stehen muss.
Unter Whitespaces werden sämtliche, nicht sichtbaren Zwischenräume in einer Zeichenkette verstanden. Dazu zählen Leerschritte (Leertaste), Tabulatoren, Zeilenumbrüche, etc. Diese nicht sichtbaren Zeichen können mittels des Metazeichens \s gesucht und gefunden werden. Dabei wird beim Einsatz von \s immer nur einem einzelnen, beliebigen Whitespace entsprochen.
Durch die Verwendung von \S werden hingegen alle Zeichen gesucht und gefunden, die nicht einem Whitespace entsprechen.
Beispiel:
Der folgende reguläre Ausdruck
§1\sVertragsgegenstand
entspricht somit unter anderem den Zeichenketten
§1 Vertragsgegenstand (Leerschritt)
§1 Vertragsgegenstand (Tabulator)
Sie haben in den drei Teilen erfahren, wie Sie mit regulären Ausdrücken umgehen. Dieses Wissen können Sie nun anwenden, um Daten in Google Analytics bzw. Urchin Software zu finden, herauszufiltern oder anzuzeigen. Abschließend ein paar Beispiele aus der Praxis:
Google Analytics
Urchin Software
Schreibe einen Kommentar