Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Beide Seiten der vorigen RevisionVorhergehende ÜberarbeitungNächste Überarbeitung | Vorhergehende Überarbeitung | ||
project:wwwcccde [02.01.2014 19:17] – [Suchmaschine] kernelpanic | project:wwwcccde [06.03.2015 21:51] (aktuell) – [Data-Entry] laura | ||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
+ | ====== www.ccc.de ====== | ||
+ | |||
Dieses Projekt hat zum Ziel, eine neue technische Basis für www.ccc.de zu schaffen. Dabei soll die Useability für Leute, die den Content auf ccc.de zur Verfügung stellen, verbessert werden - nur so kann entsprechend bequem und schlagkräftig agiert werden. | Dieses Projekt hat zum Ziel, eine neue technische Basis für www.ccc.de zu schaffen. Dabei soll die Useability für Leute, die den Content auf ccc.de zur Verfügung stellen, verbessert werden - nur so kann entsprechend bequem und schlagkräftig agiert werden. | ||
====== Organisatorisches ====== | ====== Organisatorisches ====== | ||
* **Mailingliste**: | * **Mailingliste**: | ||
- | * **Zeitplanung**: | ||
- | |||
- | ^ Datum ^ Was? ^ | ||
- | | 6. Sept. (MRMCD) | ||
- | | 30. Sept. | Content komplett migriert | | ||
- | | Mitte Oktober | ||
- | | Ende Oktober | ||
- | |||
* **Termine** | * **Termine** | ||
* Erstes Treffen: Samstag, den 27.7. ab 11 Uhr im Raum. Zielsetzung: | * Erstes Treffen: Samstag, den 27.7. ab 11 Uhr im Raum. Zielsetzung: | ||
Zeile 49: | Zeile 43: | ||
- Aufteilung in Teams: | - Aufteilung in Teams: | ||
- Content-Migration: | - Content-Migration: | ||
- | - HTML& | + | - HTML& |
- Betatest. Hier wird das Testsystem einem größeren Personenkreis zugänglich gemacht, ggf. auftretende Fuckups müssen diskutiert werden. | - Betatest. Hier wird das Testsystem einem größeren Personenkreis zugänglich gemacht, ggf. auftretende Fuckups müssen diskutiert werden. | ||
- Rollout - ggf. auf der bereits bestehenden Infrastruktur. | - Rollout - ggf. auf der bereits bestehenden Infrastruktur. | ||
Zeile 57: | Zeile 51: | ||
Howto: [[project: | Howto: [[project: | ||
+ | ======= Setup der Webseite ======= | ||
+ | Howto: [[project: | ||
====== Suchmaschine ===== | ====== Suchmaschine ===== | ||
- | Als Suchmaschine bietet sich Apache Solr (Engine) mit Nutch (Crawler) an, wobei die Skalierung auch bei extremen Größenordnungen noch gegeben ist. Dynamischer Content wird auch indiziert, wobei es wie auch bei Google gewisse Einschränkungen gibt. robotx.txt Files werden beachtet. Ein Prototyp ensteht unter http://search.c3events.de (ist aktuell nur zweitweise online) wobei Crawler, Engine und Frontend auf der gleichen Maschine laufen. Indiziert wird derzeit nur der Content von https:// | + | Als Suchmaschine bietet sich Apache Solr (Engine) mit Nutch (Crawler) an, wobei die Skalierung auch bei extremen Größenordnungen noch gegeben ist. Dynamischer Content wird auch indiziert, wobei es wie auch bei Google gewisse Einschränkungen gibt. robotx.txt Files werden beachtet. Ein Prototyp ensteht unter https://search.c3event.de (ist aktuell nur zweitweise online) wobei Crawler, Engine und Frontend auf der gleichen Maschine laufen. Indiziert wird derzeit nur der Content von https:// |
**Zugangsdaten search.c3event.de** | **Zugangsdaten search.c3event.de** | ||
+ | |||
+ | //Kann zeitweise offline sein// | ||
Username: ccc | Username: ccc | ||
Zeile 75: | Zeile 73: | ||
* Die Suche kann auch von verschiedenen Erfas genutzt werden, so könnten die Webangebote der verschienen Erfas zentral indiziert werden | * Die Suche kann auch von verschiedenen Erfas genutzt werden, so könnten die Webangebote der verschienen Erfas zentral indiziert werden | ||
* Der Crawler ist nicht nur auf http(s) beschränkt | * Der Crawler ist nicht nur auf http(s) beschränkt | ||
- | * Nutzung von Cloudflare bei stakren Lastsitualtionen? (z.B. XXC3) | + | * Nutzung von Cloudflare bei besonderen Lastsituationen? (z.B. XXC3) |
* Je nach Umfang des Webauftritts sehr hohe Speicheranforderungen (Apache Hadoop lässt grüßen) | * Je nach Umfang des Webauftritts sehr hohe Speicheranforderungen (Apache Hadoop lässt grüßen) | ||
* Die Qualität der Suche kann sich sehen lassen, bleibt noch abzuwarten, was der mit PDF oder OpenOffice Files macht. Microsoft Office mag er offenbar nicht -> Wird nicht indiziert. | * Die Qualität der Suche kann sich sehen lassen, bleibt noch abzuwarten, was der mit PDF oder OpenOffice Files macht. Microsoft Office mag er offenbar nicht -> Wird nicht indiziert. | ||
* Der Crawler benötigt noch einiges Tuning (Speicherlast vs. Speed) | * Der Crawler benötigt noch einiges Tuning (Speicherlast vs. Speed) | ||
+ | * Probleme beim Compilieren von OpenJDK unter FreeBSD, daher Testsystem zunächst auf Debian Linux implementiert, | ||
**Userinterface** | **Userinterface** | ||
Zeile 84: | Zeile 83: | ||
KISS (Keep It Stupid and Simple) erlaubt nicht nur eine einfache Integration, | KISS (Keep It Stupid and Simple) erlaubt nicht nur eine einfache Integration, | ||
- | **Wordpress** | + | Wenn für unseren neuen Webauftritt ein passendes SOLR Schema gefunden ist, dann wären noch Fragen zum Search GUI zu klären, wobei grundsätzlich folgende Wege möglich sind: |
+ | |||
+ | - Direkter Zugriff mit XML über den Webservice? Vorteil: Kann jederzeit geändert werden. Die XML Antwort muss jedoch über ein XSLT in HTML umgewandelt werden. | ||
+ | - Eigener Tomcat/ | ||
+ | - @Erfas: Eigener Crawler oder vom CCC Crawler indizieren lassen? - muss jeder Erfa für sich entscheiden, | ||
+ | |||
+ | |||
+ | |||
+ | **Updates** | ||
+ | |||
+ | * 10.01.2014: Suggestion Funktion auf Server läuft, jedoch Userfrontend muss das zu Fuß über XML machen | ||
- | Da gibt es auch ein Plugin für Apache Solr: http:// | ||
Zeile 96: | Zeile 105: | ||
* Multilanguage-Support | * Multilanguage-Support | ||
* ... siehe Etherpad (vorerst) | * ... siehe Etherpad (vorerst) | ||
+ | * Zertifikate: | ||
+ | |||
+ | |||
+ | ==== Metadaten ==== | ||
+ | ---- dataentry projekt ---- | ||
+ | name : www.ccc.de | ||
+ | contact | ||
+ | tags_tags | ||
+ | type : projekt | ||
+ | subtype | ||
+ | sticky_hidden : no | ||
+ | ---- | ||