Kuinka käyttää Apache Crawl Via Java

Apache Nutch on avoimen lähdekoodin web crawler sovellus kirjoitettu Java-ohjelmointikielellä. Sen kehitti Apache Software Foundation. Jos haluat käyttää Apache-kehitetty tela, sinulla pitää olla Apache Tomcat ja Java 1.4 Sun tai IBM asennettu Linux-tietokone. Kun se on asennettu, käytä Apache Nutch kuin hakurobotti siemeniin tietokanta listan www-osoitteet, kuten Internet jättiläisiä kuten Google ja Yahoo tekemistä niiden hakukoneita.

Ohjeet

1 Avaa tekstieditori ja muokata "ryömiä-urlfilter.txt" tiedosto "conf" hakemistoon. Vaihda verkkotunnus nimi verkkosivuilla haluat indeksoida. Esimerkiksi koko rivi tekstiä pitäisi näyttää tältä kerran muokattu, todellinen verkkotunnus sijasta "example.com":

+ ^ Http: // ([-z0-9] * \.) * Example.com /

2 Käynnistä pääte kehote tietokoneen ja suorittaa ryömiä nimettyjen verkkosivuilla. Kirjoita "./nutch ryömiä ../urls -dir ../crawled/ -depth 1" ja paina "Enter" -näppäintä.

3 Aloita Apache Tomcat-palvelimen. Kirjoita "catalina.sh alkavat" kehotteeseen ja paina "Enter" -painiketta.

4 Avaa web-selain ja vierailla "http: // localhost: 8080 / & quot; käyttää hakutoimintoa. Kirjoita yksi tai useampi hakusana käyttöliittymän hakukenttään ja klikkaa" Etsi "painiketta. Hakutulokset näkyvät seuraava sivu.

Aiheeseen liittyviä artikkeleita