gi_progetto

Progetto di gestione dell'informazione, sviluppato in cooperazione con Daniele Bianchini.

Web crawlers construction python:

Scrapy framework
BeautifulSoup

Installazione ed esecuzione

pip3 install -r requirements.txt

python
>>import nltk
>>nltk.download('book')
>>nltk.download('stopwords')
>>nltk.download('omw-1.4')
>>exit()

cd src
python3 main.py

Esecuzione Crawling

mkdir Docs

Al primo avvio, selezionare la voce del menu webcrawling, dare un minimo di 300 come limite e lasciare calcolare ( almeno 10 min )

Esecuzione benchmark

cancella cartella Docs, rinomina cartella Docs_benchmark in Docs esegui main.py

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
.vscode		.vscode
Docs_Benchmark		Docs_Benchmark
src		src
.gitignore		.gitignore
Presentazione Gestione dell'informazione.pdf		Presentazione Gestione dell'informazione.pdf
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

gi_progetto

Web crawlers construction python:

Installazione ed esecuzione

Esecuzione Crawling

Esecuzione benchmark

About

Releases

Packages

Contributors 2

Languages

nicholaslopiccolo/gi_progetto

Folders and files

Latest commit

History

Repository files navigation

gi_progetto

Web crawlers construction python:

Installazione ed esecuzione

Esecuzione Crawling

Esecuzione benchmark

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages