adbar/trafilatura-v0.4.1.zip
adbar-trafilatura-311da8c
.coveragerc
370 Bytes
.gitattributes
99 Bytes
.gitignore
257 Bytes
.readthedocs.yml
717 Bytes
.travis.yml
3.2 kB
CONTRIBUTING.md
1.2 kB
HISTORY.md
1.7 kB
LICENSE
35.1 kB
MANIFEST.in
109 Bytes
README.rst
8.4 kB
appveyor.yml
179 Bytes
docs
Makefile
634 Bytes
conf.py
3.1 kB
corefunctions.rst
271 Bytes
evaluation.rst
8.2 kB
index.rst
7.3 kB
installation.rst
2.9 kB
make.bat
795 Bytes
quickstart.rst
1.2 kB
requirements.txt
40 Bytes
trafilatura-demo.gif
816.6 kB
tutorial1.rst
2.8 kB
usage.rst
5.8 kB
validation.rst
742 Bytes
setup.py
3.0 kB
tests
__init__.py
90 Bytes
cache
adac.de.kindersitze.html
60.8 kB
austria.info.radfahren.html
204.5 kB
basicthinking.de.tweets.html
185.2 kB
befifty.montauk.html
149.1 kB
blog.mondediplo.net.turpitude.html
64.7 kB
blog.python.org.html
58.1 kB
blog.wordpress.com.diverse.html
79.3 kB
bmjv.de.konsum.html
55.9 kB
boingboing.net.millenials.html
43.1 kB
brandenburg.de.homo-brandenburgensis.html
54.0 kB
brigitte.de.ikigai.html
200.2 kB
buchperlen.wordpress.com.html
180.6 kB
caktusgroup.com.django.html
65.9 kB
cdu-fraktion-erfurt.de.waldorfschule.html
45.3 kB
changelog.blog.zwischenbilanz.html
124.1 kB
chineselyrics4u.com.zhineng.html
254.6 kB
chip.de.beef.html
155.4 kB
chip.de.tests.html
199.1 kB
cnet.de.schutz.html
86.7 kB
computerbase.de.htc.html
37.0 kB
correctiv.org.zusage.html
409.4 kB
crazy-julia.de.tipps.html
127.1 kB
creativecommons.at.faircoin.html
28.1 kB
creativecommons.org.html
70.3 kB
de.creativecommons.org.endlich.html
38.3 kB
demokratiewebstatt.at.luft.html
133.9 kB
denkanstoos.com.2012.html
55.9 kB
die-partei.net.luebeck.html
11.6 kB
dw.com.colonial.html
82.1 kB
dw.com.uncork.html
69.9 kB
ebrosia.de.zinfandel.html
125.2 kB
en.wikipedia.org.tsne.html
108.9 kB
erp-news.info.interview.html
126.1 kB
exotic_tags.html
416 Bytes
exotic_tags_tei.html
444 Bytes
fairkom.eu.about.html
47.3 kB
faz.net.streaming.html
892.4 kB
franceculture.fr.idees.html
127.8 kB
franziska-elea.de.vuitton.html
110.0 kB
futurezone.at.lyft.html
57.2 kB
github.blog.spiceland.html
53.3 kB
gofeminin.de.abnehmen.html
131.8 kB
gregoryszorc.com.python3.html
49.4 kB
gruen-digital.de.jahrestagung.html
60.6 kB
heise.de.lithium.html
132.5 kB
hundeverein-kreisunna.de.html
6.4 kB
iloveponysmag.com.barbour.html
39.0 kB
incurvy.de.wellness.html
62.3 kB
internet-law.de.pseudonymen.html
71.4 kB
jolie.de.adele.html
75.9 kB
jovelstefan.de.gefallt.html
24.2 kB
knowtechie.com.rally.html
137.3 kB
kulinariaathome.com.mandelplätzchen.html
46.6 kB
lady50plus.de.sekre.html
118.9 kB
landwirt.com.sensortechnik.html
72.4 kB
laviedesidees.fr.evaluation.html
111.1 kB
lemire.me.json.html
69.1 kB
love-hina.ch.0409.html
19.5 kB
luxuriousmagazine.com.polo.html
184.9 kB
luxuryhaven.co.hyatt.html
201.7 kB
majkaswelt.com.fashion.html
32.5 kB
meedia.de.freenet.html
210.0 kB
mixed.de.vrodo.html
130.5 kB
modepilot.de.duschkopf.html
733.1 kB
moritz-meyer.net.vreni.html
123.1 kB
nationalgeographic.co.uk.goats.html
68.8 kB
nature.com.telescope.html
103.9 kB
netzpolitik.org.abmahnungen.html
173.4 kB
novalanalove.com.ear-candy.html
46.5 kB
otto.de.twoforfashion.html
95.3 kB
phys.org.tool.html
105.7 kB
piratenpartei-mv.de.grundeinkommen.html
51.5 kB
plentylife.blogspot.pamela-reif.html
146.1 kB
pluralsight.com.python.html
42.2 kB
psl.eu.luniversite.html
64.0 kB
rechtambild.de.kochbuch.html
91.0 kB
reuters.com.parasite.html
231.5 kB
rnz.de.witzel.html
92.6 kB
rs-ingenieure.de.tragwerksplanung.html
6.0 kB
salon.com.emissions.html
74.7 kB
sauvonsluniversite.com.spip.html
22.1 kB
schleifen.ucoz.de.briefe.html
60.3 kB
scmp.com.playbook.html
243.1 kB
shingon-reiki.de.schamanismus.html
36.7 kB
simplyscience.ch.erdoel.html
37.4 kB
skateboardmsm.de.dormhagen.html
63.6 kB
sonntag-sachsen.de.emanuel.html
33.6 kB
soundofscience.fr.1927.html
38.9 kB
speicherguide.de.schwierige.html
28.5 kB
spektrum.de.engelbart.html
240.7 kB
spiegel.de.albtraum.html
184.0 kB
spreeblick.com.habeck.html
44.9 kB
stackoverflow.com.rust.html
92.7 kB
stuttgart.de.html
55.1 kB
sueddeutsche.de.flixtrain.html
119.9 kB
telemedicus.info.rezension.html
37.2 kB
theguardian.com.academics.html
736.6 kB
theplanetarypress.com.forestlands.html
131.0 kB
theverge.com.ios13.html
142.2 kB
threatpost.com.android.html
80.9 kB
toralin.de.schmierfett.html
132.0 kB
vancouversun.com.microsoft.html
193.7 kB
vice.com.amazon.html
226.9 kB
viehbacher.com.steuerrecht.html
40.9 kB
wehranlage-horka.de.887.html
11.7 kB
wikimediafoundation.org.turkey.html
43.8 kB
womencantalksports.com.top10.html
23.2 kB
zeit.de.zugverkehr.html
185.2 kB
comparison.py
15.6 kB
eval
1337kultur.de.picard.html
64.5 kB
1hundetagebuch.wordpress.com.langer.html
86.6 kB
2gewinnt.wordpress.com.uns.html
66.7 kB
abenteuer-astronomie.de.plejaden.html
73.3 kB
abookshelffullofsunshine.blogspot.com.interview.html
174.0 kB
achtundvierzig.hypotheses.org.822.html
50.7 kB
advents-shopping.de.weihnachtsmaerkte.html
16.8 kB
ahlen.de.reparaturcafe.html
47.1 kB
aktion-hummelschutz.de.hummeln.html
70.3 kB
alexander-klier.net.zeitphilosophie.html
58.8 kB
alexanderlasch.wordpress.com.sprachgeschichte.html
89.5 kB
anchor.ch.lanka.html
84.4 kB
andreabottlinger.wordpress.com.arent.html
63.9 kB
anwaltniemeyer.de.index.html
14.9 kB
aoc.media.archaisme.html
61.6 kB
archiv.krimiblog.de.2895.html
13.1 kB
arsnova.thm.de.frag.html
30.0 kB
assabah.com.tn.article.html
70.7 kB
aussengedanken.de.feuerholz.html
74.1 kB
baike.baidu.com.tanya.html
281.2 kB
banyuetan.org.1000200033136171577956287380194268_1.html
40.7 kB
bayrische-bembel.de.504.html
22.6 kB
beyssonmanagement.com.innovation.html
68.2 kB
bibliothek2null.de.mai.html
26.0 kB
blog.gaijinpot.com.chikan.html
71.0 kB
blog.teufel.de.leistung.html
116.9 kB
bloghaus.hypotheses.org.2320.html
68.1 kB
blogoff.de.i-htm.html
29.4 kB
bondyblog.fr.paris-8.html
72.0 kB
buero-hoppe.de.baumgutachten.htm
12.2 kB
bummfilm.de.über.html
100.4 kB
bunterepublik.wordpress.com.talstrasse.html
80.6 kB
campino2k.de.uberspace.html
42.3 kB
cbsnews.com.carolina.html
119.5 kB
cecil.de.lieblingsfarbe.html
6.0 kB
chadim.net.schreibstil.html
19.4 kB
changenow.de.loibl.html
210 Bytes
chip.de.bestcrypt.html
152.8 kB
chorknaben-ulm.de.geschichte.html
26.8 kB
colours-of-the-soul.alhelm.net
151.9 kB
columbus-entdeckt.de.trolls.html
14.2 kB
coopbuddy.de.bee.html
67.1 kB
creativecommons.ch.wie.html
51.6 kB
creeny.wordpress.com.nebelsuppe.html
66.9 kB
damianduchamps.wordpress.com.hbdi.html
88.2 kB
dbjr.de.bundespraesident.html
16.4 kB
de.globalvoices.org.nicaragua.html
193.0 kB
de.happycoffee.org.sidamo.html
205.4 kB
de.induux.com.energiezaehler.html
37.7 kB
deleuze.enacademic.com.micropolitics.html
44.0 kB
denkmalpraxismoderne.de.studentendorf.html
60.7 kB
der-erfolg-gibt-recht.de.rinderleber.html
71.9 kB
derpapierplanet.de.juni.html
155.1 kB
deutschlandfunk.de.titanic.html
81.4 kB
deviante-pfade.de.unbefriedigt.html
33.9 kB
disfunctions.de.podcasts.html
29.8 kB
dobszay.ch.geheimdiensten.html
44.4 kB
doschu.com.solopreneur.html
62.4 kB
echte-demokratie-jetzt.de.blog.html
90.5 kB
einfachspanien.de.malaga.html
24.3 kB
ejwue.de.lieferketten.html
54.1 kB
elle.de.sneaker.html
87.7 kB
elpais.com.ciencia.html
112.3 kB
ethify.org.vegetarier.html
43.1 kB
faz.net.leone.html
632.6 kB
feuerwehrtaucher-oldenburg.de.ausbildung.html
6.3 kB
fivethirtyeight.com.endorsement.html
77.4 kB
flowfx.de.tmux.html
8.2 kB
frau-sabienes.de.konsumsparen.html
110.7 kB
gala.fr.surnom.html
192.7 kB
geburtstagsecke.de.ideen.html
73.0 kB
gizmeo.eu.insekten.html
394.6 kB
gnadlib.wordpress.com.scherenschnitt.html
122.1 kB
gnaur.wordpress.com.moglichkeit.html
58.3 kB
grossefragen.wordpress.com.projekt.html
174.6 kB
guenter-pilger.de.mailaktion.htm
11.0 kB
gv-bayern.de.portraet.html
51.7 kB
hackernoon.com.scrape.html
22.0 kB
haenselblatt.com.chinese.html
18.9 kB
happyface313.com.plantur.html
117.5 kB
hearya.com.metal.html
50.6 kB
heiko-adams.de.laufen.html
144.2 kB
helge.at.mahu.html
38.0 kB
herrpfleger.de.fuelcell.html
208.4 kB
hertha-blog.de.dame.html
46.0 kB
hr-innovation.org.enterprise.html
25.5 kB
ihrwebprofi.at.publikumsvoting.html
15.2 kB
insubordinant.wordpress.com.speed.html
84.8 kB
interscenar.io.hoeren.html
96.0 kB
it-finanzmagazin.de.creditshelf.html
105.6 kB
it-for-kids.org.variables.html
12.0 kB
it-learner.de.autotuning.html
172.4 kB
jan-grosser.de.xum1541.html
14.6 kB
japantimes.co.jp.surgical.html
103.2 kB
journal.3960.org.firefox.html
20.3 kB
juliasleseblog.blogspot.com.irland.html
24.5 kB
klaenge-des-verschweigens.de.geschichte.html
25.1 kB
knowledge-on-air.de.koa039.html
56.8 kB
lapresse.tn.parite.html
182.9 kB
lastampa.it.temperature.html
84.1 kB
latimes.com.bloomberg.html
181.7 kB
lavazza.de.qualita.html
151.6 kB
ledevoir.com.trottinettes.html
152.9 kB
lernpfadprismen.wordpress.com.masse.html
73.6 kB
lexikon.huettenhilfe.de.banane.html
22.8 kB
limespace.de.entloeten.html
63.5 kB
literaturgefluester.wordpress.com.jahr.html
86.3 kB
litradio.net.bossong.html
74.4 kB
madame.lefigaro.fr.dintestin.html
111.3 kB
maescot.de.schafskunde.html
30.4 kB
management-circle.de.glasses.html
77.7 kB
marktplatz.die-besserwisser.org.zeit.html
17.0 kB
mediaarchitecture.de.weber.html
12.6 kB
medium.com.recherche.html
163.4 kB
mitternachtskabinett.wordpress.com.gentrifizierung.html
78.6 kB
mobilsicher.de.icloud.html
35.3 kB
murdeltas.wordpress.com.politcamp.html
79.0 kB
nalas-loewenseiten.info.m.html
60.4 kB
neos.eu.wir.html
26.4 kB
netzfueralle.blog.rosalux.de.netzpolitik.html
60.4 kB
newrepublic.com.neoliberalism.html
112.5 kB
nextkabinett.wordpress.com.garden.html
123.1 kB
nmb-media.de.ebay.html
87.7 kB
nurmeinstandpunkt.wordpress.com.blogposting.html
60.6 kB
ohneq.de.johannes.html
24.6 kB
pagesix.com.myers.html
244.5 kB
pamelaandersonfoundation.org.yellow.html
392.2 kB
papaganda.org.minions.html
57.3 kB
parallels.com.desktop.html
194.1 kB
parcoabruzzo.it.58354.html
69.4 kB
pinup-fashion.de.korsetts.html
63.2 kB
piratenpartei-marburg.de.fridays.html
54.5 kB
piratenpartei.at.grundeinkommen.html
51.4 kB
pix-bavaria.de.html
18.6 kB
pointofsail-kiel.de.wilson.html
46.8 kB
prof-pc.de.html
2.3 kB
pronats.de.arbeit.html
25.9 kB
qualisys.eu.gefahrstoff.html
26.3 kB
reddit.com.init.html
534.0 kB
regards.fr.enquetes.html
81.6 kB
regiolanda.de.filmbuero.html
159.4 kB
reisen-mit-dem-internet.de.emden-21416
48.4 kB
rent-a-salesman.eu.auslagern.html
109.6 kB
resonator-podcast.de.res158.html
47.3 kB
rete-mirabile.net.15jahre.html
57.0 kB
rheinruhronline.de.essenwestviertel.htm
51.4 kB
ritinardo.wordpress.com.btw17.html
73.7 kB
rueda.wikidot.com.enchufla.html
39.2 kB
schneems.com.rubocop.html
46.3 kB
seelenradio.de.leo.html
20.7 kB
seglerblog.stössenseer.de.sauber.html
79.2 kB
shabka.org.about.html
72.4 kB
sheego.de.cleaning.html
145.6 kB
silvias.net.wahlzensur.html
37.6 kB
singapur-reiseinfo.de.abc.html
214.7 kB
sladisworld.wordpress.com.sigma.html
86.3 kB
spektrum.de.coronavirus.html
129.9 kB
spontis.de.jahrzehnt.html
264.8 kB
sprechblase.wordpress.com.zapfsaeulen.html
121.3 kB
sprechwaisen.com.sw082.html
31.7 kB
steinhau.com.zahlen.html
69.7 kB
strafprozess.ch.polizisten.html
45.2 kB
street-one.de.blue.html
5.9 kB
surfguard.wordpress.com.medien.html
77.8 kB
tafelblog.de.europa.html
51.8 kB
talent.ch.5031.html
50.5 kB
taz.de.siemens.html
168.3 kB
tdg.ch.chlorothalonil.html
148.8 kB
tell-review.de.heimweh.html
97.8 kB
thebigbone.wordpress.com.ueberforderung.html
89.0 kB
thenervousbreakdown.com.loneliest.html
46.1 kB
timesofisrael.com.washington.html
189.9 kB
tofugu.com.dezuka-suisan.html
43.6 kB
together.ch.schaffhausen.html
44.3 kB
tonedeaf.thebrag.com.luboku.html
61.0 kB
toptal.com.python.html
152.8 kB
trails.de.ischgl.html
70.2 kB
trainingline-english.de.einzeltraining.html
41.8 kB
travanto.de.ferienhaus-feinen.php
192.6 kB
unsere-zeitung.at.inklusion.html
154.8 kB
unterwegsinberlin.de.friedrichsfelde.html
166.9 kB
uusisuomi.fi.angela.html
478.2 kB
viertausendhertz.de.ddg48.html
74.4 kB
villacc.de.galaxy.html
213.0 kB
vinosytapas.de.rioja.html
98.7 kB
von-der-see.de.design.html
49.1 kB
wbf.admin.ch.14093.html
55.6 kB
weinlachgummis.blogspot.com.rezi.html
213.8 kB
whiskyverkostung.com.halle.html
31.2 kB
wiki.piratenpartei.de.stammtisch.html
19.9 kB
wir-empfehlen.info.3289.html
355.9 kB
wired.com.burn.html
304.1 kB
wolfgangschmale.eu.duchhardt.html
67.2 kB
wolfsrebellen-netz.forumieren.com.regeln.html
107.7 kB
xinhuanet.com.c_1125597921.htm
22.2 kB
yle.fi.3-11212601.html
435.5 kB
zahlenzauberin.wordpress.com.ferien.html
54.2 kB
zulang.wordpress.com.genitalverstuemmelung.html
73.9 kB
evaldata.py
388.0 kB
metadata_tests.py
26.5 kB
resources
httpbin_sample.html
3.7 kB
unit_tests.py
55.2 kB
tox.ini
452 Bytes
trafilatura
__init__.py
733 Bytes
cli.py
7.1 kB
core.py
26.5 kB
data
tei-schema.pickle
913.9 kB
external.py
4.0 kB
filters.py
3.3 kB
htmlprocessing.py
5.9 kB
lru.py
3.8 kB
metadata.py
12.9 kB
metaxpaths.py
2.4 kB
settings.py
3.5 kB
utils.py
9.2 kB
xml.py
11.5 kB
xpaths.py
7.8 kB