Large scale internet operations such as Google, Facebook, and Amazon manage amazing amounts of data. Doing so requires databases that are distributed across multiple servers or even multiple data centers, with high throughput, strong latency requirements, "five nines" of availability, and often with strict data consistency requirements. This talk starts by introducing relational SQL databases, NoSQL databases, and the current state of the art in such databases as deployed in industry. It then provides an introduction to Google F1, a SQL database based on Google's Spanner distributed storage system. F1 is used to store the data for AdWords, Google's search advertising product. F1 and Spanner represent a new, hybrid approach to distributed databases that combines the scalability and availability of NoSQL storage systems like Google's Bigtable and Amazon's DynamoDB, with the convenience and consistency guarantees provided by traditional SQL relational databases.
Bart Samwel has a Master's degree in Computer Science from Leiden University. It is rumored that he has been excluded from any department statistics as an outlier due to the fact that he graduated cum laude and simultaneously took about 12 years to get to that point. He is currently employed by Google, where he works on the F1 SQL query engine.
Twiqs.nl is een website waarmee miljarden Nederlandse tweets kunnen worden doorzocht. We laten zien welke methodes we hebben gebruikt om de tweets te verzamelen, te bewerken, op te slaan en te visualiseren. Daarna geven we een paar voorbeelden van onderzoeken die kunnen worden gedaan met behulp van de grote verzameling tweets.
Deep learning is een machine learning techniek die bij uitstek geschikt is voor “Big Data”. Het gebruik van diepe neurale netwerken heeft een revolutie teweeg gebracht in de mogelijkheden van praktische applicaties van machine learning. Waar er vroeger een sterke algoritmische limitatie was op de hoeveelheid data die gebruikt kon worden, is het mogelijk met deep learning om terrabytes aan data te verwerken. Bedrijven als Microsoft, Facebook en Google gebruiken deep learning al op een grote schaal om hun machine learning significant te verbeteren. Projecten als Google Brain en Google's zelfrijdende auto's worden bijvoorbeeld gedreven door deze grote Neurale Netwerken. Wil je meer leren over deze geavanceerde machine learning technieken, kom dan naar deze lezing!
Deze lezing wordt gegeven door Tijmen Blankevoort, oud wiskunde student van Leiden en co-founder van Scyfer BW. Een spin-off van de universiteit van Amsterdam die machine learning toepast voor grote bedrijven in Nederland.
Een van de vele leuke voorbeelden van het gebruik van Big Data in het onderwijs. Wat is Big Data eigenlijk en hoe komt Topicus er aan? Waar ligt de grens, wanneer is het Big Data? Als je het in je bezit hebt, hoe maak je het dan bruikbaar en wanneer kun/mag je er conclusies uit trekken? Deze vragen en meer zullen we aan de hand van real-world scenario’s uitwerken en toelichten.
Martijn Dashorst (@dashorst) is Wicket / Java evangelist, auteur van Wicket in Action en al 10+ jaar ontwikkelaar bij Topicus Onderwijs.
Een van de grootste problemen dat Big Data met zich meebrengt is privacy: wie heeft toegang tot mijn gegevens? Wanneer iemand datasets analyseert, is het helemaal niet nodig op alle records een voor een te bekijken: statistieken zijn afhankelijk van aggregaten en niet van individuen. Tijdens de lezing zal Arno ingaan op een manier waarbij de privacy kan worden gegarandeerd. Door middel van data te geven aan een model kan ongelimiteerd data gegenereerd worden, maar de individuele records zullen geen relatie hebben met de werkelijkheid terwijl de statistieken bijna altijd waarheidgetrouw zullen zijn.
Sinds 2000 is Arno Siebes hoofd van de Algorithmic Data Analysis onderzoeksgroep aan de Universiteit Utrecht. Hiervoor was hij 15 jaar werkzaam bij het CWI. Hoewel hij ooit begon met onderzoek naar databases verschoof dat later naar data mining (voornamelijk pattern mining). Veelal was Arno voorzitter van grote conferenties binnen de informatica.
Lex Slaghuis is oprichter van Hack de Overheid en CTO bij de Open State Foundation. De Open State Foundation zet zich in voor meer digitale transparantie in Europa. Hij is expert op het gebied van Open Data en bouwt aan online infrastructuur om Open Data een vlucht te laten nemen. Hij zal een introductie in Open Data geven met voorbeelden van interessante datasets, toepassingen en onderliggende algoritmen. Tevens worden er diverse data platformen er uitgelicht, architectuur besproken en het belang hiervan uiteengezet. Tenslotte worden diverse mogelijkheden om aan de slag te gaan met Open Data gepresenteerd: Van open data websites, thema netwerken, hackathons tot competities en challenges. Deelnemer zal een goed beeld krijgen van de mogelijkheden van Open Data en handvatten krijgen aangereikt om hiermee aan de slag te gaan.
Steeds meer gegevens komen sneller beschikbaar, en zijn steeds gevarieerder. Om ze te verwerken worden daarom veelal complexere methodes en abstracties gebruikt. Het simpelweg weergeven doormiddel van bekende methoden is vaak niet de beste oplossing. In veel gevallen leggen traditionele visualisaties, zoals bar charts, namelijk niet alle verbanden bloot, of geven zij minder inzicht dan mogelijk is. Nieuwe ontwikkelingen op het gebied van data vragen daarom veelal om nieuwe vormen van presentatie.
Tegelijkertijd wordt van veel technologie gevraagd dat deze steeds toegankelijker is, ook voor gebruikers die geen ervaring hebben met of kennis van hebben van de gebruikte technieken. Aan de hand van enige theorie en voorbeelden geeft deze lezing een inleiding in de problemen en mogelijkheden van Big Data Visualization.
Bernard van der Wees werkt bij imgZine binnen ORTEC Living Data, een combinatie van data-driven start-ups. Hij studeerde cum laude af in BedrijfsInformatieTechnologie aan de Universiteit Twente. Als onderdeel van de gelijknamige bachelor deed hij een minor Industrieel Ontwerpen. In zijn vrije tijd houdt hij zich onder andere bezig met grafisch ontwerp, politiek en media.
Niet de hoeveelheid data, maar de manier waarop bedrijven en organisaties data moeten inzetten maakt data ‘big’. Data gaat handelingen overnemen, zichzelf verrijken en zonder belemmeringen zijn eigen gang. Hoe en wanneer kun je data gebruiken om waarde toe te voegen? Waarom zijn wij als mens de volgende bottleneck in plaats van de techniek? Dit alles wordt aan de hand van sprekende voorbeelden en use cases uit de dagelijkse praktijk van KPN Consulting adviseurs uitgelegd.
Martijn van der Poel is sinds 2007 werkzaam binnen KPN Consulting in de functie van Business Consultant. In deze rol heeft hij brede ervaring als adviseur in de Finance en Healthcare markt. Hij onderscheidt zich door de primaire bedrijfsprocessen te benaderen vanuit de toegevoegde waarde die IT hieraan kan leveren. Martijn heeft ervaring op verschillende lagen van organisaties, van een operationele ICT afdeling tot en met adviesgesprekken op directieniveau. Hierdoor kan hij goed de link leggen van strategie naar operatie en omgekeerd.
Het afgelopen jaar heeft hij zich onder andere bezig gehouden met het thema Big Data binnen KPN Consulting en hieraan gelieerde projecten.