Étiquette : big data (Page 1 of 7)

See the websites that make AI bots like ChatGPT sound so smart

Google’s C4 dataset

“AI chatbots have exploded in popularity over the past four months, stunning the public with their awesome abilities, from writing sophisticated term papers to holding unnervingly lucid conversations. Chatbots cannot think like humans: They do not actually understand what they say. They can mimic human speech because the artificial intelligence that powers them has ingested a gargantuan amount of text, mostly scraped from the internet.
This text is the AI’s main source of information about the world as it is being built, and influences how it responds to users. If it aces the law school admissions test, for example, it’s probably because its training data included thousands of LSAT practice sites. Tech companies have grown secretive about what they feed the AI. So The Washington Post set out to analyze one of these data sets to fully reveal the types of proprietary, personal, and often offensive websites that go into an AI’s training data.”

Source : See the websites that make AI bots like ChatGPT sound so smart – Washington Post

Big data, quand le mieux devient l’ennemi du bien ?

https://i0.wp.com/www.sciencespo.fr/fr/static/f8b443e451f346edfeb11e5978f8358c/10237/big_data_White_Mocca_ST_0817ae7200.webp?w=676&ssl=1

“Dr. Michael Bailey a lancé sa leçon avec un exemple significatif. Sur trois sondages réalisés afin d’estimer combien de citoyens américains se faisaient vacciner contre le Covid, le plus conforme à la “réalité” (soit en l’occurrence les résultats des autorités sanitaires) était celui qui avait pourtant le moins de participants (Axios-Ipsos), soit moins de 1 000 personnes contre les 250 000 personnes qui répondaient au sondage hebdomadaire en ligne de Facebook.”

Source : Big data, quand le mieux devient l’ennemi du bien ? | Sciences Po

https://i0.wp.com/www.beaude.net/no-flux/wp-content/uploads/2020/03/1582126936038-credit-card.jpeg?w=676&ssl=1

“Yodlee, the largest financial data broker in the U.S., sells data pulled from the bank and credit card transactions of tens of millions of Americans to investment and research firms, detailing where and when people shopped and how much they spent. The company claims that the data is anonymous, but a confidential Yodlee document obtained by Motherboard indicates individual users could be unmasked.”

Source : Leaked Document Shows How Big Companies Buy Credit Card Data on Millions of Americans – VICE

Facebook tarde à livrer les données promises aux scientifiques

“Facebook avait précisé que les données transmises aux scientifiques sélectionnés seraient anonymisées. Mais il est techniquement très compliqué de le faire totalement sur de vastes jeux de données personnelles. Par le biais de croisements et de recoupements, il est possible de réidentifier des internautes pourtant « anonymes », comme l’avaient montré, dès les années 2000, des recherches effectuées à partir d’une fuite de données issues du moteur de recherche d’AOL. Pour limiter ces risques, Facebook avait annoncé travailler à une anonymisation dite « différentielle » des jeux de données, censée régler le problème. C’est ce nouveau processus qui « a pris plus de temps que prévu », explique le réseau social.”

Source : Facebook tarde à livrer les données promises aux scientifiques

GELT 2015-2018

“The map  takes the more than 6.6 billion location mentions across the 850 million worldwide news articles monitored by GDELT 2015-2018, snaps them to a 0.001 degree grid and then visualizes the final dataset. Locations are not sized by the number of mentions they receive, meaning a major metropolis mentioned tens of millions of times will still only appear as a single small dot in the image below. Due to artifacts of the rasterization pipeline you will see a few areas of the map below with rectangular artifacting – those are technical issues, rather than meaningful geographic patterns”

Source : Mapping The Geography Of GDELT: 2015-2018 – The GDELT Project

“When we use data to create better experiences for you, we work hard to do it in a way that doesn’t compromise your privacy. One example is our pioneering use of Differential Privacy, where we scramble your data and combine it with the data of millions of others. So we see general patterns, rather than specifics that could be traced back to you. These patterns help us identify things like the most popular emoji, the best QuickType suggestions, and energy consumption rates in Safari.”

Source : Privacy – Apple

“Considérations stratégiques et morales mises à part, Palantir est-elle vraiment la meilleure dans son domaine ? Depuis deux ans, de très nombreuses sociétés et administrations ont pourtant dénoncé les contrats passés avec l’entreprise. Trop chers, au regard des services rendus, ont estimé Coca-Cola ou Home Depot, aux Etats-Unis. En Europe, l’assureur Axa n’a pas non plus renouvelé son contrat avec Palantir, après avoir développé ses propres systèmes d’analyse de données en interne. JP Morgan Chase, l’un de ses premiers grands comptes du secteur privé, a cessé sa collaboration, après un scandale rocambolesque ayant vu le chef de la sécurité de la banque mettre des membres du conseil d’administration sous surveillance, avec l’appui des outils de Palantir.”

Source : Palantir, l’embarrassant poisson-pilote du big data

“The Selfish Ledger positions Google as the solver of the world’s most intractable problems, fueled by a distressingly intimate degree of personal information from every user and an ease with guiding the behavior of entire populations. There’s nothing to suggest that this is anything more than a thought exercise inside Google, initiated by an influential executive. But it does provide an illuminating insight into the types of conversations going on within the company that is already the world’s most prolific personal data collector.”

Source : Google’s Selfish Ledger is an unsettling vision of Silicon Valley social engineering – The Verge

« Older posts

© 2024 no-Flux

Theme by Anders NorenUp ↑